天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

阿里通义千问推出QVQ-72B-Preview,视觉推理能力媲美物理大师?

2024-12-26来源:天脉网编辑:瑞雪

阿里通义千问团队近日宣布了一项重要进展,他们基于Qwen2-VL-72B模型,成功推出了名为QVQ-72B-Preview的开源视觉推理模型。这款新模型在解决复杂物理问题方面展现出卓越的能力,仿佛一位物理学大师,能够冷静地通过逻辑推理找到问题的解决方案。

为了全面评估QVQ-72B-Preview的性能,阿里通义千问团队在四个专业数据集上进行了测试。首先是MMMU数据集,这是一个涵盖多学科、多模态的大学级别评测集,旨在考察模型在视觉相关领域的综合理解和推理能力。还有MathVista数据集,它专注于数学相关的视觉推理,包括拼图测试图形的逻辑推理、函数图的代数推理以及学术论文图形的科学推理等。MathVision数据集则来自真实的数学竞赛,提供了更多样化、更广泛学科的问题,相比MathVista更具挑战性。最后,OlympiadBench数据集是一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含了来自奥林匹克数学和物理竞赛的8476个问题,甚至包括中国高考题目,每个问题都附有专家级的详细注释。

测试结果显示,QVQ-72B-Preview在MMMU基准测试中取得了70.3的高分,显著超越了其前身Qwen2-VL-72B-Instruct。同时,在MathVista、MathVision和OlympiadBench这三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview也表现出色,有效缩小了与当前最先进的o1模型之间的差距。

尽管QVQ-72B-Preview在视觉推理方面取得了显著进步,但阿里通义千问团队也坦诚地指出了该模型目前存在的几个限制。首先,模型在处理多语言问题时,可能会意外地混合或切换语言,从而影响响应的清晰度。其次,在递归推理方面,模型有时会陷入循环逻辑模式,产生冗长的响应而无法得出明确的结论。团队还强调了安全和伦理考虑的重要性,指出模型需要进一步增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。

同时,团队也提醒用户注意QVQ-72B-Preview的性能和基准限制。尽管该模型在视觉推理方面有所改善,但它并不能完全替代Qwen2-VL-72B的能力。特别是在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉。因此,用户在使用QVQ-72B-Preview时,需要充分考虑这些限制因素。

春晚舞台大放异彩!宇树机器人一年间“进化”成武林高手
去年,宇树在春晚的惊艳亮相开启了人形机器人进入大众生活的序曲,过去一年,以它为代表的杭产机器人,无论是双足、四足还是轮式,都从年头忙到年尾,忙着“上岗”也忙着“升级”。 宇树机器人在春晚舞台上的这套表演,电…

2026-02-17

特斯拉Optimus引领人形机器人新篇章:技术突破与市场展望
这份报告围绕特斯拉人形机器人Optimus展开技术突破解读,梳理了人形机器人领域的发展现状、特斯拉的核心技术布局与创新方向,同时分析了行业竞争、市场需求及伦理监管等关键问题。报告还解读了相关领域关键专利,并…

2026-02-16

王理宗建言:以算法创新共同体助力粤港澳大湾区数字经济腾飞
“推动‘东数西算’工程在粤港澳大湾区落地,整合香港、广州、深圳等地超算中心、智算中心及企业数据中心,形成统一的算力资源池,是打造全球数字化创新高地的关键。”王理宗提出,应推动香港、澳门高校与深圳、广州的高端…

2026-02-16

从机械到智能:具身智能如何让机器人拥有“触觉记忆”与进化力?
你有没有想过,当你失手打碎一个玻璃杯时,大脑会在0.1秒内记住这次教训,而下一次你会更小心地握住杯子——现在,机器人也开始具备这种"吃一堑长一智"的能力了!它们配备了仿生触觉传感器,能像人类手指一样感知压力、…

2026-02-16