阿里通义千问团队近日宣布了一项重要进展,他们基于Qwen2-VL-72B模型,成功推出了名为QVQ-72B-Preview的开源视觉推理模型。这款新模型在解决复杂物理问题方面展现出卓越的能力,仿佛一位物理学大师,能够冷静地通过逻辑推理找到问题的解决方案。
为了全面评估QVQ-72B-Preview的性能,阿里通义千问团队在四个专业数据集上进行了测试。首先是MMMU数据集,这是一个涵盖多学科、多模态的大学级别评测集,旨在考察模型在视觉相关领域的综合理解和推理能力。还有MathVista数据集,它专注于数学相关的视觉推理,包括拼图测试图形的逻辑推理、函数图的代数推理以及学术论文图形的科学推理等。MathVision数据集则来自真实的数学竞赛,提供了更多样化、更广泛学科的问题,相比MathVista更具挑战性。最后,OlympiadBench数据集是一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含了来自奥林匹克数学和物理竞赛的8476个问题,甚至包括中国高考题目,每个问题都附有专家级的详细注释。
测试结果显示,QVQ-72B-Preview在MMMU基准测试中取得了70.3的高分,显著超越了其前身Qwen2-VL-72B-Instruct。同时,在MathVista、MathVision和OlympiadBench这三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview也表现出色,有效缩小了与当前最先进的o1模型之间的差距。
尽管QVQ-72B-Preview在视觉推理方面取得了显著进步,但阿里通义千问团队也坦诚地指出了该模型目前存在的几个限制。首先,模型在处理多语言问题时,可能会意外地混合或切换语言,从而影响响应的清晰度。其次,在递归推理方面,模型有时会陷入循环逻辑模式,产生冗长的响应而无法得出明确的结论。团队还强调了安全和伦理考虑的重要性,指出模型需要进一步增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。
同时,团队也提醒用户注意QVQ-72B-Preview的性能和基准限制。尽管该模型在视觉推理方面有所改善,但它并不能完全替代Qwen2-VL-72B的能力。特别是在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉。因此,用户在使用QVQ-72B-Preview时,需要充分考虑这些限制因素。