阿里通义千问推出QVQ-72B-Preview，视觉推理能力媲美物理大师？-天脉网

阿里通义千问团队近日宣布了一项重要进展，他们基于Qwen2-VL-72B模型，成功推出了名为QVQ-72B-Preview的开源视觉推理模型。这款新模型在解决复杂物理问题方面展现出卓越的能力，仿佛一位物理学大师，能够冷静地通过逻辑推理找到问题的解决方案。

为了全面评估QVQ-72B-Preview的性能，阿里通义千问团队在四个专业数据集上进行了测试。首先是MMMU数据集，这是一个涵盖多学科、多模态的大学级别评测集，旨在考察模型在视觉相关领域的综合理解和推理能力。还有MathVista数据集，它专注于数学相关的视觉推理，包括拼图测试图形的逻辑推理、函数图的代数推理以及学术论文图形的科学推理等。MathVision数据集则来自真实的数学竞赛，提供了更多样化、更广泛学科的问题，相比MathVista更具挑战性。最后，OlympiadBench数据集是一个奥林匹克竞赛级别的双语多模态科学基准测试集，包含了来自奥林匹克数学和物理竞赛的8476个问题，甚至包括中国高考题目，每个问题都附有专家级的详细注释。

测试结果显示，QVQ-72B-Preview在MMMU基准测试中取得了70.3的高分，显著超越了其前身Qwen2-VL-72B-Instruct。同时，在MathVista、MathVision和OlympiadBench这三个专注于数学和科学问题的基准测试中，QVQ-72B-Preview也表现出色，有效缩小了与当前最先进的o1模型之间的差距。

尽管QVQ-72B-Preview在视觉推理方面取得了显著进步，但阿里通义千问团队也坦诚地指出了该模型目前存在的几个限制。首先，模型在处理多语言问题时，可能会意外地混合或切换语言，从而影响响应的清晰度。其次，在递归推理方面，模型有时会陷入循环逻辑模式，产生冗长的响应而无法得出明确的结论。团队还强调了安全和伦理考虑的重要性，指出模型需要进一步增强安全措施，以确保可靠和安全的性能，用户在部署时应保持谨慎。

同时，团队也提醒用户注意QVQ-72B-Preview的性能和基准限制。尽管该模型在视觉推理方面有所改善，但它并不能完全替代Qwen2-VL-72B的能力。特别是在多步骤视觉推理过程中，模型可能会逐渐失去对图像内容的关注，导致产生幻觉。因此，用户在使用QVQ-72B-Preview时，需要充分考虑这些限制因素。