Meta Llama 4实战翻车，竞技场高分遭质疑：是作弊还是误导？-天脉网

meta新推Llama 4系列AI模型，用户体验与官方宣传存在出入

近日，科技巨头meta震撼发布了其最新的AI模型系列——Llama 4，该系列一举推出了三款不同规格的模型：Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。据meta官方宣称，这些模型在大模型竞技场中表现不俗，尤其Llama 4 Maverick更是在多项任务中排名领先。

然而，随着用户纷纷上手体验，Llama 4系列的实际表现却与官方宣传大相径庭。不少网友反馈称，尽管Llama 4 Maverick在开放模型排名中领先，但在专注于编程任务的Kscores基准测试中，其表现却不尽如人意，甚至不如GPT-4o、Gemini Flash等其他模型。

具体来说，在编程相关的测试中，如小球在旋转六边形中跳跃的任务，Llama 4的表现并不理想。网友们纷纷在评论区表示，无论是Scout还是Maverick，在实际编程中的使用体验都不尽如人意，即使有详细的提示也难以得到满意的结果。

还有网友在Novita AI平台上对Llama 4进行了测试，并得出结论称该模型在复杂问题上表现吃力，尽管其响应速度较快。这一反馈进一步引发了用户对Llama 4实际性能的质疑。

值得注意的是，Google Deepmind的工程师Susan Zhang也在社交媒体上对Llama 4的高分提出了质疑。她表示，不清楚Llama 4是如何在lmsys上获得如此高的分数的，并猜测是否meta为lmsys定制了一个专门的模型。

针对这一系列质疑，科技媒体TechCrunch报道称meta新AI模型的基准测试存在误导性。研究发现，公开可下载的Llama 4 Maverick与托管在LM Arena上的模型在行为上存在显著差异。LM Arena上的版本似乎使用了大量表情符号，并给出了冗长的回答。这一发现进一步加剧了用户对meta AI模型真实性能的担忧。