天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

Meta Llama 4实战翻车,竞技场高分遭质疑:是作弊还是误导?

2025-04-07来源:天脉网编辑:瑞雪

meta新推Llama 4系列AI模型,用户体验与官方宣传存在出入

近日,科技巨头meta震撼发布了其最新的AI模型系列——Llama 4,该系列一举推出了三款不同规格的模型:Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。据meta官方宣称,这些模型在大模型竞技场中表现不俗,尤其Llama 4 Maverick更是在多项任务中排名领先。

然而,随着用户纷纷上手体验,Llama 4系列的实际表现却与官方宣传大相径庭。不少网友反馈称,尽管Llama 4 Maverick在开放模型排名中领先,但在专注于编程任务的Kscores基准测试中,其表现却不尽如人意,甚至不如GPT-4o、Gemini Flash等其他模型。

具体来说,在编程相关的测试中,如小球在旋转六边形中跳跃的任务,Llama 4的表现并不理想。网友们纷纷在评论区表示,无论是Scout还是Maverick,在实际编程中的使用体验都不尽如人意,即使有详细的提示也难以得到满意的结果。

还有网友在Novita AI平台上对Llama 4进行了测试,并得出结论称该模型在复杂问题上表现吃力,尽管其响应速度较快。这一反馈进一步引发了用户对Llama 4实际性能的质疑。

值得注意的是,Google Deepmind的工程师Susan Zhang也在社交媒体上对Llama 4的高分提出了质疑。她表示,不清楚Llama 4是如何在lmsys上获得如此高的分数的,并猜测是否meta为lmsys定制了一个专门的模型。

针对这一系列质疑,科技媒体TechCrunch报道称meta新AI模型的基准测试存在误导性。研究发现,公开可下载的Llama 4 Maverick与托管在LM Arena上的模型在行为上存在显著差异。LM Arena上的版本似乎使用了大量表情符号,并给出了冗长的回答。这一发现进一步加剧了用户对meta AI模型真实性能的担忧。