Grok 4实测：马斯克最贵AI能力几何？网友直呼“2万块不值”-天脉财经

在人工智能领域，新星的崛起总是伴随着无尽的期待与争议。近期，马斯克力捧的Grok 4模型正式登场，一时间，关于其是否真能问鼎“地球上最聪明的AI”的讨论沸沸扬扬。

尽管Grok系列模型在跑分上从未落于下风，但用户体验上的表现却时常令人诟病。此次Grok 4发布24小时后，网友们纷纷晒出了自己的实测案例，让我们一窥其真实实力。

在编程领域，Grok 4的表现可谓喜忧参半。博主@mckaywrigley让其用three.js创建一个动画，Grok 4不仅成功完成任务，还主动调用3D模型资源，展现了在three.js和Blender等领域的显著升级。然而，在UI设计方面，Grok 4依旧短板明显，网友戏称其“不是最好的设计师”。

博主@tetsuoai则直接将Grok 4拉入“职场”，扮演一名有15年经验的C语言老程序员，要求其编写一个CLI工具来分类整理文件夹里的文件。Grok 4的表现令人惊喜，代码严谨且专业，连大小写转换都使用了ctype.h标准库。

但在另一些测试中，Grok 4也暴露出了不少问题。博主@karminski3的经典测试项目——20个小球在七边形中弹跳的三维物理测试，Grok 4三次尝试中有两次出现语法错误，唯一成功的一次也仅算“勉强可用”。

在写作方面，Grok 4的表现同样毁誉参半。其在192k上下文窗口中的表现仅次于Gemini，但在短篇小说创意写作上，虽然能产出结构清晰的故事，但情节套路化、结尾寡淡，语言过于炫技。

在SVG图像生成测试中，Grok 4的表现也各有千秋。在还原线条漫画为纯SVG的任务中，Grok 4表现拔尖，人物动作自然。但在绘制Radiohead的《In Rainbows》封面时，构图稍显单薄，层次感不足。

尽管Grok 4在三维生成、逻辑建模等方面展现出不俗实力，但在UI设计、图像理解等基础任务上仍有待提升。不少网友直呼“2万块就这”，质疑其性价比。然而，正如微软CEO纳德拉所言，许多大模型正陷入“Benchmark Hacking”的陷阱，专注于刷分而非解决实际问题。Grok 4或许并非完美无缺，但只要它仍是话题度最高的AI，总有人愿意为其买单。