大模型对决“你画我猜”，Claude6局3胜，GPT-4表现让人捉摸不透？-天脉网

在人工智能领域，一场别开生面的“你画我猜”游戏悄然兴起，吸引了众多大型语言模型的参与与人类观众的热烈围观。这场独特的比赛不仅为人工智能的能力评估提供了一个新的视角，还激发了关于AI训练方式的广泛讨论。

在这场游戏中，Grok负责绘制图像，如长颈鹿等，而其他大型语言模型如GPT-4o、Claude、Llama、Gemini等则根据图像内容进行猜测。这种新颖的测试基准不仅考验了模型的图像识别能力，还间接反映了它们的逻辑推理和语言组织能力。在一系列六局比赛中，Claude表现出色，赢得了三场胜利，而GPT-4o的回答则显得较为抽象，例如其绘制的龙卷风图像连人类也难以解读。

GPT-4o的“抽象派”作风在游戏中尤为突出，它经常以“Circle”作为首个回答，让人哭笑不得。相比之下，其他模型在大多数轮次中都表现得更为认真和准确。这一游戏不仅为观众带来了欢乐，也引发了关于AI能力评估的新思考。有人提议，这种游戏可以作为评估大型语言模型能力的新基准，甚至有人担忧，如果按照这个速度发展，人类或许将只能作为旁观者。

不过，并非所有题目都如此复杂。在较为简单的题目上，如房子、草地和海洋，所有模型都能在短时间内准确猜出答案。这显示了大型语言模型在基本图像识别方面的强大能力。然而，当涉及到更复杂的主题，如大象时，模型们则需要更多的回合来猜测正确答案。

这场“你画我猜”游戏的起源可以追溯到Simon Willison的一次测试，他让不同的大型语言模型绘制同一主题的图像以进行比较。随后，Paul Calcraft看到了这一测试的潜力，并决定将其发展成一个游戏。仅仅一天后，他就发布了游戏的0.0.1版，展示了惊人的执行力。网友们对这款游戏反应热烈，有人将其视为新的视觉基准测试，并提出了优化建议，如以答对互相题目的速度作为评分准则或加入人类成绩作为参考。

尽管有人对这场游戏的意义持怀疑态度，认为它只是一种娱乐方式，但更多人看到了其背后的教育价值。游戏化学习是教育理论和心理学中的重要概念，通过游戏，大型语言模型或许能够更快地提升能力、学习新技能。这场“你画我猜”游戏不仅为人工智能领域带来了欢乐和思考，也为未来的AI训练方式提供了新的启示。