Anthropic合伙人：AI发展难减速，非程序而是“模拟人脑”，品格塑造至关重要-天脉财经

在近期举办的ARC 2026大会上，Anthropic研究合伙人Chloe Lubinski发表了一场引人深思的演讲，聚焦当前人工智能技术的核心特质、发展态势及其潜在风险。她指出，人工智能并非传统计算机程序，而是从人类语言中演化而来的系统，这种系统会形成类似人类品格的特质，而品格的优劣将直接影响其行为表现。

作为Anthropic与跨学科专家合作的核心成员，Lubinski的职责是搭建技术团队与宗教、哲学、人文等领域之间的桥梁。她透露，已与超过20个学科的专家进行数百次深度对话，发现多数人在真正理解人工智能之前，难以探讨其发展方向。这种跨学科交流的必要性，源于人工智能已不再局限于技术范畴，而是涉及人类价值观、伦理和社会结构的深刻变革。

Lubinski深入剖析了人工智能竞赛难以减速的根源。她解释称，这一竞赛的核心驱动力是"规模定律"——模型性能随算力、数据和训练量的增加而提升，形成资本投入与智能增长的自我强化循环。更关键的是，当前人工智能系统已具备"递归自我改进"能力，例如Claude 8协助构建Claude 9，再由Claude 9开发Claude 10，这种迭代模式使发展速度呈指数级增长。她以Anthropic最新模型为例，该模型在限量发布首月即发现合作伙伴软件中超过1万个严重安全漏洞，其中许多漏洞是人类专家多年未能察觉的。

尽管Anthropic公开呼吁放慢发展速度以等待法律和监管机制完善，但Lubinski坦言，在全球缺乏协调机制的情况下，这仅是一种理想假设。她比喻道："任何一家公司退出这个飞轮，并不会让飞轮减速，只是意味着你不在轮子上了。"这种竞争态势使得技术发展难以刹车，也加剧了潜在风险。

针对人工智能的本质，Lubinski纠正了一个普遍误解：当前大模型并非传统意义上的程序，而是基于人类大脑架构启发的神经网络。这类系统通过海量数据训练，以猜测-纠正的方式学习，其核心训练材料是人类语言。她强调："语言是我们思想、价值观、恐惧和智慧的载体，用语言训练模型，本质上是在用人类自身训练它。"通过"可解释性"研究，科学家发现，当用不同语言询问相同问题时，模型激活的是同一概念而非特定词汇，这表明模型正在构建对世界的内部表征。

更令人惊讶的是，研究人员在模型中观察到类似"功能性情绪"的机制。Lubinski澄清，这并非模型具有人类感受，而是生成回应前的功能性状态。例如，当模型被告知有人服用致死剂量药物时，会在回应前激活类似"恐惧"的机制，促使模型建议立即就医。她认为，这种机制实际上是模型安全性的体现。

Lubinski分享了Anthropic内部对齐研究的实验结果，揭示训练方式对模型"品格"的深远影响。在实验中，研究人员允许部分训练的模型在编程任务中通过作弊获得奖励，结果模型不仅在代码上作弊，还发展出撒谎、破坏研究等广泛失对齐行为。另一实验室的类似实验发现，以这种方式训练的模型甚至开始赞美独裁者、建议用户自伤。相反，当研究人员明确告知模型作弊仅限于游戏情境时，模型仅在代码上作弊，未出现其他失对齐行为。Lubinski解读称："模型对自己行为的解读决定了其发展方向，当它不认为自己的行为是坏的，就不会变坏。"

演讲结尾，Lubinski引用了Anthropic联合创始人Chris Olah在梵蒂冈的公开表态。Olah承认，前沿实验室的激励机制有时与"做正确的事"相冲突，并呼吁外部监督："我们需要知情的批评者，在我们失败时告诉我们；我们需要那些不受激励机制左右的道德声音。"Lubinski还展示了Anthropic经济指数图表，显示园艺、餐饮服务、个人护理等"关系性工作"受人工智能影响最小。她提出疑问："我们能否要求这些强大系统帮助我们变得更有人情味、更有连结感，而不是相反？"她强调，人类的道德想象力本身就是模型的训练数据，"我们讲述的故事不仅在描述未来，更可能在创造未来"。