天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 营养美食 大燕公益 商业快讯

AI也能懂你心?蚂蚁新法让AI自动捕捉个性化需求

2025-08-03来源:天脉网编辑:瑞雪

在人工智能日益融入日常生活的今天,许多用户发现与AI的对话往往缺乏深度和个性化,感觉像是在与一个只会说套话的机器交流。

为了改善这一状况,蚂蚁通用人工智能研究中心自然语言处理实验室推出了一项名为AlignXplore的创新方法。这一方法通过强化学习,使AI能够深度思考并从用户行为中归纳出个人偏好,且这些偏好能随着用户行为的变化而动态调整。

传统的AI往往扮演着“规则执行者”的角色,严格按照预设的规则和算法进行操作。然而,AlignXplore旨在让AI进化成“模式发现者”,掌握归纳推理这一人类智慧的核心能力。这意味着AI将不再仅仅依赖规则,而是能够通过分析用户的行为模式,主动学习和理解用户的真实需求。

归纳推理与演绎推理截然不同。演绎推理是从普适的公理或规则出发,推导出具体的结论,是一个自上而下的过程。而归纳推理则是从海量的、碎片化的行为数据中提炼出互动模式和偏好规律,是一个自下而上的过程。通过归纳推理,AI能够逐渐拼凑出一个完整的用户画像,成为用户的“知心姐姐”。

AlignXplore的训练过程分为两个阶段。第一阶段是冷启动训练,研究团队引入了一个更强大的AI作为“导师模型”,生成大量高质量的“教学案例”。这些案例包括用户行为信号集合、推理链和偏好描述,通过奖励函数进行筛选,以获取高质量数据。这一阶段的目的是实现偏好归纳模型的初步启动。

第二阶段是强化学习,采用GRPO算法进行训练。在这一阶段,模型会针对用户的行为尝试生成多种不同的推理路径和偏好结论,并根据这些结论的准确性获得奖励或惩罚。通过这种不断的试错和优化,模型学会了如何将初步的分析提炼成更精准、更具指导性的判断。

AlignXplore还支持流式偏好推断机制,即实时、增量地更新对用户的理解,无需反复回看冗长的历史记录。这种设计大大提高了生成效率,并使得模型能够迅速适应用户偏好的变化。

实验结果显示,AlignXplore在个性化对齐任务上取得了显著的成功,相较于基座模型平均提升了15.49%。更重要的是,它展现了高效性、泛化能力和鲁棒性。即使互动历史变得非常长,流式推理机制也能保持稳定的响应速度和准确率。它还能从用户发布的不同形式的内容中学习,并成功地将推断出的偏好应用于不同的下游模型。

AlignXplore的推出标志着大模型个性化之路上的一个重要里程碑。它不仅提高了AI的情商,还让我们看到了AI在未来更加智能化、个性化的可能性。这一创新方法无疑为人工智能领域带来了新的思考和启示。