天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

外围推理编排成关键!Poetiq系统助力GPT-5.2准确率创新高

2025-12-25来源:快讯编辑:瑞雪

人工智能领域近期迎来一项突破性进展:一家名为Poetiq的初创公司通过其开发的元系统(meta-system),在不改动基础大模型的前提下,显著提升了AI在复杂推理任务中的表现。实验数据显示,该系统使GPT-5.2 X-High在权威测试集ARC-AGI-2上的成绩达到75%,较此前最优模型提升约15%,同时将单题处理成本控制在8美元以内。

这项成果的核心在于Poetiq构建的迭代式推理框架。与传统AI系统直接生成答案不同,该框架通过多轮交互实现自我优化:系统首先生成初步解决方案,随后根据反馈持续改进,直至形成最终答案。这种机制特别引入了自我审计功能,能够自动判断何时已获得足够信息,从而及时终止计算过程。实验表明,这种设计不仅提升了准确性,更有效降低了资源消耗——X-High版本之所以成本更低,正是因其能更快收敛到正确解。

测试采用的PUBLIC-eval数据集包含基础推理、自然语言处理及数学推理等标准任务,而更严苛的ARC-AGI-2测试则聚焦抽象推理、常识应用和创新能力等高阶认知维度。值得关注的是,Poetiq未对任何模型进行针对性训练或优化,其系统完全通过改进推理策略实现性能跃升。这种"模型无关"的特性,使得元系统能够无缝适配不同架构的AI模型,包括Gemini 3、GPT-5.1等前沿产品。

该团队特别强调,所有适配工作均在新模型发布前完成,且系统从未接触过测试任务集。这种"零接触"下的跨版本性能提升,证明其捕捉到了推理过程的本质规律,而非依赖特定模型的特性。ARC Prize总裁Greg Kamradt评价称,若成果经得起大规模验证,这套系统将彻底改变AI应用模式——通过动态切换模型应对不同任务,无需为每个场景重新训练系统。

这项突破由六人团队完成,其中多位核心成员来自Google DeepMind。联合创始人Ian Fischer和Shumeet Baluja均拥有资深研究背景,他们开发的元系统展现出惊人的泛化能力:在保持架构不变的情况下,系统能自动适配不同模型族的认知风格,实现跨版本性能提升。这种设计哲学获得业界高度认可,有专家指出,在模型外部构建智能架构的策略,使得新模型适配时间从数周缩短至数小时,为AI技术落地开辟了新路径。

目前团队正在收集更详细的性能数据,初步统计显示简单任务可在8-10分钟内完成,而最复杂任务的计算时间控制在12小时内。对于成本优化机制,Poetiq确认X-High版本确实通过更高效的推理路径实现了性能突破。随着系统持续迭代,这种"模型之上构建智能"的范式,或将重新定义人工智能的能力边界。

科创人工智能ETF广发半日涨0.72% 成交额2.16亿 重仓股表现分化
来源:新浪基金∞工作室 2月3日,截止午间收盘,科创人工智能ETF广发(588760)涨0.72%,报0.840元,成交额2.16亿元。科创人工智能ETF广发(588760)重仓股方面,金山办公截止午盘涨0.…

2026-02-04

科创人工智能ETF南方589230开盘微涨,重仓芯原澜起等多股表现亮眼
来源:新浪基金∞工作室 2月3日,科创人工智能ETF南方(589230)开盘涨0.42%,报0.959元。 声明:市场有风险,投资需谨慎。本文基于第三方数据库自动发布,不代表新浪财经观点,任何在本文出现的信息…

2026-02-04