天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

Anthropic报告:AI智能体自主性提升 软件工程应用近半风险需关注

2026-02-22来源:快讯编辑:瑞雪

AI智能体正从技术概念加速融入现实应用场景,全球主要科技企业均已推出相关产品,但用户对其实际运行模式仍存在认知盲区。近日,AI研究机构Anthropic发布的最新报告,通过分析数百万次人机交互数据,首次呈现了AI智能体在真实环境中的行为特征与潜在风险。

研究团队对旗下编程助手Claude Code的长期运行数据追踪发现,该模型单次自主执行任务的最长时长在三个月内增长近一倍。2025年10月至2026年1月期间,其"任务执行周期"第99.9百分位时长从25分钟延长至45分钟以上,而中位数时长稳定在45秒左右。这种增长趋势与模型版本迭代无显著关联,更多源于用户信任度提升、任务复杂度增加以及产品交互优化。

用户行为数据显示,经验积累显著影响人机协作模式。新用户(使用次数少于50次)仅在20%的会话中启用全自动模式,而资深用户(使用超750次)的该比例超过40%。值得注意的是,随着使用时长增加,用户主动中断模型运行的频率从5%上升至9%,同时模型因自身不确定性主动请求澄清的次数达到人类中断次数的两倍以上,形成双向监督机制。

不同复杂度任务呈现差异化协作特征。在修改单行代码等简单任务中,87%的操作需要人工参与,而在查找软件漏洞或开发编译器等复杂场景中,人工介入比例降至67%。研究指出,复杂任务往往由技术熟练的用户发起,其步骤的不可分割性导致人工审批难度增加,这促使系统更依赖模型自主判断。

风险评估显示,当前AI智能体操作集中在低风险领域,软件工程相关活动占比近半,但医疗、金融等高敏感领域已出现应用案例。尽管高风险操作占比不足1%,其潜在危害不容忽视。研究特别指出,现有监控体系对公共API的会话级行为存在观测盲区,且分析样本仅覆盖单一模型提供商,结论外推需谨慎。

基于研究结果,报告提出四项建议:构建实时监控基础设施以捕捉异常行为,强化模型对自身不确定性的感知能力,开发支持用户监督的交互界面,以及避免过早制定标准化协作规范。这些措施旨在平衡技术创新与风险管控,为AI智能体的规模化应用提供参考框架。

AI赋能可信数据空间:2026年驱动数字经济跃升与跨域协同创新新路径
2026年人工智能赋能可信数据空间发展研究报告指出,数据作为数字经济核心生产要素,其高效流通面临“不愿、不敢、不会共享”的难题,可信数据空间成为破解数据孤岛的关键,而人工智能技术则为其建设提供了核心驱动力,…

2026-02-22

谷歌Gemini 3.1推理能力跃升,突破复杂推理瓶颈,AI迈向高阶智能新阶段
谷歌相关负责人表示,为了实现Gemini3.1推理能力的升级,研发团队付出了大量努力,主要做了三个方面的优化:一是扩大了大模型的上下文窗口,让Gemini 3.1能够处理更长的文本、更复杂的任务,提升其对…

2026-02-22

宇树科技王兴兴谈机器人:技术接近孩童水平,大规模应用或3至10年内实现
对话中,对于“现在机器人发展的技术阶段是否就如一个10岁的孩子甚至更小?”2月17日,宇树科技创始人王兴兴发微博称:“有朋友问春晚机器人进化速度有多快,我想说这取决于大家对AI的想象力。 此前,春晚《武B…

2026-02-21

春晚舞台“意外”引爆市场:机器人从表演到家庭,技术落地正当时
当宇树科技的机器人在《武BOT》节目中“摔倒”在地,随即又一个鲤鱼打挺站了起来,电视机前的观众们议论纷纷,“是故意的,还是失误?” 以往机器人上春晚,多是拼稳定性、拼队形变换,这次《武BOT》却让技术去服务…

2026-02-21

纳斯达克金龙中国指数微跌0.4%,晶科能源、携程等热门中概股表现分化
纳斯达克金龙中国指数初步收跌0.4%。 热门中概股里,晶科能源初步收跌2.4%,携程跌2.2%,百胜中国、奇富科技、文远知行跌超1%,阿里巴巴跌0.9%,百度跌0.7%,万国数据、金山云、大全新能源至少涨0…

2026-02-20