上海近日迎来了一场聚焦金融AI推理应用的重要论坛——2025金融AI推理应用落地与发展论坛。会上,华为公司震撼发布了其最新的AI推理创新技术:UCM推理记忆数据管理器。这一技术的推出,旨在优化AI推理体验,提高推理性价比,并加速AI在商业领域的正向循环。
当前,人工智能领域正步入深度发展阶段,AI推理被视为下一轮爆发式增长的关键。在此背景下,推理体验与推理成本成为了衡量AI模型价值的关键指标。华为公司副总裁、数据存储产品线总裁周跃峰博士在论坛发言中指出:“AI时代,Token数已成为衡量模型训练、推理效率与体验的新维度,Token经济时代已经到来。”然而,企业在追求流畅推理体验的同时,面临着算力投入持续加大与推理成本控制的双重挑战。
华为数据存储产品线的AI存储首席架构师李国杰表示,业界已普遍认识到从“模型智能”向“数据智能”转变的重要性,且这一转变正在加速。他进一步阐述:“商业领域对AI的闭环变现与用户体验提出更高要求,同时,当模型能力遇到瓶颈时,转向数据智能成为必然选择。”他还指出,模型表现不佳的根源在于高质量数据的缺乏,依赖AI合成数据不仅导致数据短缺,还带来质量风险,数据治理与价值挖掘将成为下一阶段的核心议题。
针对这一问题,华为推出了UCM推理记忆数据管理器,该管理器由三大核心组件构成:推理引擎插件、功能库与高性能存取适配器。通过推理框架、算力与存储的协同工作,实现了AI推理体验与成本的双重优化。
在提升推理体验方面,UCM采用层级化自适应的全局前缀缓存技术,能够直接调用缓存数据,避免重复计算,使首Token时延显著降低90%。同时,通过算法创新,UCM实现了推理上下文窗口的10倍扩展,满足长文本处理需求。
在降低推理成本方面,UCM具备智能分级缓存能力,能够根据数据热度在不同存储介质间流动,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下的TPS提升2至22倍,显著降低每Token推理成本。
在中国银联的联合创新技术试点中,UCM的技术价值得到了充分验证。在中国银联的“客户之声”业务场景下,借助UCM技术,大模型推理速度提升125倍,能够在10秒内精准识别客户高频问题,显著提升服务质量。未来,中国银联将与华为等生态伙伴共建“AI+金融”示范应用,推动技术成果从实验室走向规模化应用。
华为数据存储产品线副总裁、闪存领域总裁谢黎明指出,金融行业在AI推理应用中面临三大挑战:长序列输入导致的推理困难、并发性能不足与推理时延过长、以及算力消耗大导致的推理成本高。华为的解决方案正是围绕改善推理体验和推理性价比而设计的。
李国杰补充道,金融行业在IT信息化建设中一直走在前列,随着信息量爆炸,模型侧面临显存不足与推理Token成本高的问题,华为的UCM技术正是为解决这些问题而生。
论坛上,华为还宣布了UCM的开源计划。UCM通过开放统一的接口,可适配多种推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区,携手全产业共同推动AI推理生态的繁荣发展。
李国杰表示,开源旨在推动全栈协同,促进推理架构发展,保持开放态度,推动AI推理与Token经济的健康发展。谢黎明则认为,通过开源,能够吸引更多厂商和伙伴加入,推动标准落地,共创标准,从而真正解决推理体验与成本问题。
华为UCM技术的发布,为AI推理领域带来了新的突破,也为智慧金融的发展注入了强大动力。随着UCM技术的开源与推广应用,有望推动整个AI推理行业的效率提升与成本优化。