华为UCM技术革新AI推理，长序列推理成本大幅降低引关注-天脉财经

上海近日迎来了一场聚焦金融AI推理应用的重要论坛——2025金融AI推理应用落地与发展论坛。会上，华为公司震撼发布了其最新的AI推理创新技术：UCM推理记忆数据管理器。这一技术的推出，旨在优化AI推理体验，提高推理性价比，并加速AI在商业领域的正向循环。

当前，人工智能领域正步入深度发展阶段，AI推理被视为下一轮爆发式增长的关键。在此背景下，推理体验与推理成本成为了衡量AI模型价值的关键指标。华为公司副总裁、数据存储产品线总裁周跃峰博士在论坛发言中指出：“AI时代，Token数已成为衡量模型训练、推理效率与体验的新维度，Token经济时代已经到来。”然而，企业在追求流畅推理体验的同时，面临着算力投入持续加大与推理成本控制的双重挑战。

华为数据存储产品线的AI存储首席架构师李国杰表示，业界已普遍认识到从“模型智能”向“数据智能”转变的重要性，且这一转变正在加速。他进一步阐述：“商业领域对AI的闭环变现与用户体验提出更高要求，同时，当模型能力遇到瓶颈时，转向数据智能成为必然选择。”他还指出，模型表现不佳的根源在于高质量数据的缺乏，依赖AI合成数据不仅导致数据短缺，还带来质量风险，数据治理与价值挖掘将成为下一阶段的核心议题。

针对这一问题，华为推出了UCM推理记忆数据管理器，该管理器由三大核心组件构成：推理引擎插件、功能库与高性能存取适配器。通过推理框架、算力与存储的协同工作，实现了AI推理体验与成本的双重优化。

在提升推理体验方面，UCM采用层级化自适应的全局前缀缓存技术，能够直接调用缓存数据，避免重复计算，使首Token时延显著降低90%。同时，通过算法创新，UCM实现了推理上下文窗口的10倍扩展，满足长文本处理需求。

在降低推理成本方面，UCM具备智能分级缓存能力，能够根据数据热度在不同存储介质间流动，同时融合多种稀疏注意力算法，实现存算深度协同，使长序列场景下的TPS提升2至22倍，显著降低每Token推理成本。

在中国银联的联合创新技术试点中，UCM的技术价值得到了充分验证。在中国银联的“客户之声”业务场景下，借助UCM技术，大模型推理速度提升125倍，能够在10秒内精准识别客户高频问题，显著提升服务质量。未来，中国银联将与华为等生态伙伴共建“AI+金融”示范应用，推动技术成果从实验室走向规模化应用。

华为数据存储产品线副总裁、闪存领域总裁谢黎明指出，金融行业在AI推理应用中面临三大挑战：长序列输入导致的推理困难、并发性能不足与推理时延过长、以及算力消耗大导致的推理成本高。华为的解决方案正是围绕改善推理体验和推理性价比而设计的。

李国杰补充道，金融行业在IT信息化建设中一直走在前列，随着信息量爆炸，模型侧面临显存不足与推理Token成本高的问题，华为的UCM技术正是为解决这些问题而生。

论坛上，华为还宣布了UCM的开源计划。UCM通过开放统一的接口，可适配多种推理引擎框架、算力及存储系统。今年9月，UCM将正式开源，并逐步贡献给业界主流推理引擎社区，携手全产业共同推动AI推理生态的繁荣发展。

李国杰表示，开源旨在推动全栈协同，促进推理架构发展，保持开放态度，推动AI推理与Token经济的健康发展。谢黎明则认为，通过开源，能够吸引更多厂商和伙伴加入，推动标准落地，共创标准，从而真正解决推理体验与成本问题。

华为UCM技术的发布，为AI推理领域带来了新的突破，也为智慧金融的发展注入了强大动力。随着UCM技术的开源与推广应用，有望推动整个AI推理行业的效率提升与成本优化。