在人工智能技术飞速发展的当下,词元(Token)这一大模型处理信息的最小单元,正成为推动智能经济蓬勃发展的关键要素。近期数据显示,我国日均词元调用量呈现爆发式增长,今年3月,中国人工智能大模型周词元调用量连续三周位居全球前列,彰显出我国在人工智能应用领域的活跃态势。
词元究竟是什么?它与常见的数据有何差异?中国移动研究院网络与IT技术研究所副所长唐华斌解释道,人工智能大模型本质上是复杂的数学运算系统,无法直接理解文字、声音和画面等原始数据。它需要将这些原始数据转化为自身能够识别的“语言”,而词元就是这种“语言”的基础单元。文字词元如同“乐高积木”,一个单词或汉字可被拆分成多个词元;音频词元类似“乐谱上的音符”,一段声音被切成极短的时间片段,每个片段包含音调、音量等信息;视频词元则像“拼图碎片”,每一帧画面被切成小方格,还需考虑时间上的连续性。火山引擎智能算法负责人吴迪表示,在大模型眼中,三种模态的词元并无差别,它只是在处理复杂的数字序列。
词元调用量的爆发性增长,背后是模型能力的不断提升。每一次模型能力的升级,都会解锁更多应用场景,进而推动大模型词元调用量激增。以Seedance(豆包视频生成模型)2.0为例,生成1分钟视频大约消耗超过100万个词元。同时,新的应用形态和商业模式也促使大模型词元调用量大幅上涨。唐华斌指出,最近兴起的智能体与传统单轮问答不同,其运行涉及更长的上下文、更频繁的模型调用、更多轮次的任务拆解以及工具执行过程中的持续反馈。吴迪举例说明,简单任务若只需单轮或几轮工具调用,消耗词元可能只需几千;若需几十轮工具调用,则至少消耗几万词元甚至更多。智能体等新业态的出现,让词元调用量进入快速增长通道。
词元调用主要集中在信息密度高、迭代周期快的领域。爱问答科技创始人李加义过去一年的词元调用量达60亿。在北京海淀区的AI原点社区,李加义团队正在调试新设计的AI玩具。他表示,这个具备交互能力的玩具离不开相应软件系统,以往同等体量的软件系统开发至少需半年且需多人配合,如今在AI大模型与辅助编程的赋能下,消耗数亿词元,开发周期被压缩至两个月。2025年初,非计算机科班出身的李加义接触AI辅助编程工具后,借助新技术打破软件开发专业壁垒,一年间高效完成两款APP和一个AI玩具的开发设计,还将自研的AI硬件产品推向国际消费电子展(CES)。AI助力降低了开发成本,为小微企业创新探索提供更多可能。
从行业分类看,以豆包大模型2.0为例,互联网行业词元调用比例最高,消费电子、金融、新零售和商务服务紧随其后。从场景来看,非结构化信息的处理和分析占比最大,教育、内容创作和“搜索与推荐”次之。展望未来,软件开发、深度研究、个人助理等智能体应用场景有望成为词元调用量爆发的重要领域。唐华斌认为,软件开发领域,人工智能正从简单写代码向理解整个项目转变,不仅能排查错漏、自动优化,甚至能通过智能体自主完成开发任务。代码上下文长、交互轮次多,企业为提升效率的付费意愿较强,这将带来巨大需求增长。
词元的可计量特性,让人工智能有望成为社会运转的基础资源。国家数据局局长刘烈宏表示,今年1月底以来,部分模型企业创下20天收入超越2025年全年总收入的业绩纪录,这表明一套以词元计费为基础的新型商业逻辑正在加速形成。过去,人工智能产业聚焦于模型性能比拼,技术创新与商业落地缺乏可量化衔接桥梁,难以形成良性循环。词元具备可计量、锚定算力能耗、跨模态通用结算的特点,能够成为连接技术供给与商业需求的结算单位。联想中国基础设施业务群战略管理总监黄山比喻道,大模型输出的智能如同电,智算中心如同发电厂,电用千瓦时计量,智能调用就用词元计费。未来智能社会,人工智能有望像水、电一样随取随用,按需购买。
从词元视角打造智能经济新形态,我国具有多方面优势。算法创新持续突破,国产大模型通过底层架构优化,与全球顶尖技术的差距逐渐缩小。吴迪称,我国大模型厂商在算法创新上成果丰硕,在推理成本、响应速度上不断优化,能以更少词元完成复杂任务。基础设施方面,我国具备领先优势。每生成一个词元都需调用数据中心算力并消耗电力,我国已建成全球门类最全、规模最大的能源体系,发电供给持续提升、电力成本不断降低,能有效降低词元调用成本。黄山表示,能耗和算力是词元调用的关键成本,提升智算中心等基础设施的生产能力和效率,构建安全、高效、普惠的人工智能基础设施,持续提升大模型推理效率、降低单个词元成本,将推动人工智能走向规模化应用落地。

