“词元”定名:一场新事物本质的阐释

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
【亿邦原创】2025年3月24日,北京,国务院新闻办公室发布会现场。国家数据局局长刘烈宏在介绍我国数据产业发展情况时,公布了一组极具冲击力的数据:截至今年3月,我国日均词元(Token)调用量已超过140万亿。相比2024年初的日均1000亿,增长了1000多倍;相比2025年底的日均100万亿,短短三个月又增长了40%以上。
在中国加速智能化、绿色化和融合化发展的新征程中,这组数据本身已是重磅新闻。但比数字更引人注目的,是出现在刘烈宏局长发言中的一个细节——他将“Token”的中文译名,首次在国家级新闻发布会的权威场合,正式确定为“词元”。
在此之前,这个在数智化暨大模型时代高频出现的词汇,其命名长期处于“不清晰”或“不准确”的状态。各执一词,莫衷一是。而今天,由国家数据局局长在国务院新闻办宣读出来,不仅意味着一个技术术语的译名尘埃落定,更标志着对这一数字时代关键新事物的本质认知,终于有了定论。
一个外来词的“正名”历程
在中国文化传统中,“名”的分量从未被轻看。孔子言“名不正则言不顺”,荀子强调“制名以指实”。名与实的关系,从来不只是语言学问题,而是关乎认知、秩序与规律的哲学命题。这使得在人工智能时代,汉字似乎更拥有了特殊的竞争力。“Token”的译名之争,恰恰反映了这一事物在高速演进中,人们对它本质把握的渐进过程。
“Token”一词初源于通信与计算机科学。在人工智能领域,最初也是指在自然语言处理中,对文本切分的最小单元,英文中基本就是一个个的单词,而中文则可以是具有“意义”的一个字或一个词。随着大语言模型的崛起,Token的含义进一步扩展——它不仅是文本的基本单位,更是大语言模型运行的基本尺度,是算力消耗的度量标准,是数据要素的底层单元,是商业模式的计费基础,是价值流转的数字载体。如此复杂的内涵,使得寻找一个贴切的中文译名变得格外困难。
此前,“令牌”之说最为流行,这一译法取自Token在通信科学领域的含义,强调其“通行证”属性,但难以涵盖其在语义层面的本质。在一些场景中,直接以“分词”命名。而“标记”则显得有些过于泛化,失之精准。“代币”则将Token框定在加密货币的语境中,对于大模型时代的Token而言,显然是只见树木不见森林。
而“词元”一词的确定,堪称信达雅。“词”字,指向Token在自然语言处理中的基础功能——承载语义信息的最小单元。“元”字,则有“始也”“本也”“基也”之意,在中国哲学中具有根本性、本源性的内涵。二字合一,“词元”既准确描述了这一概念在技术层面的具体所指,又暗合了其作为数字经济新时代基础要素的底层地位。“词元”之定,不是简单的翻译选择,而是对这一事物本质的深刻把握。
定名的基础是数量级的增长
刘烈宏局长在发布会上公布的相关发展态势数据,也为“词元”这一概念的定名提供了有力的注脚。“词元”日均调用量超过140万亿——这是一个怎样的概念?如果以中国14亿人口计算,意味着平均每人每天要调用10万个词元。当然,调用者并非仅为普通个体,还包括遍布全国的大模型应用、智能体服务、数据处理平台。但即便如此,这一数字所揭示的,是词元已从实验室的概念、技术文档的术语,彻底演变为经济行为的重要计量单元。
从2024年初的日均1000亿,到2025年底的日均100万亿,直到2026年3月的日均超过140万亿。短短两年多时间,数量级的跨越式增长,折射出我国人工智能产业从“技术突破期”迈入“规模化应用期”的转型,而作为人工智能产业发展基础的数据要素,则从“基础设施建设”迈入“价值释放”的阶段。
这一大跨步发展的核心,正是词元作为基础单元的全面渗透。正如一位专家所言,在模型训练阶段,词元是语料标注的基本颗粒度;在模型推理阶段,词元是计算资源的分配单位;在商业应用层面,词元是服务定价的计费依据;在产业生态中,词元流转构成了数据要素市场化的微观基础。可以说,理解今日之人工智能产业,离不开“词元”这个基本视角。
正因如此,为“Token”确定一个准确、恰当的中文名称,不仅是语言规范的需要,更是产业发展到一定阶段后,对基础概念进行理论定型的必然要求。从这个意义上说,“词元”之定,是对规律的认识和尊重。即当一种技术要素发展到足以成为产业基础、经济单元、社会设施的时候,为其正名,就是对规律的确认。
定名背后的中国话语权构建
在科技产业领域,长期以来,大量专业术语直接使用英文缩写或外文原词,中文译名迟迟难以确立,这背后既有技术追赶阶段“拿来主义”的现实考量,也有话语体系建设滞后的深层原因。“词元”的定名,提供了一个值得深思的样本。它不是简单的音译,也不是机械的直译,而是在深刻理解技术内涵、准确把握发展趋势基础上的意译与创造。“词”与“元”的组合,既有中国古典哲学的韵味,又精准对应现代信息科学的概念体系。这种命名方式,体现了在数字时代构建中国技术话语体系的自觉与能力。
当前,人工智能正在深刻重塑全球竞争格局。谁掌握了核心技术的定义权,谁就掌握了产业发展的主导权。术语命名看似细微,实则是话语权建设及至文明发展的基础工程。“词元”的确定,是我国在数字技术基础概念领域的一次重要实践。当“词元”这个承载着中国智慧的译名被正式确立,它所传递的不仅是一个技术术语的标准化,更是中国在人工智能时代对基础概念进行定义的能力与自信。
“名者,实之宾也”,“名”一旦确立,便会反过来规范人们对“实”的认识,引导实践的方向。从“词元”出发,我们对于人工智能产业的理解将更加清晰,对于数据要素市场的计量将更加精准,对于数智化发展的规律把握将更加深刻,这个来自东方的命名,终将成为全球数字技术话语体系中不可或缺的部分。

