当AI每天要“说”140万亿个字,谁来建造这座超级Token工厂?

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
你可能已经注意到,今年身边用AI写代码、养“龙虾”的人越来越多了。这些看似轻巧的操作背后,AI每“思考”一步、每“说”一个字,都在消耗一种叫“Token”的基本单位——简单来说,Token就是AI的“字节口粮”。公开资料显示,中国目前日均消耗的Token量已经达到140万亿,摩根大通预测到2030年这个数字将膨胀到1万万亿。一个残酷的现实是:我们建了大量算力中心,买了大量芯片,但这些硬件的潜能远远没有被释放出来。许多算力中心里,CPU和内存的利用率甚至不到3%。
3月27日,2026中关村论坛上,一场由趋境科技与九源智能计算系统生态联合体共同主办的专题研讨会给出了一个系统性的回答。这场汇聚了院士、芯片厂商、云服务商、互联网大厂和运营商的论坛,不仅发布了一款名为"趋境ATaaS"的AI推理平台,更在圆桌对话中碰撞出一个行业新共识:AI产业的核心战场,正从“谁的模型更大”转向“谁的Token更便宜、更快、更稳”。对普通人而言,这意味着你用AI助手翻译一篇论文、让智能体帮你订机票的费用,未来可能从几百块降到几块钱。
从“发电”到“输电”:一场关于Token的产业范式转移
如果把大模型比作一座发电站,那么Token就是它发出的电。过去几年,整个行业的注意力都集中在“建更大的发电站”——训练参数更多、能力更强的模型。但2026年,局面变了。中国工程院院士、趋境科技首席科学顾问郑纬民在主旨演讲中明确指出,AI产业的核心关注焦点,正从“模型参数规模、模型可用性”全面转向“稳定、低成本、高质量交付的Token产能”。

中国工程院院士、趋境科技首席科学顾问郑纬民
这个转变并非凭空发生。趋境科技创始人兼CEO艾智远用了一组数据来说明问题的紧迫性:年初“小龙虾”智能体爆火时,不少用户一天在Token上的花费就高达600到1000元。与此同时,AI Coding应用的井喷让Token消耗量以指数级增长。黄仁勋在GTC 2026上把Token服务能力划分成了L1到L5五个等级——L1是免费层,每秒只能生成不到10个Token,而L5级别要求面向千亿甚至万亿参数模型,每秒稳定输出50到60个Token。问题在于,受制于芯片制程和软件生态,国产算力目前主要只能支撑L1和L2级别的Token服务,而用户的胃口早已跑到了L3甚至更高。

趋境科技创始人兼CEO艾智远
郑纬民院士因此提出了“Token即服务”(TaaS)的概念:未来的智能基础设施应该围绕Token的稳定供给来重构,让智能生成像水电一样被调度和供给。这将是一个涉及异构计算协同、存储与计算联动、智能调度的系统级工程。
拧开Token水龙头:ATaaS平台如何把算力“拧”出更多产能
正是在这样的行业背景下,趋境ATaaS高效能AI Token生产服务平台的发布成为了当天论坛的焦点。发布仪式上,郑纬民院士、艾智远与来自并行科技、上海人工智能实验室、中科曙光、华为昇腾、京东云的代表共同登台,手按启动球完成了这款产品的揭幕。

ATaaS要解决的核心矛盾,艾智远用一句话概括得很直白:我们花了巨大的算力投入和电力成本,换来的高性能Token产能却少得可怜。他把这种矛盾拆解成四个层面。很多算力中心的GPU利用率勉强达到40%到50%,但CPU、内存、磁盘等其他资源的利用率甚至不到20%,大量成本被白白浪费。国产芯片迭代速度很快,每家厂商一年能发布两三款新品,但软件优化的速度远远跟不上,许多国产卡的实际利用率只有标称算力的20%甚至更低。推理应用从简单的聊天机器人演变为多智能体协作,模型、硬件、优化策略的组合变成了一个复杂度爆炸的问题——一旦配错了路径,跑出来的Token价值可能还没有集群本身的成本高。在万卡规模的集群上做推理,系统闪崩、内存溢出、负载失衡是家常便饭。
针对这些痛点,ATaaS依托四项自研核心技术构建了一条完整的“Token生产线”。“六合”技术将大模型的计算任务按强度精细切分,让国产卡负责擅长的高密度计算,让其他类型的卡承担生成类任务,通过这种异构协同,把集群运营成本压降20%以上,同时把国产卡原本只能支撑L1、L2级别的Token服务质量提升到L3、L4级别。“月饼”技术将KV Cache的缓存空间从单机扩展到整个集群,缓存命中率最高可达90%,直接让单台机器每秒处理的Token量从3万跃升到30万,Token成本下降75%以上。“双仪”技术通过在CPU上模拟GPU的计算路径,从成千上万种部署参数组合中快速找出最优方案,实现集群资源的智能切割和秒级流量切换。“万象”技术则解决了万卡集群的弹性难题,将万亿参数大模型的启动时间从20多分钟压缩到10秒以内,并实现了即使单卡故障也不影响整体服务的工业级可靠性。
艾智远分享了一个具体的落地案例:在一个千卡集群上,ATaaS将每个节点每分钟的Token产能从75万提升到了155万,整体产能翻了一番。
Token工厂不是一个人的战斗:产业链如何拧成一股绳
ATaaS的发布只是当天论坛的一个切面。更值得关注的是,从算力服务商到芯片厂商,从互联网大厂到运营商,整条产业链都在围绕“如何把Token做便宜”这件事展开协作。
并行科技董事长陈健的分享坦诚到几乎是“交底”。他直言,作为国内第三方算力服务商排名第一的企业,并行科技在为智谱、Kimi、MiniMax、DeepSeek等头部大模型客户提供Token服务时,一度面临严重亏损——百万Token的输出成本从年初的130元,用了整整一年才降到3元以下,勉强实现盈亏平衡。高质量Token(每秒50个Token的输出速度)的成本依然高达30元。他算了一笔账:不同速度等级的Token,成本差距可以达到100倍。正是在趋境的技术支持下,并行科技的集群性能提升了50%,才基本拉回了盈亏平衡线。陈健用了一个精准的类比:Token工厂跟电厂一样,将来拼的不是能不能发电,而是能不能把电价从5元降到0.35元。
京东云AI Infra产品负责人郝鹏透露,京东云已在年初与趋境达成技术层面的战略合作,共同打造下一代推理引擎。通过PD分离架构,首次响应延迟降低了约90%,吞吐效率提升了约120%。华为昇腾计算业务副总裁叶耀荣则特别强调了软件优化在释放硬件潜能中的关键作用——对于购买了万卡集群的客户来说,没有系统级的软件调优,实际可用性能可能只有20%到30%。趋境已经在昇腾的AI集群上实现了2倍以上的性能提升,甚至在上一代集群上优化出了超越新一代集群的性能表现。
九源联合体副秘书长王豪杰从生态层面揭示了一个更深层的困境:国产算力面临的不是性能问题,而是“生态驱动”的困局。理想情况下,用户应该按性价比选择算力,但现实是整个开发者生态都依赖英伟达的CUDA体系,国产卡哪怕再便宜也无人问津。九源联合体的解决思路是打造一套对标CUDA的统一软件栈,让一套代码在所有国产卡上都能跑起来。目前已经适配了天数智芯、沐曦、摩尔线程、寒武纪、海光、昇腾等多款国产GPU,性能达到英伟达A100的85%以上。
当“可用”遇上“好用”:国产算力的下一步怎么走
由清华大学副教授章明星主持的圆桌对话上,来自中国移动、美团、天数智芯、中科大和趋境科技的五位嘉宾,围绕“国产推理基础设施从‘可用’到‘好用’”的主题,展开了一场深度讨论。

美团首席工程师钱玉磊提出了一个颇具洞察的观点:TaaS不仅可以理解为Token as a Service,还应该理解为Task as a Service——用户最终买单的不是Token本身,而是任务的完成度乘以使用体验。收费多少取决于任务完成率和用户体验的乘积,而推理速度提升5到10倍会带来显著的体验变化。这个视角把竞争的维度从“单位Token成本”拉升到了“单位任务价值”。
中科大教授李诚则从学术角度抛出了一个尖锐的问题:大模型时代最大的毛病是“太啰唆”。无论是输入的提示词还是输出的回答,信息冗余量都非常大。未来能不能做一个“文言文版”的大模型?四个字就把事情说清楚,而不是像现在这样动辄200字、500字。他更进一步指出,单纯依靠系统层面的优化终究有天花板,必须引入算法与系统的协同设计创新,才能真正把成本压下来。
中国移动数智化部副总经理陈国从运营商的视角道出了一个行业普遍的困扰:“高不够高,横向又太多。”国产芯片的最高性能尚未追上国际顶尖水平,同时市场上的选择又过于分散,每家架构不同、生态各异,让采购方无所适从。他认为生态聚合是当前影响成本的最根本因素,需要政府引导、标准牵引和开源社区的合力推动。
趋境科技Mooncake首席工程师杨珂则用一个真实的细节说明了这种复杂性到了什么程度:曾有人问他们是怎么把推理性能提上去的,他回答“优化算子、优化算法、调参”。推理还需要调参吗?事实上,趋境不仅要调参,还专门有一个团队在做这件事。当模型结构越来越复杂、硬件越来越多样、服务要求越来越严格时,在成千上万种部署参数组合中找出最优解,本身就是一个巨大的工程挑战。在与并行科技的合作中,随便选一套参数跑可能只有几千Token/秒的产出,直接上线就是每天亏损;而通过系统性的参数优选,才最终把产能拉到了盈亏平衡线以上。
天数智芯副总裁宋煜从芯片厂商的角度做了回应,他坦言国产芯片面临的不只是设计问题,还有工艺流程、良品率、先进封装、HBM颗粒等一整条产业链的挑战,这些不是一家企业能独自解决的。
这场圆桌对话最终凝聚出几个清晰的共识:软硬件的深度协同是释放国产算力潜能的关键,硬件的迭代需要“慢一点、实一点”,给软件生态留出打磨的时间;生态的统一与标准建设不是锦上添花,而是不得不做的事情;人才培养是整个产业的根基,尤其是能写底层算子(Kernel)的工程人才,正是当前最稀缺也最关键的力量。
当AI从实验室走向千家万户,决定体验的不再只是模型有多聪明,还有Token有多便宜、多快、多稳定。这场从“数据中心”向“Token工厂”的转型,才刚刚拉开序幕。

