记者 孙小程
大模型行业的涨价潮仍在延续。3月16日,“全球大模型第一股”智谱宣布推出针对OpenClaw(“龙虾”)等智能体任务的基座模型GLM-5-Turbo,并同步上调GLM-5-Turbo的API价格,幅度为20%。在此之前,腾讯云、OpenAI上调了旗下部分模型的价格。
在业内看来,随着大模型从简单的“问答”走向能实际“干活”,用户每次调用所消耗的tokens(即词元,是收费的核心指标)量正大幅增加。这直接推高了模型厂商的成本,也让面向用户的涨价成为自然结果。后续随着智能体处理更复杂的任务,tokens消耗量预计将呈指数级增长。
主打“干活” 智谱新模型提价
两个月内,智谱已两度涨价。其曾于2月12日推出新一代旗舰模型GLM-5,并于隔日上调GLM Coding Plan套餐价格,幅度30%起。这一消息的落地,带动了AI产业链的表现,并让市场对“tokens通胀”叙事更加关注。
对比来看,智谱新一轮涨价力度依旧不小。相对GLM-4.7,GLM-5已经平均涨价50%;在此基础上,GLM-5-Turbo相对GLM-5涨价20%,相对GLM-4.7平均上涨83%。
本次智谱再度提价的对象——新模型GLM-5-Turbo,则是主打“干活”,为执行智能体任务而“量身定制”的,包括近期大火的OpenClaw(即“龙虾”)。
智谱技术负责人分析称,当下,龙虾虽然火爆,但用户反馈显示,其运行并不通畅。在进入真实复杂的Agent场景后,通用大模型容易无法响应。
原因在于,智能体的任务不是简单的一问一答。它通常涉及多轮理解、任务拆解、工具调用、状态衔接、时间触发和持续执行的长链路工作流。所以,通用模型即使在对话能力上表现优秀,一旦进入真实龙虾场景,仍然容易出现指令遵循偏差、工具调用不稳定、长任务中途失速等问题。
该负责人认为,要从根本上解决这些难题,必须在基座模型层进行深度优化。基于此,智谱围绕真实Agent工作流,系统构造了多类任务场景,使模型在复杂、动态、长链路的任务中真正具备可执行性,重点增强了GLM-5-Turbo工具调用、指令遵循、定时与持续性任务、长链路执行等能力。
从“问答”到“干活” tokens消耗量倍增
大模型时代下,tokens变成“可计量的生产资料”,不再是“免费流量”。国元证券认为,大模型把“对话/写代码/生成内容”这类看似是由软件供应商提供的服务,变成了强依赖算力的在线推理服务。
对于模型厂商而言,每一次回答都要实打实地消耗GPU、显存、带宽与电力;对用户来说,每一次“让模型多想一会儿、写一段更长的代码、跑一个更复杂的任务”都对应更多tokens的消耗。于是,tokens天然成为新的计量单位。
因此,市场提出了“tokens通胀”的概念。这并非单纯指tokens本身变贵,而是指单位时间内、单位用户的tokens消耗结构性上升。
部分大模型企业已披露数据,印证了这一趋势。例如,2026年前2个月,MiniMax模型调用量与新增用户规模均实现大幅跃升,旗下M2系列文本模型2026年2月平均单日tokens消耗量,较2025年12月增长6倍以上。
展望未来,随着大模型“干活”本领的提高,tokens的消耗将指数级增加。IDC咨询在一份研究报告中预计,中国企业活跃智能体数量将在2031年突破3.5亿规模,年复合增长率达到135%以上,这一增速将领先全球主要市场。同时,由于智能体任务执行密度的增长和任务复杂度的提升,将带来智能体tokens消耗年均超30倍的指数级跃升。
(责任编辑:朱晓航)