DeepSeek专家模式正式上线 国产大模型推理成本降至0.001元/千Token 行业格局生变
4月8日,国产大模型厂商DeepSeek正式推出“专家模式”,在产品端首次引入模式分层设计,用户可根据需求在“快速模式”与“专家模式”间自由切换。同时,行业传出重磅消息,国产大模型推理成本已首次降至0.001元/千Token,较行业平均水平降低80%,这一里程碑式突破标志着AI规模化应用的成本瓶颈正在被打破,国内大模型产业即将进入普惠发展新阶段。
双模式并行 专家模式专注复杂推理场景
此次上线的双模式体系中,快速模式侧重日常对话场景,响应速度快,支持图片和文件文字识别,满足普通用户日常信息查询、文案创作等基础需求;专家模式则专注解决复杂问题,支持更深入的思考和智能搜索,词元(Token)吞吐速度极快,尤其适合数学推理、代码开发、科研文献分析等专业场景。
据实测,专家模式在数学推理基准测试MATH数据集上得分达68%,在代码生成基准HumanEval上通过率达72%,性能接近国际顶尖水平,但成本仅为海外同类产品的1/15。目前专家模式暂不支持文件上传和多模态输入,官方提示高峰时段启用可能需要短暂等待。
业内分析认为,DeepSeek此次模式分层本质是“按需调度算力”机制,将简单任务交由低成本路径处理,仅在必要时启用高算力推理,减少无效Token消耗,实现整体成本的结构性下降,这也为其能够实现0.001元/千Token的低价提供了技术支撑。
成本突破背后的三重技术优化
国产大模型能够实现推理成本的突破性下降,源于技术层面的系统性创新,主要体现在三个维度:
一是架构创新大幅降低计算冗余。DeepSeek采用深度优化的混合专家架构(MoE),通过动态路由机制,每个Token仅激活2-4个专家模块,单次推理的活跃参数占比不足10%,在保持高精度的同时,将硬件需求压缩至传统密集模型的1/5以下。自研的轻量化推理引擎使同等硬件下可支持3倍并发量,在A100集群上单卡吞吐量达1200 tokens/秒,远超同类模型。
二是算力利用率提升至行业领先水平。通过“时空共享”算力池技术,将训练与推理任务动态分配,硬件利用率从行业平均的60%提升至85%;基于Kubernetes的自动扩缩容系统,可根据实时请求量在5秒内完成从16卡到256卡的资源调整,进一步降低闲置算力浪费。某电商平台实测显示,该系统使资源利用率从45%提升至78%,年度IT支出减少超1500万元。
三是国产化适配打通降本最后一公里。最新发布的DeepSeek V4模型已全面适配华为昇腾950PR等国产AI芯片,底层代码从英伟达CUDA框架重写为CANN框架,彻底摆脱对海外算力的依赖。昇腾950PR芯片FP8算力达1PFLOPS,搭载128GB自研高带宽内存,推理性能达到英伟达H100的70%,但采购成本仅为后者的1/3,为成本下降提供了硬件基础。
价格战加剧 大模型普惠时代加速到来
0.001元/千Token的定价,相当于1元人民币即可生成约100万字内容,价格仅为行业平均水平的1/5,较GPT-4 Turbo更是低了两个数量级。成本的断崖式下降正在快速重构大模型行业格局,推动AI应用从“尝鲜期”进入“规模化落地期”。
对企业用户而言,成本下降直接降低了AI应用门槛。以客服场景为例,单日处理10万次对话的硬件成本从原来的近万元降至不足2000元;在金融文档分析场景,单轮10万Token的合规分析成本从80元降至0.1元,使大规模应用成为可能。国内多家互联网企业已开始全面切换至国产大模型API,仅算力成本一项每年即可节省数亿元。
对C端用户而言,大模型服务价格下降的红利已开始显现。多家平台已降低会员订阅价格,甚至推出免费额度,普通用户使用AI服务的成本大幅降低,推动AI助手加速普及。数据显示,2026年国内大模型日活用户已突破2亿,较2025年增长150%,成本下降是最重要的驱动因素。
不过,成本战也带来了新的挑战。一方面,企业需要在成本控制与服务质量之间找到平衡,避免过度压缩成本导致性能下降;另一方面,低价竞争可能引发行业洗牌,缺乏技术优势和成本控制能力的中小厂商将面临淘汰压力。
计费模式变革 从Token向PTU演进
随着大模型应用场景的复杂化,传统的Token计费模式弊端日益显现:相同Token量下,复杂任务与简单问答的算力消耗差距可达10倍以上,导致企业成本不可控;智能体、长上下文对话等场景下Token消耗呈指数级增长,按Token计费导致用户“不敢用、慎用”。
在此背景下,PTU(Processing Time Unit,算力时间单元)作为新一代计费模式正在兴起。PTU以“芯片算力占用时长”为核心计量标准,直接关联实际算力消耗,复杂任务与简单任务的成本差异通过算力占用时长自然体现,解决了Token计费模式下的成本错配问题。
目前包括DeepSeek在内的多家厂商已开始试点PTU计费模式,预计未来2-3年将逐步成为行业主流计费方式。计费模式的变革将进一步推动大模型应用的透明化和可预期性,降低企业用户的预算规划难度,促进AI技术在更多场景的落地。
DeepSeek专家模式的上线和推理成本的突破性下降,标志着国产大模型已经实现了“性能+成本”的双重优势,在全球AI竞争中占据了更有利的位置。随着技术的持续进步和成本的进一步下降,AI技术将加速渗透到各行各业,成为推动数字经济发展的核心动力。