如果你关注AI,一定对DeepSeek的价格感到震惊过。当Claude Opus 4.6的输出价格是$75/百万token、GPT-5.4是$30的时候,DeepSeek的同等能力模型API价格可以低到$1以下——差距几十倍。这不是营销噱头,而是真实存在的定价。那么问题来了:DeepSeek是怎么做到的?它的低价是可持续的吗?
技术层面:架构创新带来的效率提升
稀疏注意力机制(NSA)
传统Transformer的注意力机制是”全量计算”——每个token要和所有其他token做计算,计算量随序列长度的平方增长,非常耗算力。DeepSeek在V3和V4版本中引入了NSA(Native Sparse Attention),让模型只关注”最相关”的部分token,大幅减少无效计算。简单类比:传统方法是让一个人把整本字典从头到尾读一遍才能回答问题,NSA是让他直接跳到相关章节。效率差距是数量级的。
MoE(混合专家)架构
DeepSeek采用MoE(Mixture of Experts)架构,模型虽然参数量大,但每次推理只激活一小部分”专家模块”,而不是全量激活所有参数。这意味着同样的硬件,DeepSeek能处理更多请求,推理成本自然摊薄。
商业层面:中国算力成本优势
除了技术,商业环境也很重要。中国的服务器运维成本、电力成本、人力成本都低于美国。DeepSeek在国内IDC部署,这些成本优势直接体现在定价上。另外,DeepSeek有国内企业市场作为基本盘,API定价可以更激进——用低价快速占领市场份额。
低价可持续吗?
老达的判断是:短期内可持续,长期存在不确定性。支持可持续的因素:技术效率优势是真实的,不是靠补贴硬撑;国内市场规模足够大。不确定因素:芯片出口限制持续影响DeepSeek扩展算力的速度。
对普通用户意味着什么?
DeepSeek的低价,本质上在重塑整个AI API市场的定价预期。OpenAI和Anthropic已经感受到压力,多次降价。对于开发者和企业用户,这是实实在在的红利——同等预算能跑更多请求,AI应用的门槛在降低。如果你还没用过DeepSeek的API,建议试试,性价比确实出乎意料地高。