2026年3月,OpenAI、Anthropic和谷歌几乎同时推出了各自的旗舰新版本——GPT-5.4 Thinking(3月5日)、Claude Opus 4.6(3月8日)、Gemini 3.1。三家憋了大半年,全撞在了同一个月里。我订阅ChatGPT Plus快两年了,Claude Pro也续了一年多,Gemini Advanced是去年下半年才加的。三款都用过,有前后对比,这篇说说我的真实感受,不是跑分报告。
GPT-5.4 Thinking:第一款真正能”帮你干活”的AI
GPT-5.4最让我感到不同寻常的,不是推理能力提升了多少个百分点,而是一个叫做原生计算机控制的功能——在Pro版里,你可以让它直接操作你的电脑,打开浏览器查资料,整理成文档,发给指定联系人,全程不需要你盯着。
我测了一个实际场景:让它帮我调研某个行业里三个主要竞品的最新动态。以前我得自己搜索、复制粘贴、喂给AI分析,现在直接说”去查一下,整理成报告”,它自己打开了浏览器,搜了七八个关键词,排除掉广告和无关页面,23分钟后给了我一份三页的摘要。我那23分钟在喝咖啡。这种体验跟以前所有AI都不一样,以前的AI是”帮你想”,GPT-5.4开始是”帮你做”。
Thinking模式的推理能力也确实上了台阶。拿几道要多步骤推演的数学题测了一下,它的解题路径比Claude和Gemini更完整,中间不会跳步骤,也不会给你一个看起来对但哪里说不清楚的答案。100万token上下文窗口是另一个很实用的改进,以前聊着聊着它就”忘了”前面说的事,现在这个问题基本消失了。
当然,代价也很清楚:Pro版$200/月,国内访问的稳定性也不如Claude;Plus版($20)的Thinking模式有次数限制,用二三十次就切回普通模式了;Thinking响应慢,复杂问题有时候得等将近两分钟。所以GPT-5.4的最大价值,在Pro版那个”自主执行任务”的场景里,普通Plus用户能感受到的提升是有限的。
Claude Opus 4.6:写代码这件事,它跟其他的不在同一档
Anthropic发布Claude Opus 4.6的方式有点低调——没有直播发布会,没有铺天盖地的营销,官网悄悄更新了一条产品页。但早期用过的人反应几乎一边倒:编码能力最强。SWE-bench是衡量AI解决真实软件工程问题的基准测试,Claude Opus 4.6的得分打破了商业模型的历史记录。
我自己的体验能印证这一点。我有一段Python脚本,处理逻辑嵌套了三层,有个bug我找了半天没找到,让Claude看了一眼,它不仅定位到了问题,还给我解释了为什么这种写法在边界条件下会出错,并且顺手优化了相邻的几行代码——不是那种”找到哪里改哪里”的机械式修复,而是它理解了整段代码想干什么,给出了更合理的实现方式。这种差别在实际开发中很重要。
写文章这件事也是Claude的强项,而且是那种很难量化但感受很明显的强。同样的话题让三款AI各写一遍,Claude写出来的东西句子长短变化最自然,段落过渡最流畅,读起来不会有那种”每段第一句都是总述、后面是三条分点”的机械感。它有语气,有轻重,偶尔还有点自己的观点。
100万token上下文加上Claude一向稳定的多轮对话记忆,让它特别适合”一个项目聊到底”的场景——今天聊完上半部分,明天接着聊下半部分,前提条件和背景它不会丢。对我来说,这个特点比很多人意识到的更有价值。
短板是联网搜索。Claude的网络信息获取能力比GPT-5.4弱,如果你的工作需要大量引用实时数据或者最新新闻,Claude偶尔会给你一个”我的训练截止到某某时间”的说法,或者搜到的内容已经过时。这是目前它跟GPT-5.4差距最明显的地方。
Gemini 3.1:综合基准测试第一,但真正的优势不在这里
Gemini 3.1 Pro在综合基准测试里的成绩是三款里最好的,16项主流评测有13项排第一。但坦白说,光靠这个数字,你在日常使用中感受不到它全面碾压另外两款——它在纯对话流畅度上不如Claude,在深度推理上不如GPT-5.4 Thinking。那它的核心优势在哪?
在跟Google全家桶的深度集成里。如果你是Gmail、Google Docs、Google Drive的重度用户,Gemini的价值是另外两款加起来都比不上的。举几个实际例子:在对话框里说”帮我回一下今天那封讨论项目进度的邮件”,它真的去Gmail里找到那封邮件,读完之后起草了一份回复,你只需要确认发送。上传一个复杂的Drive文档,让它分析数据并提炼结论,不需要下载、不需要粘贴,直接操作。在Google Docs里写东西,让它实时帮你修改段落或者补充论据,改完直接插回文档。这些工作流的整合深度,ChatGPT和Claude目前都没法复制。
多模态处理也是Gemini的优势区。给它一段YouTube视频让它总结重点;给它几张产品图让它对比设计风格;文字、图片、音频、视频可以同时混合处理,不报错,不降质。这在做内容分析和竞品调研时非常有用。
还有一点:它有免费的Flash-Lite版。日常随手问问题、查个资料、让它帮忙改一句话,免费版完全够用。Advanced版($20/月)只是解锁更强的模型和更高频率。对于Google Workspace用户来说,很多时候付费订阅省下来的时间值的钱,远不止$20。
三款都存在的问题,也得说清楚
幻觉问题没解决。三款在引用具体数据或者小众知识的时候,偶尔会给出”数字合理但来源对不上”的内容。专业场景下关键数据必须自己核实,不能全信。
超长上下文下的”注意力衰减”也都有。100万token上下文是进步,但不代表它们能一直记住你在第一段提的所有前提。对话越长,它们对早期内容的关注度会逐渐降低,你可能发现它给的建议违背了自己两小时前说过的约束条件。
还有价格。三款旗舰版都是$20/月起步,解锁完整功能要$100-200/月。而与此同时,DeepSeek V4的API调用成本是$0.28/百万输入token,比GPT-5.4便宜将近27倍。如果你的使用场景是API批量处理,这个价格差距值得认真权衡。
最后说说我怎么选
主要用来写代码或者处理代码相关的工作:Claude Opus 4.6,现阶段没有争议。想让AI帮你真正自主完成任务、自己查资料整理报告:GPT-5.4 Pro,贵,但目前它是唯一能做到这件事的商业模型。重度Google用户、日常办公为主:Gemini Advanced,生态整合省下的时间比订阅费值钱。
如果只能选一个,我会选Claude Pro($20/月)。写代码和写内容是我每天用AI频率最高的两件事,这两件事它都拿第一。但如果你的需求是轻量的——偶尔问问题、查个资料、写个短文案,三款的免费版其实已经覆盖了绝大多数场景,真的没必要付费。
2026更新:工具选择不要只看热度,要看场景
AI 工具更新很快,但真正能长期留下来的,往往不是功能最多的,而是能稳定解决具体问题的。选工具时建议先问三个问题:我的主要场景是什么、中文体验够不够、成本和学习曲线能不能接受。
适合谁看
- 想比较 ChatGPT、Claude、Gemini、DeepSeek 等主流模型的用户
- 需要 AI 写作、AI 办公、AI 编程或 AI 内容生产工具的创作者
- 希望减少试错成本、建立自己 AI 工具组合的读者
延伸阅读
常见问题
有没有一款 AI 工具适合所有人? 没有。写作、编程、搜索、图片、视频和自动化对应的最佳工具通常不同。
免费工具够用吗? 入门够用,但如果用于长期生产,稳定性、额度、隐私和工作流整合更重要。
0 条评论