Anthropic发布Claude 3.7 Sonnet后,网上关于”它是否超越GPT-4o”的讨论持续发酵。本文用实际任务测试而非benchmark跑分,给出更接近真实使用体验的评估。
代码能力:这是Claude 3.7最亮眼的方向
测试场景:给一段有bug的Python数据处理脚本(约200行),让AI找出所有问题并修复。
Claude 3.7的表现:准确识别了3处逻辑错误和2处性能问题,修复代码可直接运行,并主动解释了每处修改的原因。GPT-4o在同样的测试中漏掉了一处边界条件错误。
扩展代码测试:从零编写一个带有登录验证的REST API(用FastAPI),Claude 3.7生成的代码结构清晰,安全实践(密码哈希、JWT token)处理正确,注释完整。这个任务对非程序员来说几乎可以直接用。
长文本处理:200K上下文窗口的实际效果
测试:上传一份80页的商业计划书(约4万字),提问:”这份计划书中财务预测部分有哪些不合理的假设?”
Claude 3.7找出了4个问题,包括增长率假设过于乐观、运营成本低估、现金流时间线不匹配等,每个问题都标注了原文对应位置。这个任务需要真正”读完”全文才能完成,结果令人满意。
推理能力:谨慎但不死板
Claude 3.7的一个明显特点是:不确定的时候会说”我不确定”,而不是像某些模型一样给出一个听起来有道理但实际上是错的答案。这对需要高准确率的场景(法律、医疗、财务分析)很有价值。
但这也意味着它在某些创意类任务上会显得”太保守”——如果你需要大胆发散的创意,需要明确告诉它”尽情发挥创意,不用担心准确性”。
适合用Claude 3.7的场景
- 代码开发和调试(当前最强之一)
- 长文档分析和总结
- 需要高准确率的分析类任务
- 复杂的多步骤逻辑推理
更适合用GPT-4o的场景:实时联网搜索、图像理解、语音交互、需要插件生态的工作流。两款模型各有侧重,不是替代关系,是互补关系。
