马斯克的AI公司xAI发布Grok 3,宣称其最大优势是:能实时访问X(Twitter)平台的海量数据,在时效性上超越其他模型。本文测试这个优势是否成立,以及整体能力如何。
实时数据访问:优势是真实的
测试:问”现在X上关于[某热点话题]最多的讨论是什么?”——Grok能准确引用X上的近期内容,包括大V观点和话题趋势,这是ChatGPT/Claude做不到的(它们的知识有截止日期)。
对于需要关注实时舆情、Twitter热点、英语互联网讨论趋势的用户,Grok有独特价值。
通用能力测试
写作质量:Grok 3的英文写作质量与GPT-4o相近,风格上更活泼、有时带有幽默感(这是有意为之的设计)。中文输出质量明显弱于DeepSeek和Claude。
代码能力:在标准编程任务上表现良好,但与Claude相比稍逊,特别是在复杂项目架构建议上。
推理能力:Grok 3也有”思考模式”(类似o系列),在数学和逻辑题上表现有改善,但整体不如o3。
适合使用Grok的场景
- 需要追踪X/Twitter上的实时话题和舆情
- 英文内容创作(特别是需要轻松幽默语气)
- 在X平台重度活跃的用户(集成在X里使用方便)
不适合:中文工作场景、需要高精度推理、代码开发——这些场景DeepSeek/Claude/GPT-4o更合适。Grok是有特色的补充工具,而不是全面替代者。
