月之暗面的Kimi以”超长上下文”为核心卖点,宣称支持100万token的上下文窗口——相当于约75万个中文字,可以装下一整部长篇小说。本文测试这个能力在真实场景下的表现。
测试一:长文档问答
上传一份200页的学术论文(约15万字),提问”论文的第三个实验结论是什么,它与作者在第一章提出的假设有什么关联?”
结果:Kimi准确定位了第三个实验的结论,并正确关联到第一章的假设,甚至主动指出了作者未充分讨论的矛盾点。这需要真正”读懂”整篇文章,而不只是关键词匹配。
测试二:代码库理解
上传一个中型开源项目的完整代码(约3万行),问”这个项目中处理用户认证的模块在哪里,它和数据库模块是怎么交互的?”
结果:准确定位了认证模块的文件位置,清晰解释了与数据库的调用关系,并画出了数据流向。对于需要快速理解陌生代码库的开发者,这个能力价值极高。
测试三:多文档综合分析
同时上传10份合同(共约5万字),问”这10份合同中,哪几份对甲方的违约责任规定最严格,具体条款是什么?”
结果:正确识别了3份最严格的合同,准确引用了对应条款,并做了横向比较。这项任务人工完成需要几个小时,Kimi用了约40秒。
局限性
当上下文超过50万字后,Kimi对”文档中间段落”的细节回忆准确率有所下降(”遗忘效应”)。对于极长文档,建议把关键信息点明确标注,而不是完全依赖AI自己找。代码能力不及Claude和GPT,长文本阅读理解才是Kimi真正的核心优势。
