生成式预训练Transformer(Generative Pre-trained Transformer, GPT)
定义
GPT是OpenAI开发的一系列大语言模型,基于Decoder-only的Transformer架构,采用”生成式预训练+微调”的范式,通过在海量文本数据上进行自回归预训练,学习语言的模式和知识,能够生成高质量的自然语言文本,是当前最具影响力的大语言模型系列。
发展历程
GPT-1(2018年6月)
- 参数规模:1.17亿
- 训练数据:7000本未出版的书籍
- 核心创新:证明了”预训练+微调”范式在自然语言处理任务中的有效性,在12个NLP任务中的9个取得了当时最好的效果。
- 意义:GPT系列的开山之作,验证了生成式预训练的可行性。
GPT-2(2019年2月)
- 参数规模:15亿
- 训练数据:800万网页文本(WebText)
- 核心创新:取消了下游任务微调步骤,展示了大模型的零样本和小样本学习能力,不需要针对特定任务微调,只通过提示词就能完成各种任务。生成的文本质量大幅提升,甚至出现了”生成的文本太像人,担心被滥用而不敢完全开源”的讨论。
- 意义:首次展示了大语言模型的通用能力和涌现特性。
GPT-3(2020年5月)
- 参数规模:1750亿
- 训练数据:5000亿Token的大规模文本数据,包括网页、书籍、文章、代码等
- 核心创新:模型规模实现了量级跨越,性能有了质的提升,能够完成写诗、写文章、写代码、数学推理、问答等非常多样化的任务。OpenAI首次推出了GPT API,开启了大模型的商业化道路。
- 意义:让产业界看到了大语言模型的巨大商业价值,引发了全球大模型研发热潮。
GPT-3.5/ChatGPT(2022年11月)
- 在GPT-3基础上进行了改进,采用了人类反馈强化学习(RLHF)技术对齐人类偏好
- 推出了对话式产品ChatGPT,上线2个月用户突破1亿,成为历史上增长最快的消费级应用
- 生成的回答更加流畅、准确、符合人类需求,真正让大语言模型走向大众
- 意义:引爆了全球AI热潮,标志着AI技术进入大众化应用阶段。
GPT-4(2023年3月)
- 多模态模型,支持文本和图像输入
- 性能大幅提升,在律师考试、SAT考试等各种专业测试中达到人类水平
- 支持8K和32K上下文窗口,能够处理长文档
- 安全性和对齐能力大幅提升,减少了有害输出和幻觉
- 意义:大语言模型性能达到新高度,开始在专业领域落地应用。
GPT-4 Turbo(2023年11月)
- 知识截止日期更新到2023年4月
- 支持128K上下文窗口,可以一次性处理300页文本
- 响应速度更快,价格更低
- 支持函数调用、JSON输出等开发者友好功能
GPT-4o(2024年3月)
- “o”代表”Omni”(全能),是多模态能力的全面升级
- 支持实时语音对话、图像理解、视频分析
- 响应速度提升一倍,接近人类对话的反应速度
- 多模态理解能力大幅增强,支持更复杂的多模态任务
核心技术特点
- Decoder-only架构:全部采用Transformer解码器结构,相比于Encoder-Decoder架构更适合生成任务,训练效率更高,扩展能力更好。
- 自回归预训练:预训练任务是预测下一个词,让模型学习语言的统计规律和知识。
- 大规模训练:模型参数越来越大,训练数据越来越多,计算投入越来越高,性能随着规模增长而稳定提升。
- 人类反馈对齐:通过RLHF、RLAIF等技术,让模型的输出更符合人类的偏好和价值观,提升有用性和安全性。
社会影响
- AI普及:ChatGPT让普通大众第一次体验到AI的强大能力,极大地提升了全社会对AI的认知和接受度。
- 产业变革:GPT系列模型推动了AI产业的爆发式增长,催生了一大批AI初创公司,推动了各个行业的智能化转型。
- 工作方式变革:正在改变文案写作、编程、教育、法律、医疗等各个行业的工作方式,大幅提升工作效率。
- 监管讨论:GPT的强大能力引发了关于AI监管、伦理、就业影响等一系列问题的全球讨论,推动了AI治理体系的建设。
发展趋势
- 多模态化:从纯文本模型向支持文本、图像、音频、视频等多种模态的通用模型发展。
- 实时交互:支持实时语音对话、视频分析等,交互方式越来越自然。
- 个性化:支持个性化定制,能够适应用户的特定需求和使用习惯。
- 工具使用能力:能够调用外部工具、API、数据库等,扩展模型的能力边界。
- 推理能力增强:逻辑推理、数学计算、复杂问题解决能力持续提升。