生成式预训练Transformer(Generative Pre-trained Transformer, GPT)

生成式预训练Transformer(Generative Pre-trained Transformer, GPT)

定义

GPT是OpenAI开发的一系列大语言模型,基于Decoder-only的Transformer架构,采用”生成式预训练+微调”的范式,通过在海量文本数据上进行自回归预训练,学习语言的模式和知识,能够生成高质量的自然语言文本,是当前最具影响力的大语言模型系列。

发展历程

GPT-1(2018年6月)

  • 参数规模:1.17亿
  • 训练数据:7000本未出版的书籍
  • 核心创新:证明了”预训练+微调”范式在自然语言处理任务中的有效性,在12个NLP任务中的9个取得了当时最好的效果。
  • 意义:GPT系列的开山之作,验证了生成式预训练的可行性。

GPT-2(2019年2月)

  • 参数规模:15亿
  • 训练数据:800万网页文本(WebText)
  • 核心创新:取消了下游任务微调步骤,展示了大模型的零样本和小样本学习能力,不需要针对特定任务微调,只通过提示词就能完成各种任务。生成的文本质量大幅提升,甚至出现了”生成的文本太像人,担心被滥用而不敢完全开源”的讨论。
  • 意义:首次展示了大语言模型的通用能力和涌现特性。

GPT-3(2020年5月)

  • 参数规模:1750亿
  • 训练数据:5000亿Token的大规模文本数据,包括网页、书籍、文章、代码等
  • 核心创新:模型规模实现了量级跨越,性能有了质的提升,能够完成写诗、写文章、写代码、数学推理、问答等非常多样化的任务。OpenAI首次推出了GPT API,开启了大模型的商业化道路。
  • 意义:让产业界看到了大语言模型的巨大商业价值,引发了全球大模型研发热潮。

GPT-3.5/ChatGPT(2022年11月)

  • 在GPT-3基础上进行了改进,采用了人类反馈强化学习(RLHF)技术对齐人类偏好
  • 推出了对话式产品ChatGPT,上线2个月用户突破1亿,成为历史上增长最快的消费级应用
  • 生成的回答更加流畅、准确、符合人类需求,真正让大语言模型走向大众
  • 意义:引爆了全球AI热潮,标志着AI技术进入大众化应用阶段。

GPT-4(2023年3月)

  • 多模态模型,支持文本和图像输入
  • 性能大幅提升,在律师考试、SAT考试等各种专业测试中达到人类水平
  • 支持8K和32K上下文窗口,能够处理长文档
  • 安全性和对齐能力大幅提升,减少了有害输出和幻觉
  • 意义:大语言模型性能达到新高度,开始在专业领域落地应用。

GPT-4 Turbo(2023年11月)

  • 知识截止日期更新到2023年4月
  • 支持128K上下文窗口,可以一次性处理300页文本
  • 响应速度更快,价格更低
  • 支持函数调用、JSON输出等开发者友好功能

GPT-4o(2024年3月)

  • “o”代表”Omni”(全能),是多模态能力的全面升级
  • 支持实时语音对话、图像理解、视频分析
  • 响应速度提升一倍,接近人类对话的反应速度
  • 多模态理解能力大幅增强,支持更复杂的多模态任务

核心技术特点

  • Decoder-only架构:全部采用Transformer解码器结构,相比于Encoder-Decoder架构更适合生成任务,训练效率更高,扩展能力更好。
  • 自回归预训练:预训练任务是预测下一个词,让模型学习语言的统计规律和知识。
  • 大规模训练:模型参数越来越大,训练数据越来越多,计算投入越来越高,性能随着规模增长而稳定提升。
  • 人类反馈对齐:通过RLHF、RLAIF等技术,让模型的输出更符合人类的偏好和价值观,提升有用性和安全性。

社会影响

  • AI普及:ChatGPT让普通大众第一次体验到AI的强大能力,极大地提升了全社会对AI的认知和接受度。
  • 产业变革:GPT系列模型推动了AI产业的爆发式增长,催生了一大批AI初创公司,推动了各个行业的智能化转型。
  • 工作方式变革:正在改变文案写作、编程、教育、法律、医疗等各个行业的工作方式,大幅提升工作效率。
  • 监管讨论:GPT的强大能力引发了关于AI监管、伦理、就业影响等一系列问题的全球讨论,推动了AI治理体系的建设。

发展趋势

  • 多模态化:从纯文本模型向支持文本、图像、音频、视频等多种模态的通用模型发展。
  • 实时交互:支持实时语音对话、视频分析等,交互方式越来越自然。
  • 个性化:支持个性化定制,能够适应用户的特定需求和使用习惯。
  • 工具使用能力:能够调用外部工具、API、数据库等,扩展模型的能力边界。
  • 推理能力增强:逻辑推理、数学计算、复杂问题解决能力持续提升。
« 上一篇 杨立昆(Yann LeCun) 下一篇 » 深度学习(Deep Learning)

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注