微调（Fine-tuning）

微调是指在已经预训练好的大模型基础上，使用特定领域的数据集进行进一步训练，让模型适应特定任务或领域的技术，是提升大模型在特定场景下表现的重要方法。

大语言模型在大规模通用数据上进行预训练后，已经具备了通用的语言理解和生成能力，但在特定领域或特定任务上的表现可能不够理想。微调通过使用较小的特定领域数据集对模型进行继续训练，让模型学习该领域的专业知识和任务模式，在保留通用能力的同时，大幅提升特定任务的性能。

预训练（Pre-training）：在大规模通用数据上进行训练，学习通用的语言知识和世界知识，计算成本极高，通常需要数十亿到数千亿参数，训练数据量达到万亿级词元。
微调（Fine-tuning）：在预训练好的模型基础上，使用小规模的特定领域数据进行训练，学习特定任务的模式，计算成本相对较低，数据集通常从几千到几百万样本不等。

全参数微调（Full Fine-tuning）：训练过程中更新模型的所有参数，能够获得最佳的性能，但计算成本高，需要大量的计算资源，并且存在灾难性遗忘的风险。
参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）：只训练模型的一小部分参数，冻结大部分预训练参数，在保持模型性能的同时大幅降低计算成本，是当前的主流方法。常见的PEFT方法包括：
- LoRA（Low-Rank Adaptation）：在Transformer的注意力层中插入低秩矩阵，只训练这些低秩矩阵的参数，参数量通常只有原模型的0.1%~1%，效果接近全参数微调，是最常用的微调方法。
- Adapter：在模型层之间插入小型的适配层，只训练这些适配层的参数。
- 前缀微调（Prefix Tuning）：只优化输入的前缀向量，冻结模型主体参数。
- 提示微调（Prompt Tuning）：只优化连续的提示嵌入，适合大模型的少样本学习。
指令微调（Instruction Tuning）：使用多种不同任务的指令数据集进行微调，提升模型遵循指令的能力和泛化能力，是大语言模型对齐的重要步骤。
人类反馈强化学习（RLHF）：结合强化学习和人类反馈，让模型的输出更符合人类的偏好和价值观，是ChatGPT等对话模型提升对话质量的关键技术。

优势：

局限性：

微调技术正在向着更高效、更易用、更自动化的方向发展：

微调作为大模型定制化的重要手段，将在各行各业的大模型落地应用中发挥重要作用。