词元（Token）

词元（Token）是自然语言处理中的基本处理单位，是文本经过分词后得到的最小语义单元。2025年3月，全国科学技术名词审定委员会正式将AI领域的术语”Token”的中文译法统一为”词元”，结束了长期以来翻译混乱的局面。

在大语言模型中，文本首先会被转换为词元序列，然后再输入到模型中进行处理。一个词元可以是：

不同的分词器会有不同的分词规则，词元的大小和粒度也会有所不同。

常见的分词算法主要有以下几种：

字节对编码（Byte Pair Encoding, BPE）：当前大语言模型最常用的分词算法，从初始的单个字符开始，不断合并出现频率最高的相邻字符对，直到达到预设的词表大小。BPE能够很好地平衡词表大小和分词粒度，有效处理未登录词。
WordPiece：Google提出的分词算法，与BPE类似，但合并策略基于概率最大化而不是频率，BERT系列模型使用WordPiece分词。
SentencePiece：谷歌开源的无监督分词工具，支持直接对原始文本进行分词，不需要预先进行分词处理，支持多种语言，尤其适合中日韩等象形文字语言。
基于规则的分词：早期NLP系统常用的方法，基于词典和语法规则进行分词，适合特定领域和小语种，但泛化能力差。

词表是分词器中所有词元的集合，是大语言模型的重要组成部分：

词元是大语言模型处理文本的基础，具有重要意义：

词元概念贯穿于所有自然语言处理任务：

分词技术仍在不断发展，未来将向着更好的多语言支持、更高的分词效率、更小的词表体积、更合理的语义粒度等方向发展，更好地支撑大语言模型的能力提升。