AI 大语言模型概览
主流大模型
核心技术
分词技术
什么是分词技术?
分词技术是将输入文本转换为模型可以处理的离散单元(token)的过程。这是大语言模型处理文本的第一步,对模型的性能和效率有重要影响。
主要分词方法
BPE(Byte-Pair Encoding)
:基于字符对频率的分词方法
WordPiece
:Google 开发的分词算法,用于 BERT 等模型
SentencePiece
:支持多种语言的分词工具
Unigram
:基于概率模型的分词方法
分词的特点
子词单元
:将词分解为更小的单元
词汇表大小
:通常在数万到数十万之间
未知词处理
:能够处理未见过的词
多语言支持
:支持不同语言的分词
优势
减少词汇表大小
提高模型泛化能力
更好地处理未知词
支持多语言处理
应用场景
文本预处理
机器翻译
文本生成
命名实体识别
文本分类
返回首页