AI 大语言模型概览
主流大模型
核心技术
注意力机制
什么是注意力机制?
注意力机制是一种让模型能够动态关注输入序列中相关部分的技术。它通过计算不同位置之间的相关性权重,使模型能够根据上下文选择性地关注重要信息。
核心组件
查询(Query)
:当前需要关注的位置
键(Key)
:用于计算相关性的参考信息
值(Value)
:实际需要提取的信息
注意力分数
:表示不同位置之间的相关性强度
注意力机制的类型
自注意力(Self-Attention)
:计算序列内部元素之间的关系
交叉注意力(Cross-Attention)
:计算不同序列之间的关系
多头注意力(Multi-Head Attention)
:并行计算多个注意力头
稀疏注意力(Sparse Attention)
:只关注部分位置,提高效率
优势
能够捕获长距离依赖关系
并行计算效率高
可以处理变长序列
具有可解释性
应用场景
机器翻译
文本摘要
图像识别
语音识别
推荐系统
返回首页