本文目录:
前言:前面分享了RNN,这篇文章开始讲解注意力机制。
一、注意力机制概念
注意力机制(Attention Mechanism)是深度学习中一种模拟人类认知聚焦能力的计算范式,通过动态分配权重突出关键信息。
核心原理:
核心优势:
二、注意力机制分类
深度学习中的注意力机制通常可分为三类: 软注意(全局注意)、硬注意(局部注意)和自注意(内注意)。
(一)软注意力
1.概念
软注意力机制(Soft Attention Mechanism)是注意力机制的一种基本形式,通过概率分布对输入信息进行加权求和,实现可微分的动态聚焦。
软注意力为每个输入项的分配的权重为0-1之间,某些部分关注多一点,某些部分关注少一点。
2.计算过程(首先给定K/Q/V三个值)
3.优缺点分析
(二)硬注意力
1.概念
硬注意力(Hard Attention)是注意力机制的一种变体,与软注意力(Soft Attention)的核心区别在于其离散化的注意力权重分配方式。
硬注意为每个输入项分配的权重非0即1,只考虑哪部分需要关注,哪部分不关注。
核心特点:
2.计算过程(首先给定K/Q/V三个值)
3.优缺点分析
(三)自注意力
1.概念
自注意力(Self-Attention)是注意力机制的一种特殊形式,通过让序列中的每个元素直接与序列中所有其他元素交互,动态计算全局依赖关系。
自注意力通过输入项内部的"表决"来决定应该关注哪些输入项。和前两种相比,在处理很长的输入时,具有并行计算的优势。
核心特点:
2.计算过程(首先给定K/Q/V三个值)
3.关键优势
三、注意力机制应用场景
NLP:机器翻译、文本摘要、问答系统
CV:图像分类(ViT)、目标检测(DETR)
多模态:视频描述生成、图文检索
语音:语音识别(Conformer)
最后分享:
1.软注意力、硬注意力、自注意力的核心特性对比
2.软注意力、硬注意力、自注意力的训练方式对比
3.软注意力、硬注意力、自注意力的应用场景对比
今日分享到此结束。