NLP:注意力机制及其分类

发布于:2025-07-20 ⋅ 阅读:(21) ⋅ 点赞:(0)


前言:前面分享了RNN,这篇文章开始讲解注意力机制。

一、注意力机制概念

注意力机制(Attention Mechanism)是深度学习中一种模拟人类认知聚焦能力的计算范式,通过动态分配权重突出关键信息。

核心原理:

在这里插入图片描述
核心优势:

在这里插入图片描述

二、注意力机制分类

深度学习中的注意力机制通常可分为三类: 软注意(全局注意)、硬注意(局部注意)和自注意(内注意)。

(一)软注意力

1.概念

软注意力机制(Soft Attention Mechanism)是注意力机制的一种基本形式,通过概率分布对输入信息进行加权求和,实现可微分的动态聚焦。

软注意力为每个输入项的分配的权重为0-1之间,某些部分关注多一点,某些部分关注少一点。

2.计算过程(首先给定K/Q/V三个值)

在这里插入图片描述

3.优缺点分析

在这里插入图片描述

(二)硬注意力

1.概念

硬注意力(Hard Attention)是注意力机制的一种变体,与软注意力(Soft Attention)的核心区别在于其离散化的注意力权重分配方式。

硬注意为每个输入项分配的权重非0即1,只考虑哪部分需要关注,哪部分不关注。

核心特点:
在这里插入图片描述

2.计算过程(首先给定K/Q/V三个值)

在这里插入图片描述

3.优缺点分析

在这里插入图片描述

(三)自注意力

1.概念

自注意力(Self-Attention)是注意力机制的一种特殊形式,通过让序列中的每个元素直接与序列中所有其他元素交互,动态计算全局依赖关系。

自注意力通过输入项内部的"表决"来决定应该关注哪些输入项。和前两种相比,在处理很长的输入时,具有并行计算的优势。

核心特点:

在这里插入图片描述

2.计算过程(首先给定K/Q/V三个值)

在这里插入图片描述
在这里插入图片描述

3.关键优势

在这里插入图片描述

三、注意力机制应用场景

NLP:机器翻译、文本摘要、问答系统

CV:图像分类(ViT)、目标检测(DETR)

多模态:视频描述生成、图文检索

语音:语音识别(Conformer)

最后分享:

1.软注意力、硬注意力、自注意力的核心特性对比

在这里插入图片描述

2.软注意力、硬注意力、自注意力的训练方式对比

在这里插入图片描述

3.软注意力、硬注意力、自注意力的应用场景对比

在这里插入图片描述

今日分享到此结束。


网站公告

今日签到

点亮在社区的每一天
去签到