DataWhale 大语言模型 - Transformer模型介绍

发布于:2025-03-16 ⋅ 阅读:(23) ⋅ 点赞:(0)

 本课程围绕中国人民大学高瓴人工智能学院赵鑫教授团队出品的《大语言模型》书籍展开,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。

课程地址:https://www.datawhale.cn/learn/summary/107

赵鑫教授团队:http://aibox.ruc.edu.cn/

课程学习地址:Datawhale-学用 AI,从此开始

视频地址:《大语言模型》2.1 Transformer模型详解_哔哩哔哩_bilibili

Transformer模型是一种基于自注意力(self-attention)机制的深度学习模型,最初由Google在2017年的论文《Attention is All You Need》中提出。它主要被用于处理序列数据,如自然语言文本,并在机器翻译、文本摘要、问答系统等自然语言处理(NLP)任务中取得了显著的成功。

架构概述
Transformer模型由编码器(Encoder)和解码器(Decoder)两部分组成,这两部分都是由多层“编码器层”或“解码器层”堆叠而成。

编码器(Encoder)
多头自注意力(Multi-Head Self-Attention)机制:这是Transformer的核心,允许模型在不同位置上同时关注输入序列的不同部分,以捕捉序列内部的依赖关系。
位置编码(Positional Encoding):由于Transformer不像循环神经网络(RNN)那样天然具有处理序列位置信息的能力,因此需要引入位置编码来表示输入序列中各个词的位置信息。
前馈神经网络(Feed-Forward Neural Network):在每个自注意力层之后,都会接一个简单的前馈网络,对每个位置进行相同的计算。

解码器(Decoder)
编码器-解码器注意力(Encoder-Decoder Attention):在解码器的某些层中,除了自注意力层,还有一个注意力层专门用于关注编码器的输出,以获取输入序列的全局信息。
掩码自注意力(Masked Self-Attention):在解码器的自注意力层中,为了防止模型在预测某个位置时能看到未来的信息,需要使用掩码来自动忽略当前位置之后的输入。

关键组件
自注意力(Self-Attention):
查询(Query)、键(Key)和值(Value):通过可学习的权重矩阵将输入序列转换为这三个向量。
点积注意力(Dot-Product Attention):计算查询和所有键的点积,并通过softmax函数获得权重,然后加权求和所有值。
多头注意力(Multi-Head Attention):
将输入序列分别传递给多个自注意力机制(称为“头”),然后将这些头的输出拼接起来,并通过另一个线性层进行处理。
位置编码(Positional Encoding):
通常使用正弦和余弦函数来生成位置编码,将其与输入嵌入(embedding)相加,使模型能够捕捉序列中单词的位置信息。
训练和推理
训练:在训练过程中,Transformer模型使用最大似然估计来最小化输出序列和目标序列之间的差异。
推理(解码):在解码时,通常采用自回归的方式,即每次根据已生成的部分序列来预测下一个词。

优势
并行计算:由于Transformer不依赖于序列中的前一个元素,因此可以更有效地并行化计算。
长距离依赖:自注意力机制能够直接捕捉序列中的长距离依赖关系,这在以前的循环神经网络中是一个挑战。

Transformer模型的出现极大地推动了自然语言处理领域的发展,并且其核心思想也被应用到了计算机视觉等其他领域。如今,基于Transformer的各种变体和扩展,如BERT、GPT系列模型,已经成为NLP领域的重要基石。


网站公告

今日签到

点亮在社区的每一天
去签到