DataWhale 大语言模型 - Transformer模型介绍-EW帮帮网

本课程围绕中国人民大学高瓴人工智能学院赵鑫教授团队出品的《大语言模型》书籍展开，覆盖大语言模型训练与使用的全流程，从预训练到微调与对齐，从使用技术到评测应用，帮助学员全面掌握大语言模型的核心技术。并且，课程内容基于大量的代码实战与讲解，通过实际项目与案例，学员能将理论知识应用于真实场景，提升解决实际问题的能力。

课程地址：https://www.datawhale.cn/learn/summary/107

赵鑫教授团队：http://aibox.ruc.edu.cn/

课程学习地址：Datawhale-学用 AI,从此开始

视频地址：《大语言模型》2.1 Transformer模型详解_哔哩哔哩_bilibili

Transformer模型是一种基于自注意力（self-attention）机制的深度学习模型，最初由Google在2017年的论文《Attention is All You Need》中提出。它主要被用于处理序列数据，如自然语言文本，并在机器翻译、文本摘要、问答系统等自然语言处理（NLP）任务中取得了显著的成功。

架构概述
Transformer模型由编码器（Encoder）和解码器（Decoder）两部分组成，这两部分都是由多层“编码器层”或“解码器层”堆叠而成。

编码器（Encoder）
多头自注意力（Multi-Head Self-Attention）机制：这是Transformer的核心，允许模型在不同位置上同时关注输入序列的不同部分，以捕捉序列内部的依赖关系。
位置编码（Positional Encoding）：由于Transformer不像循环神经网络（RNN）那样天然具有处理序列位置信息的能力，因此需要引入位置编码来表示输入序列中各个词的位置信息。
前馈神经网络（Feed-Forward Neural Network）：在每个自注意力层之后，都会接一个简单的前馈网络，对每个位置进行相同的计算。

解码器（Decoder）
编码器-解码器注意力（Encoder-Decoder Attention）：在解码器的某些层中，除了自注意力层，还有一个注意力层专门用于关注编码器的输出，以获取输入序列的全局信息。
掩码自注意力（Masked Self-Attention）：在解码器的自注意力层中，为了防止模型在预测某个位置时能看到未来的信息，需要使用掩码来自动忽略当前位置之后的输入。

关键组件
自注意力（Self-Attention）：
查询（Query）、键（Key）和值（Value）：通过可学习的权重矩阵将输入序列转换为这三个向量。
点积注意力（Dot-Product Attention）：计算查询和所有键的点积，并通过softmax函数获得权重，然后加权求和所有值。
多头注意力（Multi-Head Attention）：
将输入序列分别传递给多个自注意力机制（称为“头”），然后将这些头的输出拼接起来，并通过另一个线性层进行处理。
位置编码（Positional Encoding）：
通常使用正弦和余弦函数来生成位置编码，将其与输入嵌入（embedding）相加，使模型能够捕捉序列中单词的位置信息。
训练和推理
训练：在训练过程中，Transformer模型使用最大似然估计来最小化输出序列和目标序列之间的差异。
推理（解码）：在解码时，通常采用自回归的方式，即每次根据已生成的部分序列来预测下一个词。

优势
并行计算：由于Transformer不依赖于序列中的前一个元素，因此可以更有效地并行化计算。
长距离依赖：自注意力机制能够直接捕捉序列中的长距离依赖关系，这在以前的循环神经网络中是一个挑战。

Transformer模型的出现极大地推动了自然语言处理领域的发展，并且其核心思想也被应用到了计算机视觉等其他领域。如今，基于Transformer的各种变体和扩展，如BERT、GPT系列模型，已经成为NLP领域的重要基石。

DataWhale 大语言模型 - Transformer模型介绍

网站公告

今日签到

热门文章

最新发布