剖析GPT,背后的算法,文献,行业影响和中小企业落地建议

发布于:2023-05-01 ⋅ 阅读:(335) ⋅ 点赞:(0)

ChatGPT是基于Google在17年发明的Transformer自然语言模型架构。它用来训练的文本数据是爬网得来的网页中的纯文本。ChatGPT 是基于GPT-3.5版本的,目前的GPT-4.0 更优秀,政治方向更准确。而且更能懂提问的含义,并能读懂图片。

GPT代表“生成式预训练变换器” (GPT stands for "Generative Pre-trained Transformer" )。它是指OpenAI开发的一种人工智能模型。其中,“生成式”("Generative")表示该模型可以生成新内容,“预训练”意味着在微调之前已经在大型数据集上进行了训练,“变换器” ("transformer")是模型所基于的底层架构。变换器是为处理数据序列(如文本或时间序列数据)而设计的神经网络,并已成为许多最先进的自然语言处理(NLP)模型的基础,包括GPT。

本篇文章也是作者第一次在GPT4.0 的帮助下,完成的一篇博客。背后的算法和文献章节都是通过GPT-4 生成。现在似乎还没有著作权之争。

怎样在国内使用GPT-4.0

作者本人的亲戚在国外,作者在上海,使用的国外亲戚的电话号码和国外信用卡注册的账号,然后翻墙到美国,然后使用GPT4.0。网上也有其他方法,觉得不是非常可靠。总之,国内使用GPT的门槛不低。

背后的算法和文献:

  1. Transformer:

我也是用GPT-4.0 来查询transformer算法的解释的:

“Transformer”算法是一种深度学习模型,尤其在自然语言处理(NLP)领域具有很强的应用价值。要用通俗易懂的话来解释Transformer算法,我们可以将其比作一个高级的“信息翻译者”和“语言理解者”。

想象一下,我们有一大堆文本信息,比如一篇文章、一段对话或者一封电子邮件。Transformer算法的任务就是从这些文本中捕捉到有价值的信息,然后进行各种处理,比如翻译、摘要、问答等。

Transformer算法的核心在于“自注意力机制”(Self-Attention Mechanism),这是一种让模型更好地关注文本中各个部分之间关系的方法。它可以理解为一种“加权”的过程,即模型会为每个单词分配一个权重,以确定在处理某个单词时,其他单词对其有多大的影响。

举个简单的例子,如果有一句话:“我喜欢吃苹果,因为苹果很好吃。”在处理“好吃”这个词时,Transformer算法会发现与“好吃”关系最密切的是“苹果”,所以会给“苹果”分配一个较高的权重。通过这种方式,模型能够更好地理解语言中的上下文关系。

总的来说,Transformer算法是一种强大的文本分析工具,能够通过捕捉文本中的关键信息和关系,完成各种语言任务,如翻译、摘要、问答等。

文献:

  1. transformer 新手的文章《Neural Machine Translation by Jointly Learning to Align and Translate》ICLR 2015,Dzmitry Bahdanau KyungHyun ChoYoshua Bengio,论文地址:https://arxiv.org/pdf/1409.0473.pdf

  1. 《Attention Is All You Need》论文地址:https://arxiv.org/abs/1706.03762,非常著名的文章,作者很多,此处就省略了。本文介绍了由编码器和解码器组成的原始Transformer架构,这些部分将在以后作为单独模块进行相关介绍。此外,本文还介绍了缩放点积注意力机制、多头注意力块和位置输入编码等概念,这些概念仍然是现代Transformer的基础。

  1. 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文地址:https://arxiv.org/abs/1810.04805 大型语言模型研究遵循最初的Transformer架构,然后开始向两个方向延伸:用于预测建模任务(如文本分类)的Transformer和用于生成建模任务(如翻译、摘要和其他形式的文本创建)的Transformer 。 BERT论文介绍了掩码语言建模原始概念,如果你对这个研究分支感兴趣,那么可以跟进RoBERTa,其简化了预训练目标。

  1. 《Improving Language Understanding by Generative Pre-Training》论文地址:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035   最初的GPT论文介绍了流行的解码器风格的架构和通过下一个单词预测进行预训练。BERT由于其掩码语言模型预训练目标,可以被认为是一个双向Transformer,而GPT是一个单向自回归模型。虽然GPT嵌入也可以用于分类,但GPT方法是当今最有影响力的LLMs(如ChatGPT)的核心。 如果你对这个研究分支感兴趣,那么可以跟进GPT-2和GPT-3的论文。此外,本文将在后面单独介绍InstructGPT方法。

  1. 《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》 论文地址 https://arxiv.org/abs/1910.13461. 如上所述, BERT型编码器风格的LLM通常是预测建模任务的首选,而GPT型解码器风格的LLM更擅长生成文本。为了两全其美,上面的BART论文结合了编码器和解码器部分。

  1. Prompt engineering:提示工程

GPT-4.0的解释:

"Prompt engineering" 是指一种用于优化和改进自然语言处理(NLP)模型的方法,特别是针对生成式模型,如 GPT-3。这个过程的核心思想是通过设计适当的输入提示(prompt),来引导模型生成更准确、高质量的回答。这些提示可以是问题、情景描述或任务说明,能帮助模型更好地理解用户的需求并提供恰当的回应。

要使模型产生理想的输出,研究人员和开发人员需要进行多次试验,对不同的提示进行测试和比较。这个过程需要细致的调整,以找到在特定场景中最适合的提示。这种优化方法可以提高模型的表现,使其在各种任务中具有更好的实用性。

文献:

  1. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165 [cs.CL]. https://arxiv.org/abs/2005.14165

  1. Gao, J., Bordes, A., & Manning, C. D. (2021). Few-shot Text Classification with Pretrained Language Models: A Meta-learning Approach. arXiv:2104.13964 [cs.CL]. https://arxiv.org/abs/2104.13964

这些论文讨论了自然语言处理领域中生成式模型的性能改进,其中也包括了关于如何有效利用提示进行优化的探讨。虽然这些论文可能较为技术性,但它们都在研究"Prompt engineering"的应用和潜力。

  1. Fine tuning:微调

“Fine tuning”(微调)是一种机器学习方法,用于在现有预训练模型的基础上进行二次训练,以使其更好地适应特定任务或领域。在GPT-4(第四代生成式预训练变换器)等大型语言模型中,微调的过程和应用尤为重要。

通俗易懂的解释:预训练模型(例如GPT-4)在训练初期已经学会了大量的知识和语言结构。然而,这些模型可能不足以应对特定的任务或领域,因为它们在训练时接触到的数据并不全面。微调就是为了解决这个问题。通过在特定任务的数据集上进行额外的训练,我们可以优化模型的性能,使其在特定领域表现更优。

应用:微调在GPT-4等模型中有广泛的应用,包括:

  1. 文本分类:比如情感分析、垃圾邮件检测等。

  1. 问答系统:让模型更好地理解问题并给出精确答案。

  1. 语义关系抽取:识别实体之间的关系,如人物关系、公司与产品等。

  1. 生成任务:如生成摘要、写作辅助、聊天机器人等。

文献:

  1. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. 这篇文章介绍了GPT的基本原理和预训练的重要性。

  1. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. 这篇文章介绍了GPT-3,以及如何通过“微调”实现在大量任务上进行“少样本学习”。

  1. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805. 本文详细介绍了BERT模型,它是一种与GPT相似的预训练模型,也需要进行微调。

虽然上述文献没有直接讨论GPT-4,但它们涵盖了微调在预训练语言模型中的重要概念和应用。GPT-4可视为这些方法和概念的延续和发展。

  1. Reinforcement Learning from Human Feedback (RLHF)人工反馈强化训练

人工反馈强化训练(Reinforcement Learning from Human Feedback,简称RLHF)是一种结合人工智能和人类反馈的学习方法。通俗易懂的解释就是,它通过让人工智能(AI)从人类的评价和指导中学习,以提高AI的性能和决策能力。

强化学习(Reinforcement Learning,简称RL)是AI领域的一个分支,通过让AI在不断尝试和学习中找到最佳策略来完成任务。在强化学习中,AI通过与环境互动、采取行动并获得奖励或惩罚来学习。AI会根据奖励和惩罚来调整自己的行为,使得未来获得的总奖励最大化。

而在人工反馈强化训练中,人类反馈充当了奖励和惩罚的角色。人类观察AI的行为并给予评价,AI则根据这些评价调整自己的行为。这样,AI能够在不断尝试和学习的过程中,逐渐适应人类的期望和需求,从而提高自身的表现。

总的来说,人工反馈强化训练就是让AI在人类的指导下学习,以提高其决策能力和完成任务的效果。

文献:

  1. [34] Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30, 2017.

  1. [57] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.

  1. Stable diffusion 扩散工程

稳定扩散(stable diffusion)是一种数学概念,主要用于研究随机过程中物质、能量或信息的传播。通俗易懂的解释是:在一个系统中,物质、能量或信息从一个区域扩散到另一个区域的过程,扩散速率在一定范围内保持稳定。

稳定扩散常常在物理学、化学、生物学和工程学等领域的研究中发挥作用。例如,在热力学中,研究热量如何在不同物质之间传递;在生物学中,研究分子在细胞膜上的扩散过程。

在深度学习和自然语言处理(NLP)领域,稳定扩散的概念通常不是直接应用的。但是,深度学习和NLP领域的一些核心概念和方法与扩散过程有一定的联系。

  1. Word2Vec: 在自然语言处理中,Word2Vec是一种广泛使用的词嵌入方法。它的工作原理是将词汇映射到一个连续的向量空间,使得语义相似的词汇在向量空间中的距离较近。这种空间映射可以看作是一种扩散过程,将离散的词汇扩散到一个连续的向量空间。

  1. 图神经网络(Graph Neural Networks,GNNs):在深度学习中,图神经网络是一种用于处理图结构数据的方法。图神经网络中的信息传播可以看作是一种扩散过程,节点之间的信息在图上扩散,从而使得网络学习到整个图的结构和属性信息。

  1. 注意力机制(Attention Mechanism):注意力机制是深度学习模型中一种重要的技术,特别是在自然语言处理领域。注意力机制允许模型在处理序列数据时对不同部分赋予不同的权重。这种权重分配可以类比为一种扩散过程,使得信息在不同部分之间传播并集中到关键部分。

尽管深度学习和自然语言处理中的这些概念与扩散过程有一定联系,但它们通常不会被直接称为“稳定扩散”。然而,这些方法在很大程度上都受到扩散过程的启发,是扩散概念在深度学习和自然语言处理中的应用

文献:

在深度学习和自然语言处理(NLP)领域,稳定扩散的概念并不是一个主流研究方向,因此很难找到直接关注稳定扩散的文献。然而,与扩散过程相关的一些概念和方法在这些领域中得到了广泛应用,如图神经网络、扩散卷积神经网络等。下面是一些与扩散相关的重要文献:

  1. Kipf, T. N., & Welling, M. (2017). "Semi-Supervised Classification with Graph Convolutional Networks". ICLR. 这篇文章介绍了图卷积神经网络,这是一种基于图结构数据的深度学习方法。图卷积神经网络中的信息传播可以看作是一种扩散过程。

  1. Atwood, J., & Towsley, D. (2016). "Diffusion-Convolutional Neural Networks". NIPS. 这篇文章提出了扩散卷积神经网络,它将扩散过程与卷积神经网络相结合,用于学习图结构数据的表示。

  1. Hamilton, W., Ying, Z., & Leskovec, J. (2017). "Inductive Representation Learning on Large Graphs". NIPS. 该文献提出了GraphSAGE方法,可以在大规模图数据上进行归纳式表示学习。GraphSAGE中的采样和聚合过程与扩散过程有关。

  1. Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., & Bengio, Y. (2018). "Graph Attention Networks". ICLR. 该文献提出了图注意力网络,它结合了注意力机制和图卷积神经网络。在图注意力网络中,信息在图结构数据上的传播与扩散过程有关。

虽然这些文献并没有直接研究稳定扩散,但它们展示了扩散过程在深度学习和自然语言处理领域的应用。这些方法可以帮助理解如何将扩散概念应用于深度学习和自然语言处理的实际问题。

  1. Encoder 

GPT-4.0 的解释:

编码器是一种设备或算法,用于将信息或数据从一种格式或代码转换为另一种格式,通常用于标准化、压缩或传输。编码器在各个领域中都有广泛的应用,包括通信系统、数据存储和多媒体。

在深度学习和自然语言处理的背景下,编码器是神经网络的一个组件,负责处理输入数据(如文本或图像),并将其转换为连续的固定大小的向量表示。这种连续的向量表示可以被其他组件(如解码器)用来生成所需格式的输出。

一个使用编码器的流行架构是编码器-解码器架构,该架构通常用于机器翻译、图像描述和其他序列到序列任务。在这个架构中,编码器处理输入序列(例如,一种语言的句子),解码器根据编码表示生成输出序列(例如,将句子翻译成另一种语言)。

文献:

在深度学习和自然语言处理(NLP)领域中,关于编码器(Encoder)的文献有很多。以下是一些关键论文,它们提出了重要的编码器模型和概念:

  1. "Sequence to Sequence Learning with Neural Networks"(序列到序列学习的神经网络) - Ilya Sutskever, Oriol Vinyals 和 Quoc V. Le (2014)链接:https://arxiv.org/abs/1409.3215这篇论文介绍了编码器-解码器(Encoder-Decoder)架构,该架构已成为处理序列到序列任务的基本方法。

  1. "Neural Machine Translation by Jointly Learning to Align and Translate"(通过共同学习对齐和翻译的神经机器翻译) - Dzmitry Bahdanau, Kyunghyun Cho 和 Yoshua Bengio (2014)链接:https://arxiv.org/abs/1409.0473这篇论文提出了注意力机制,它允许编码器和解码器在处理长序列时更有效地关注相关信息。

  1. "Long Short-Term Memory"(长短时记忆) - Sepp Hochreiter 和 Jürgen Schmidhuber (1997)链接:https://www.mitpressjournals.org/doi/abs/10.1162/neco.1997.9.8.1735这篇论文介绍了长短时记忆(LSTM)神经网络,这是一种常用的循环神经网络(RNN)变体,被广泛应用于编码器模型中以处理长序列。

  1. "Attention is All You Need"(只需注意力) - Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser 和 Illia Polosukhin (2017)链接:https://arxiv.org/abs/1706.03762这篇论文提出了Transformer架构,该架构完全依赖于自注意力机制,摒弃了传统的循环神经网络。Transformer已成为许多NLP任务中最先进模型的基础,如BERT和GPT系列模型。

这些论文只是编码器在深度学习和自然语言处理领域的一部分研究。由于这个领域不断发展,您还可以在最近的会议和期刊上找到更多有关编码器的研究。

  1. Decoder 解码器

解码器(Decoder)是一种常用于深度学习和自然语言处理(NLP)领域的模型组件。通俗易懂的解释是:解码器是一个将编码器(Encoder)输出的信息解码(还原)成有意义的结果(如文本、图像等)的算法。编码器将原始数据转换为隐藏表示,解码器则将这些隐藏表示转换回可理解的形式。解码器通常与编码器一起使用,组成编码器-解码器(Encoder-Decoder)结构,用于解决诸如序列到序列(Seq2Seq)问题、机器翻译、图像描述生成等任务。

文献:

  1. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. arXiv preprint arXiv:1409.3215.这篇文章首次提出了序列到序列(Seq2Seq)学习的概念,并介绍了使用编码器-解码器结构进行端到端的神经网络训练。

  1. Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv preprint arXiv:1409.0473.这篇文章引入了注意力机制(Attention Mechanism),提高了编码器-解码器结构在长序列任务上的性能,尤其是机器翻译。

  1. NeRF 神经辐射场

NeRF 代表神经辐射场(Neural Radiance Fields)。它是一种基于深度学习的三维场景表示方法,用于从一组二维图片中学习并重建三维场景。NeRF 利用神经网络模型来表示一个连续的三维空间中的体积密度和颜色信息。通过输入射线和视点的位置,NeRF 的神经网络能够预测该射线上不同深度的颜色和密度值。然后,这些预测结果可以用于生成新的视角的图像。

通俗易懂的解释是:NeRF 是一种深度学习技术,通过对一组二维图像进行学习,可以重建出三维场景。它使用神经网络来表示物体在空间中的颜色和密度信息,从而可以生成新的视角的图像。

文献:

关于 NeRF 的重要文献,最具代表性的一篇是其创立论文:

Mildenhall, B., Tancik, M., Wang, J. T., Srinivasan, P. P., Radulovic, F., Ng, R., & Vlasic, D. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. Proceedings of the European Conference on Computer Vision (ECCV).

这篇文章详细介绍了 NeRF 的基本原理、实现方法和实验结果。作为 NeRF 的创立论文,它对于理解该技术的基本概念和方法非常重要。

影响行业:

GPT感觉就像互联网进入各个产业一样,GPT 在各个产业落地,将激起很多变化。可能是工业革命之后影响最大的一次产业革命。是改变产业结构的那种。对程序员,咨询师,教师行业,初级律师,初级会记人员,在线教育,。。。几乎都有影响。没有收到冲击的可能就是一些蓝领工人。但蓝领工人受到越来越智能的机器人的冲击。这里不会展开。

程序员行业的冲击:

Microsoft 就是微软整合了GPT-4 和 OpenAI的另一款大杀器Copilot,命名叫 Copilot X。程序员的效率大大提升,有的说10倍,作者本人亲测可以说,3,4倍是轻易可以获得。也就是说一个5人的开发组精简到2-3人,效率还是能提高,人工成本却大大降低。程序员的岗位是看得见的在减少。

在线教育行业的冲击:

Khan Academy 也就是 可汗学院是我第一个看到集成了GPT-4,让大模型教孩子小学数学,该学院是免费的学院,学院有很多免费课程,GPT-4 会一步一步教导孩子解题,比如一阶方程。GPT-4很有耐心,教导孩子。这是我看到第一个产业GPT落地。落地到在线教育领域。

教师行业的冲击

教师职业也受到冲击。教师工作的三大职能,传道,授业,解惑。现在,授业,解惑都有GPT 干了,剩下的传道就是让老师教学生思考的方法,这在中国本身老师是缺乏这个技能的,所以一般老师都可以被GPT替代了。这是清华大学脑科学和人工智能专业的刘嘉教授说的。

。。。

中小企业献策献计:

大模型是带有普遍意义的,中小企业的客户有时候有自己的特定需求,需要微调针对客户的特制需求,模仿大模型的训练是不可能的,成本就划不来。因为训练大模型的成本在250万美金-1200万美金一次,截止目前的写作,部署一套chatGPT,也就是GPT3.5的大模型的硬件就要100万美金。所以,特制需求需要全盘考量。

  1. Saas 加 微调

OpenAI 有未来出售instance的考量,一个中型的企业可能可以考虑SaaS的模式部署GPT4. 配上自己的一些微调算法。

中小企业如果要修改模型以针对客户特制,作者个人的意见是Fine tuning算法入手。

  1. Nvidia 方案,国内是否能获得?

Nvidia 已经有方案帮助企业用自己企业特定的数据训练大模型,从而满足企业的自身需求,但截止写作和修改这篇博客2023年3月26日止,只有一些有规模的企业才能有实力做。

  1. 少参数的大语言模型加上插件

LLM (Large Language Model)大语言模型正吸引着关注度,Databricks 推出只有60亿参数的Dolly模型,只需 30 美元、一台服务器和三个小时,我们就能教 Dolly 开始进行人类级别的交互。所以,类似的大预言模型结合插件,是否可以满足中小型企业的需求?!为什么插件,大语言模型训练都是根据数据集的,也就是有时间期限的,小企业可以通过插件让语言模型训练特定场景的数据,比如股市的股价信息。这样,这个语言模型有某些特定场合的数据,更能针对小企业的客户的特定需求。 

参考文献

  1. 机器之心 微信公众号

  1. GPT-4 官方文献

  1. https://www.khanacademy.org

版本历史

本文原创于上海。

2023年3月30日加上了中小企业的应用,和NeRF算法。

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到