导 读INTRODUCTION
今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek 技术前沿与应用”的报告。
本报告深入探讨了大语言模型在自然语言处理(NLP)领域的核心地位及其发展历程,从基础概念出发,延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务,本身也蕴含大量知识,如地理信息、语义理解和推理能力。随着技术的发展,尤其是transformer模型的引入,预训练模型时代开启,GPT系列模型成为里程碑,GPT-3通过大规模参数和数据预训练,展现强大的文本生成能力,尽管存在知识准确性问题。ChatGPT的出现通过无监督、有监督和强化学习的融合,显著提高了模型性能和泛化能力,尤其在推理任务上取得突破。DeepSeek的RE模型通过极致的模型架构优化和开源精神,实现了高性价比、高性能的推理能力,接近甚至媲美顶尖模型,引起广泛关注。
此外,讨论了如何有效利用大模型的策略,包括清晰指令、提供丰富参考资料、分解复杂问题等,以及专业领域知识融合的方法,如检索增强和微调。最后,展望了人工智能的未来方向,强调了语言模型作为AI基石的重要地位和持续的研究挑战。
哈尔滨工业大学:《大模型原理 技术与应用-从GPT到DeepSeek》
网盘下载:https://pan.quark.cn/s/230cde4fd7c8
以下是部分内容预览:
1.大语言模型原理、技术和应用介绍
介绍主要围绕大语言模型的原理、技术和应用展开,重点讨论从GPT到DeepSeek的发展过程。主讲人陈万祥来自计算学部人工智能学院,专注于社会计算与交互机器人研究中心的研究。他强调了语言作为交流工具和知识载体的重要性,并解释了大语言模型如何通过分析和理解人类历史上的文字,掌握和创造知识。
2.自然语言处理:人工智能的皇冠明珠
自然语言处理专注于人类语言的文本符号处理,涉及理解和生成两个关键方面,被视为认知智能的一部分,是人工智能领域中尤为复杂且重要的部分。该领域的突破被视为推动人工智能更大进展的关键,因此自然语言处理被誉为人工智能皇冠上的明珠。随着语言模型的发展,自然语言处理不仅在其自身领域取得了显著进步,也促进了整个人工智能领域的快速发展。
3.自然语言处理的发展历程及大模型技术
自然语言处理学科历史悠久,自上世纪50年代计算机发明后,机器翻译作为重要研究课题诞生,旨在解决美苏冷战时期的情报需求。尽管最初认为机器翻译任务简单,但历经70年发展,至今仍未彻底解决,尽管现有技术已显著提升。早期尝试通过知识灌输和浅层机器学习解决自然语言处理问题,效果有限。深度学习的出现,尤其是预训练语言模型,为自然语言处理带来了革命性进展,奠定了大模型技术的基础。大模型,或大规模预训练语言模型,已成为当前自然语言处理领域的核心技术。
4.预训练语言模型及其在自然语言处理中的应用
预训练语言模型,以GPT为代表,是一种通过大量文本数据进行训练,以生成和理解自然语言的模型。它通过衡量一个句子在语言中出现的概率,为自然语言处理任务提供支持。预训练语言模型不仅在机器翻译、拼音输入法和语音识别等任务中起到关键作用,还能通过预测下一个词的概率来辅助理解和生成流畅的文本。
5.语言模型的重要性及GPT的创新点
语言模型在预测下一个词的过程中蕴含大量知识,如地理信息、语义信息和推理能力。GPT通过使用transformer模型、预训练和简化下游任务模型的创新,有效提升了语言模型的性能,开启了自然语言处理预训练的时代。这些创新使得GPT能更准确地理解和生成语言,解决了传统技术的不足,从而在多种自然语言处理任务中取得显著成果。
6.预训练模型在自然语言处理中的作用及发展
讨论了预训练模型在自然语言处理领域的应用和优势,对比了预训练和非预训练模型处理数据的方法。通过类比教育过程,阐述了预训练模型如何通过大量未标注数据学习通用任务,随后在特定任务上进行精调以提高效果。特别提到了GPT系列模型的发展,从GPT1到GPT3,模型规模逐渐增大,至GPT3时参数量达到了1750亿,强调了大模型在当前技术下的重要性。
7.大模型在学术界的发展与挑战
在学术界,早在2020年之前就认识到大模型的重要性,特别是GP3模型因其巨大参数量带来的预训练和精调难题,促使研究者探索新范式。Open I提出的方法是让下游任务适应模型,而非模型适应任务,这通过将任务转化为语言模型预测上下文的任务来实现。例如,情感分类任务可以通过给定任务描述和示例让模型识别文本情感。GP3模型展示了强大的文本生成能力,甚至能自动编写代码,引发了通用人工智能是否已到来的讨论。然而,GP3也存在明显不足,如知识不准确和推理能力缺失,导致其在某些任务上的表现不如其他特定工作。因此,后续研究致力于增强模型的鲁棒性、解释性和推理能力。
8.ChatGPT的关键技术及其突破
对话中详细介绍了ChatGPT通过无监督学习和大规模预训练语言模型实现显著效果的关键技术。ChatGPT不仅模型规模大,预训练数据量也巨大,这使其见过的知识更多,参数容量更大。此外,对话指出ChatGPT颠覆了仅预训练的范式,通过将所有任务统一格式进行精调,使其不仅在已见过的任务上表现优异,还能泛化到从未见过的任务上,展现了强大的任务泛化能力。
9. ChatGPT关键技术及其引发的模型竞争
ChatGPT采用无监督学习、有监督学习和强化学习三项关键技术,其中强化学习特别通过人类反馈进行强化对齐,以使生成结果更符合人类期望并减少人工标注难度。这项技术的出现引起了学术界和工业界的广泛关注,激发了众多公司投入到相关领域,导致新模型层出不穷,形成了激烈的竞争态势。
10.Deep Seek模型为何突然走红
Deep Seek(DP sik)模型在一月底发布后迅速引起关注,尤其在国外,其在Nature杂志的报道中被描述为一款高性价比、完全开源的推理模型,性能可媲美顶级的OE模型。这些特点,尤其是其高性能和开源性,使得Deep Seek在众多模型中脱颖而出。
11.DeepSeek的推理模型及其核心技术创新
深入探讨了DeepSeek开发的推理模型及其发展历程,强调了模型从V1到V3、R1 zero再到21的迭代更新。特别提及了GRPO技术,这是一种由DeepSeek在去年二月提出的强化学习方法,其显著特点是无需驾驶网络,降低了对机器性能的要求,提高了学习的稳定性和效率。该模型在复杂推理任务上表现优异,主要贡献在于证明了通过强化学习即可获得推理能力,无需人工标注数据,从而大幅降低了成本。此外,模型架构的极致优化使得训练和推理速度大幅提升,降低了对算力的需求,拓宽了应用范围。DeepSeek坚持开源精神,公开了模型和详细的技术报告,这与某些竞争对手的封闭做法形成鲜明对比。推理被认为是人工智能发展的第六次范式变迁,DeepSeek的成功复现为这一技术路线的可行性提供了信心,激发了更多相关研究和实践。
12.思维链和强化学习在推理能力中的应用
推理技术在解决问题时,模仿人类分步骤思考的过程,而不是一步到位。2022年提出的思维链范式,让模型在输出时不仅给出最终答案,还展示中间解题步骤,增强了模型的推理能力。早期模型如Deep sik RE和OE通过强化学习,使模型自动学习推理能力,而不是依赖模型大小的增加。RE zero模型通过自我博弈和强化学习,让模型探索推理步骤,如果得出正确答案则给予奖励,错误则惩罚,以此训练模型的推理过程。这种技术不仅学习稳定性好,还能节省资源。
13.强化学习在自动推理过程中的显著进展
通过强化学习的方法,模型在AIME(美国数学奥赛)题目的表现从39%显著提升到了71%,接近预览版的open IOE能力。随着模型训练步骤的增加,其推理能力持续增长,显示了模型在算力充足的情况下探索更多路径的可能性。特别的是,模型在学习过程中展现了自我反思的能力,即能够识别错误的推理并进行修正,称为aha moment。同时,推理步骤随学习过程的增加而自然增长,但是否越多越好还需根据问题的复杂性决定。此外,为解决RE zero在推理步骤的可读性问题,阿尔法zero(R one)在冷启动阶段引入少量示例以指导模型学习一种语言和规范的格式,经过四个步骤的改进,模型的推理格式和语言表达更加规范,其能力从71%提升到接近80%,几乎与open I的正式版模型相当。
14.极致模型优化与开放的AI技术
讨论了Dik在模型架构优化方面的重要工作,包括使用算法优化、深度混合专家模型(MOE)、多头隐含注意力机制和多词源预测等技术,提高了模型预测效率和学习效率。此外,还介绍了在模型训练中的混合精度、并行训练架构和跨节点高效通讯等底层创新,以及Dik将这些核心技术和模型参数全面开源,甚至包括底层文件系统的优化,展示了其在AI领域的开放和极致优化策略。
15.Deep Sick模型的优化策略及影响
Deep Sick模型通过集合多种优化策略,显著降低了训练成本至其他模型如LAMA的十分之一,同时提高了性能。这种成本效益使得在有限资源下也能充分利用现有计算能力。Deep Sick的发布对Meta的LAMA项目造成压力,甚至影响了Meta的决策和人员调整。从GPT到Deep Sick的发展历程中,技术路线保持一致,主要通过大规模语言模型预训练并结合transformer架构,而Deep Sick在工程优化上达到了新的高度。
16.大模型应用及prompt设计原则
强调了有效使用大模型的关键原则,主要包括:确保指令清晰具体,使用分隔符提高识别准确性,提供示例以引导模型产生更佳结果,供给丰富参考资料以增强回答的准确性和深度,将复杂问题分解为步骤逐一解决,利用模型内置的外部工具如Python程序和搜索引擎提升问题解决能力,以及给予模型更多思考时间以获得更佳结果。这些策略旨在优化与大模型的互动,提高其在各种任务中的表现。
17.大模型在专业领域应用的挑战与策略
讨论了在特定专业领域中应用大模型时遇到的挑战和解决策略。首先提出通过优化prompt(即prompt工程)来充分利用模型的能力,即使模型可能未充分掌握某一领域的专业知识。如果单纯的知识不足,建议使用检索增强(RAG)技术,即通过检索相关领域的知识库来辅助模型生成更准确的答案。对于风格或格式上的问题,则可以通过微调模型来解决。此外,还介绍了智能体和多智能体技术在解决问题和科学研究中的应用,以及在实际应用中需考虑的模型小型化、个性化、安全性和隐私性等问题。最后,提到了实验室在大模型训练、增强及应用领域的工作,包括发布的开源对话模型“活字”。
18.大模型技术在代码生成与智能医疗等领域的应用
讨论聚焦于利用大模型技术在多个领域的创新应用,包括代码自动生成、智能医疗、以及机器人控制。首先,介绍了一种名为“珠算”的代码大模型,该模型具备轻量化、高效且功能强大的特点,能自动完成代码编写任务,从而提升编程效率并辅助模型进行复杂推理。此外,讨论了大模型在精神健康领域的应用,例如与中小学生聊天以缓解心理压力,以及通过引导式对话分析和疏导心理疾病。在医疗领域,介绍了中国首个医学大模型“本草”,以及基于大模型的多智能体辩论和人机融合医疗会诊平台,用于解决复杂医疗问题。最后,提到了软硬一体的机器脑项目,展示了通用机器人脑在控制多种形态机器人、执行复杂任务(如自动打咖啡)方面的潜力,体现了大模型技术在智能机器人领域的应用前景。
19.人工智能未来发展方向及阶段预测
讨论了人工智能未来的发展方向,强调了从当前推理阶段向多模态、具身能力乃至社会自组织机器人的演进。提到了从非交互式到交互式的转变,并详细介绍了Open I提出的通用人工智能发展的五个阶段:聊天机器人、推理器、代理、创新和组织,每个阶段代表了AI能力的逐步提升。此外,还探讨了实现这些阶段所需的条件,包括互联网级别的数据、多模态和物理控制能力,以及最终的社会自组织能力。
20. 自然语言处理与大模型技术的未来展望
重点介绍了自然语言处理(NLP)作为人工智能的关键领域,被誉为人工智能皇冠上的明珠。大模型,也被称为基础模型(foundation model),已成为人工智能的基石,支撑着其他能力的发展。特别提到了deep seek的R一模型,其三大核心贡献包括仅通过强化学习获得推理能力、极致的模型优化,以及开源和蒸馏技术的应用。报告还探讨了transformer模型的主导地位和未来可能的替代技术,以及自然语言处理从面向自然语言转向基于自然语言的处理,语言模型成为人工智能的基石。最后,提出了创新能力和人工智能学院作为未来研究和教育的方向。
篇幅有限以上只是部分内容概览