大模型之背景篇

发布于:2025-06-18 ⋅ 阅读:(19) ⋅ 点赞:(0)

写在前面

我目前也是一名学生,可能有些地方讲的不对,欢迎各位大佬指出来。

“凡事预则立,不预则废”。对大模型发展历史条件的了解,就是在使用和研究大模型之前的“预”,有了扎实的导学基础,才能更好地应对挑战,取得成功。

背景介绍

何为大模型?

一般来说大模型指的是大型语言模型,除非特定情况下指明模态,例如视觉大模型指视觉和语言两个模态的大模型。

维基百科的定义是:大型语言模型(英语:large language model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习半监督学习对大量未标记文本进行训练。

大模型的要素

业界公认有三大要素:模型、数据、算力。

就像盖一栋摩天大楼,再精妙的设计也离不开钢筋和混凝土。数据可以看作“钢筋和混凝土”,模型可以看作大楼的设计,算力则是每一个辛勤劳作的工人。缺一不可。

数据决定了大模型能力的上限。试想只用10条数据,就算用1000B的模型也很难得到效果好的效果,deepseek的用蒸馏的技术把数据放到小的模型上也会的接近源模型的效果。

算力和模型其实是密不可分的,也可以看作一个算力要素。有了强大的算力才能说创建一个规模庞大的模型。

得益于其他例如芯片、数据采集等领域的发展,大模型才能诞生,可以说大模型是时代的产物。

人工智能技术发展概括

 人工智能处理的任务

决策式:人工智能回答“选择题”,模型主要处理诸如:判别,分类,排序等任务。

生成式:人工智能回答“问答题”,需要模型根据输入,自动生成一些新内容(客观世界可能从未出现)。

NLP发展历程

发展进过四个阶段:传统方法(SVM、BP等),神经网络(LSTM、CNN),大模型预训练(GPT、Bert、T5),提示学习(Prompt工程)

在哪里玩大模型?

主流网址:Huggingface官网Huggingface镜像网址ModelScope 魔搭社区、gituhub

上面这些网址都可以下载数据模型,查看相关论坛社区,这里主要介绍下Huggingface镜像网址的使用。由于在大陆无法直接访问Huggingface官网,需要魔法,但是一直用魔法又有点烧钱。所以一般用镜像(感觉镜像维护着),网址里有使用教程,我一般采用方法二,见下图。

下载时,只需要替换模型/数据集名称和保存路径即可,如下Qwen/Qwen3-0.6B就属于一个名称。

大模型的命名

大模型命名规则并没有一个统一的标准,我把主流的几个大模型公司命名列在下表,也许看了下面这些表就能推测见到其他大模型名称有个初步的理解。

大模型命名示例
模型名称示例 特殊后缀 后缀含义
Qwen/Qwen3-0.6B 无特殊后缀 (如0.6B, 30B) 通常直接表示模型版本和/或参数量
Qwen2.5-VL-3B-Instruct VL Visual Language,表示该模型具备处理视觉信息的能力,是多模态模型。
Qwen3-Reranker-4B Reranker 重排序模型,专门用于对检索结果进行再次排序以提高相关性
DeepSeek-R1-Distill-Qwen-1.5B R1 通常表示推理模型版本,可能专注于通过逐步思维链来提升推理能力
DeepSeek-R1-Distill-Qwen-1.5B Distill 蒸馏模型,表示该模型是通过知识蒸馏技术从一个更大的“教师模型”中学习而来,通常为了减小模型规模
Gemini-2.0-Flash Flash 强调其“快速”的特性,通常在保证一定质量的前提下,优化了响应速度成本效率
Gemini 2.5 Pro Pro 专业版”或“增强版”,通常表示在性能、能力、上下文窗口、多模态等方面达到了较高水平的通用模型。
ChatGPT-4o o Omni(全能),表示这是一个多模态模型,支持文本、语音、图像等多种模态的输入和输出,并且在速度和效率上进行了优化。
glm-4-9b-chat chat 表示该模型经过了专门的聊天对话优化,更适合进行多轮对话和用户交互。
chatglm2-6b-int4 int4 指的是4位整型量化,这是一种用于减少模型内存占用并加速推理的技术,通过以更紧凑的格式存储模型权重来实现。
DeepSeek-V3-Base Base 表示一个基础模型基座模型,意味着这是一个预训练模型,尚未针对特定下游任务(如聊天或指令遵循)进行专门的微调。它通常用作进一步微调的起点。

主要参考来源

(1)LLM张老师

(2)面向开发者的大模型手册

(3)卢菁老师


网站公告

今日签到

点亮在社区的每一天
去签到