大模型之背景篇-EW帮帮网

写在前面

我目前也是一名学生，可能有些地方讲的不对，欢迎各位大佬指出来。

“凡事预则立，不预则废”。对大模型发展历史条件的了解，就是在使用和研究大模型之前的“预”，有了扎实的导学基础，才能更好地应对挑战，取得成功。

背景介绍

何为大模型?

一般来说大模型指的是大型语言模型，除非特定情况下指明模态，例如视觉大模型指视觉和语言两个模态的大模型。

维基百科的定义是：大型语言模型（英语：large language model，LLM），也称大语言模型，是由具有大量参数（通常数十亿个权重或更多）的人工神经网络组成的一类语言模型，使用自监督学习或半监督学习对大量未标记文本进行训练。

大模型的要素

业界公认有三大要素：模型、数据、算力。

就像盖一栋摩天大楼，再精妙的设计也离不开钢筋和混凝土。数据可以看作“钢筋和混凝土”，模型可以看作大楼的设计，算力则是每一个辛勤劳作的工人。缺一不可。

数据决定了大模型能力的上限。试想只用10条数据，就算用1000B的模型也很难得到效果好的效果，deepseek的用蒸馏的技术把数据放到小的模型上也会的接近源模型的效果。

算力和模型其实是密不可分的，也可以看作一个算力要素。有了强大的算力才能说创建一个规模庞大的模型。

得益于其他例如芯片、数据采集等领域的发展，大模型才能诞生，可以说大模型是时代的产物。

人工智能技术发展概括

人工智能处理的任务

决策式：人工智能回答“选择题”，模型主要处理诸如：判别，分类，排序等任务。

生成式：人工智能回答“问答题”，需要模型根据输入，自动生成一些新内容（客观世界可能从未出现）。

NLP发展历程

发展进过四个阶段：传统方法（SVM、BP等），神经网络（LSTM、CNN）,大模型预训练（GPT、Bert、T5），提示学习（Prompt工程）

在哪里玩大模型？

主流网址：Huggingface官网、Huggingface镜像网址、ModelScope 魔搭社区、gituhub

上面这些网址都可以下载数据模型，查看相关论坛社区，这里主要介绍下Huggingface镜像网址的使用。由于在大陆无法直接访问Huggingface官网，需要魔法，但是一直用魔法又有点烧钱。所以一般用镜像（感觉镜像维护着），网址里有使用教程，我一般采用方法二，见下图。

下载时，只需要替换模型/数据集名称和保存路径即可，如下Qwen/Qwen3-0.6B就属于一个名称。

大模型的命名

大模型命名规则并没有一个统一的标准，我把主流的几个大模型公司命名列在下表，也许看了下面这些表就能推测见到其他大模型名称有个初步的理解。

大模型命名示例
模型名称示例	特殊后缀	后缀含义
Qwen/Qwen3-0.6B	无特殊后缀 (如`0.6B`, `30B`)	通常直接表示模型版本和/或参数量。
Qwen2.5-VL-3B-Instruct	VL	Visual Language，表示该模型具备处理视觉信息的能力，是多模态模型。
Qwen3-Reranker-4B	Reranker	重排序模型，专门用于对检索结果进行再次排序以提高相关性。
DeepSeek-R1-Distill-Qwen-1.5B	R1	通常表示推理模型版本，可能专注于通过逐步思维链来提升推理能力。
DeepSeek-R1-Distill-Qwen-1.5B	Distill	蒸馏模型，表示该模型是通过知识蒸馏技术从一个更大的“教师模型”中学习而来，通常为了减小模型规模。
Gemini-2.0-Flash	Flash	强调其“快速”的特性，通常在保证一定质量的前提下，优化了响应速度和成本效率。
Gemini 2.5 Pro	Pro	“专业版”或“增强版”，通常表示在性能、能力、上下文窗口、多模态等方面达到了较高水平的通用模型。
ChatGPT-4o	o	Omni（全能），表示这是一个多模态模型，支持文本、语音、图像等多种模态的输入和输出，并且在速度和效率上进行了优化。
glm-4-9b-chat	chat	表示该模型经过了专门的聊天对话优化，更适合进行多轮对话和用户交互。
chatglm2-6b-int4	int4	指的是4位整型量化，这是一种用于减少模型内存占用并加速推理的技术，通过以更紧凑的格式存储模型权重来实现。
DeepSeek-V3-Base	Base	表示一个基础模型或基座模型，意味着这是一个预训练模型，尚未针对特定下游任务（如聊天或指令遵循）进行专门的微调。它通常用作进一步微调的起点。

主要参考来源

（1）LLM张老师

（2）面向开发者的大模型手册

（3）卢菁老师

大模型之背景篇