大模型分类目录
一、按处理的数据类型(模态)分类
这是最直接的分类维度,根据模型输入输出的数据类型划分
1.1 自然语言处理模型(NLP Models)
专注于文本生成、理解、翻译等任务,GPT系列(OpenAI)、BERT(Google)、T5(Google)
特征
数据类型:文本(如文字、代码、符号序列)。
代表模型:GPT-4、BERT、LLaMA、T5、deepseek。
典型任务:文本生成、翻译、情感分析、问答系统。
1.2 计算机视觉(CV Models)模型
视觉大模型(Large Visual Models)核心是通过大规模数据和复杂模型架构,实现对图像和视频的深度理解和生成。与传统计算机视觉模型相比,视觉大模型具有更强的泛化能力和多任务适应性,能够处理复杂的视觉任务,如图像分类、目标检测、语义分割、图像生成等。
特征
数据类型:图像、视频、3D点云等视觉数据。
代表模型:通用模型:ViT(Vision Transformer)、CLIP(多模态对齐)。
专用模型:DALL·E 3(文生图)、Stable Diffusion(图像生成)、YOLO(目标检测)。
典型任务:图像分类、目标检测、图像生成、视频理解。
1.3 语音模型(Speech Models)
语音大模型是基于深度学习技术构建的人工智能模型,主要用于处理语音相关的任务,如语音识别(ASR)、语音合成(TTS)、语音翻译等。近年来,随着深度学习和大规模数据训练的发展,语音大模型在性能和功能上取得了显著进展,能够支持多语言、多场景的复杂任务。
举例:Whisper(OpenAI)、WaveNet(DeepMind)、讯飞星火
Whisper 由 OpenAI 开发的开源多语言语音识别模型,支持多种语言的语音转录和翻译
讯飞星火由科大讯飞推出的语音大模型,尤其在中文语音识别方面表现突出,支持多种方言和少数民族语言。此外,讯飞星火还具备强大的语音合成能力。
语音模型是一种将声音信号转换为数字信号的模型。
特征
数据类型:音频信号(语音、环境声音等)。
代表模型:语音识别:Whisper(OpenAI)、Wav2Vec 2.0(Meta)。
语音合成:VALL-E(微软)、Tacotron(Google)。
语音理解:AudioLM(Google)。典型任务:语音转文本(ASR)、文本转语音(TTS)、声纹识别、情感语音分析。
语音模型的应用场景
- 语音识别:将人类语音转换为文本或其他可理解的形式,广泛应用于智能助手、语音输入和自动化客服系统。
- 语音合成:生成自然、具备韵律且富有情感的语音,适用于多语言、情感丰富的TTS应用。
- 语音增强:提高语音信号的清晰度和质量,常用于噪声环境下的语音处理。
- 声音事件监测:识别环境中的特定声音事件,如警报声、机器故障声等。
- 说话人识别:识别说话人的身份,常用于安全验证和个性化服务。
1.4 多模态模型
多模态模型
是一种能够同时处理多种数据模态(如文本、图像、音频、视频等)的人工智能模型。与传统的单模态模型(如仅处理文本或图像)相比,多模态模型通过整合不同模态的数据,能够提供更全面、更准确的理解和生成能力。
特征
数据类型:融合文本、图像、音频、视频等多种模态。
代表模型:GPT-4V(文本+图像)、Gemini(Google)、Flamingo(DeepMind)。
典型任务:图像描述生成、视频问答、跨模态检索(如用文本搜索图片)。
图解释如下:
这里展示了一个基础模型(Foundation Model)如何通过训练和适应(Adaptation)处理不同类型的数据,并执行多种任务。以下是图中各部分的详细解释:
数据(Data)
基础模型的训练需要多种类型的数据,这些数据包括:
文本(Text):包括书籍、文章、网页等文本信息。
图像(Images):包括照片、插图、图表等视觉信息。
语音(Speech):包括语音记录、音频文件等声音信息。
结构化数据(Structured Data):包括数据库中的表格数据、电子表格等。
3D信号(3D Signals):可能包括3D模型、点云数据等三维信息。
训练(Training)
使用上述数据对基础模型进行训练,使其能够理解和处理不同类型的信息。
基础模型(Foundation Model)
训练完成后,基础模型能够执行多种任务,并通过适应过程进一步优化其性能。
适应(Adaptation)
基础模型可以通过适应过程针对特定任务进行优化,以提高其在特定应用场景下的表现。
任务(Tasks)
基础模型可以执行以下任务:
问答(Question Answering):回答用户的问题。
情感分析(Sentiment Analysis):分析文本中的情感倾向,如正面、负面或中性。
信息提取(Information Extraction):从文本中提取关键信息,如实体、关系等。
图像描述生成(Image Captioning):为图像生成描述性文本。
物体识别(Object Recognition):识别图像中的物体。
指令遵循(Instruction Following):根据用户的指令执行特定的任务。
这里展示了基础模型的强大能力,它可以通过训练和适应处理多种类型的数据,并执行广泛的任务,从而在各种应用场景中发挥作用。
二、按任务领域分类
根据模型解决的具体问题类型划分,同一模态下可细分不同任务领域:
2.1. NLP模型的细分领域
生成任务:GPT-4(对话、创作)、Codex(代码生成)。
理解任务:BERT(语义理解)、RoBERTa(文本分类)。
翻译任务:Google Translate(基于Transformer的NMT模型)。
推理任务:PaLM-2(数学解题、逻辑推理)。
2,2. CV模型的细分领域
生成式任务:Stable Diffusion(文生图)、Sora(视频生成)。
分析式任务:ResNet(图像分类)、Mask R-CNN(实例分割)。
3D视觉任务:NeRF(3D重建)、PointNet(点云处理)。
视频任务:TimeSformer(视频动作识别)、VideoGPT(视频生成)。
2,3. 语音模型的细分领域
语音识别(ASR):Whisper、DeepSpeech。
语音合成(TTS):VITS、WaveNet。
语音情感分析:EmoNet(语音情感识别)。
语音克隆:Resemble AI(个性化语音生成)。
三、按技术架构分类
同一模态的模型也可根据技术架构进一步细分:
3.1. NLP模型架构
自回归模型(如GPT系列):逐词生成,适合开放域对话。
自编码模型(如BERT):双向上下文编码,适合语义理解。
序列到序列模型(如T5、BART):编码器-解码器结构,适合翻译、摘要。
3.2. CV模型架构
卷积神经网络(CNN):ResNet、EfficientNet(传统图像任务)。
视觉Transformer(ViT):将Transformer引入图像分类。
扩散模型:Stable Diffusion(生成高质量图像)。
图神经网络(GNN):处理3D点云或社交网络数据。
3.3. 语音模型架构
RNN/LSTM:早期语音识别模型(如DeepSpeech)。
Transformer-based:Whisper(端到端语音识别)。
扩散模型:Audio Diffusion(生成高质量音频)。
Waveform生成模型:WaveNet(原始波形合成)。
四、按模型规模分类
同一模态下,模型也可根据参数量级划分:
超大模型(千亿参数以上):GPT-4、PaLM-2(NLP)、Sora(视频生成)。
中等模型(十亿~百亿参数):BERT、ViT-Base、Whisper Medium。
轻量模型(百万~十亿参数):MobileBERT(移动端NLP)、TinyViT(边缘端CV)。
五、大模型应用场景
- 智能客服与对话系统:用于构建聊天机器人、虚拟助手,提供24*7的客户支持。目前大模型最广泛应用。
- 文本生成:生成文章、故事、代码、营销文案等。
- 机器翻译:实现多语言之间的高质量翻译。
- 问答系统:提供精准的问答服务,如知识库查询、技术支持。
- 图像分类与识别:识别图像中的物体、场景或人脸。
- 目标检测与跟踪:用于自动驾驶、安防监控等场景。
六、热门大模型初体验
这里主要包括讯飞星火及阿里通义千问大模型使用。
讯飞星火认知大模型
科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。例如:语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写。
阿里通义大模型
通义千问是阿里巴巴推出的一款大型预训练语言模型,它能够回答问题、创作文字,还能表达观点、撰写代码。基于海量数据训练,通义千问具备广泛知识和较强理解能力,致力于为用户提供精准、多样、有创意的回答,成为用户在学习、工作、生活中的智能助手。
DeepSeek
背景
DeepSeek是一家专注于人工智能和大数据技术的创新企业,致力于为各行业提供智能化解决方案。其核心产品包括智能客服系统、数据分析平台和个性化推荐引擎,帮助企业提升运营效率、优化用户体验。
优势
低成本:DeepSeek在训练和使用成本方面具有显著优势。DeepSeek-V3的训练成本仅为557万美元,远低于行业平均水平,成为开源模型中的“性价比之王”。
开源性:DeepSeek采取了开源策略,允许全球开发者社区检查、改进并利用这些模型进行进一步的研究和开发。这不仅促进了知识的共享和技术的进步,还为开发者提供了广阔的商用空间。