CNN vs ViT：图像世界的范式演进-EW帮帮网

一、图像建模，是不是也可以“大一统”

在前文中我们提到，多模态大模型打破“只能处理文字”的限制。

在 NLP 世界里，Transformer 已经证明自己是理解语言的王者。那么在图像世界，我们是否也能有一种“通用架构”，让模型像“理解语言”一样理解图像呢？

这篇文章，我们同样从开发者熟悉的角度，讲清楚 CNN 和 ViT 的核心原理与区别，以及为什么 ViT 被称为“视觉的 BERT”，开启了图像建模的新时代。

想象你正在处理一张图片，比如一张猫的照片。你不是用人眼看，而是交给一个“滤镜系统”处理。

这时候，卷积核就像是一组特定用途的图像滤镜，比如：

当你用这些滤镜一层层地扫描整张猫图时（如上图）：

这个过程可以理解成是Conv2D和MaxPooling2D的堆叠。

从优缺点上来看，CNN非常高效，部署成熟，以及“平移不变性”和“局部性”的特性，所以数据量不大也能训练出不错的模型。

但它也有明显局限：

那有没有一种架构，既能保留 CNN 的特征提取能力，又能拥有更强的全局建模能力？

2020 年，Google 提出了 Vision Transformer（ViT），提出了一个惊人的想法：

图像也可以像句子一样，切分为 Token，然后直接输入 Transformer。

如上图，Transformer中一个重要特性是注意力机制（self-attention），当前token跟其他每个token计算重要程度。远距离也可以很好捕捉。

Bert、ChatGPT等现在主流的模型都是用到Transformer架构，那架构上也实现了统一。

之前文章中，我们讲到文本首先要“分词”，更专业称呼为Tokenization。

那ViT是如何实现tokenizer的呢？——切成一个个patch

如下面九宫格，将原始图片分成的一个一个patch。而每个patch，等同于自然语言中的token。

原始图片

九宫格

铺平

针对这个“九宫格”进行铺平，就变成了自然语言中长度为9的概念。

ViT 的真正意义在于：它让图像建模也走向 Transformer 范式，从而进入大模型时代。

有了 ViT，我们可以：

这些技术的基础，都是 ViT 将图像表示 token 化，并送入 Transformer 架构的能力。

本篇粗略介绍了CNN和ViT这种更通用的“图像语言处理器”，即图像也能像语言一样，被统一处理。

后面，我们从更多案例出发，打下更多的认知基础。