用 KNN 算法解锁分类的奥秘：从电影类型到鸢尾花开-EW帮帮网

先来看一个有趣的例子。假设我们收集了一批电影的 “特征数据”：用 “打斗镜头数量” 和 “接吻镜头数量” 来描述一部电影，并且已经知道其中一些电影的类型（爱情片或动作片）：

现在问题来了：未知电影《Amped II》到底是爱情片还是动作片？

KNN 算法的思路特别 “实在”：看它 “最像” 哪些已知的电影。就像我们判断一个人是内向还是外向，会观察他最常来往的几个朋友的性格 ——KNN 的核心逻辑就是 “近朱者赤，近墨者黑”。

KNN 的全称是 “K-Nearest Neighbor”（K 近邻），它的工作步骤简单到可以用 5 句话概括：

算距离：计算未知样本（比如《Amped II》）与所有已知样本（已分类的电影）的 “距离”。这里的 “距离” 不是物理距离，而是特征之间的差异（比如打斗镜头和接吻镜头的数值差）。
排顺序：把这些距离按从小到大的顺序排序，越近的样本说明和未知样本 “越像”。
选邻居：挑出距离最近的 K 个样本（K 是我们自己设定的数，一般不超过 20），这就是未知样本的 “近邻”。
看多数：统计这 K 个近邻的类型，哪种类型出现的次数最多，就是 “主流意见”。
下结论：把 “主流意见” 作为未知样本的分类结果。

我们用上面的电影数据实战一下。

首先，计算《Amped II》（打斗 18，接吻 90）与其他已知电影的距离。这里我们用最常用的 “欧式距离”（可以理解为 “直线距离”），二维空间的公式是： \(d = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}\)

计算结果如下（只保留关键值）：

排序后，最近的 3 个 “邻居”（K=3）是：《He's Not Really into Dudes》（爱情片）、《California Man》（爱情片）、《Beautiful Woman》（爱情片）。这 3 个都是爱情片，所以《Amped II》被分类为爱情片。

刚才我们用了欧式距离，但 KNN 里还有其他 “尺子” 可以衡量距离，最常见的还有 “曼哈顿距离”。

欧式距离：像乌鸦一样 “直线飞行” 的距离，适合衡量连续特征的差异（比如长度、数量）。公式：\(d = \sqrt{\sum_{i=1}^{n}(x_i - y_i)^2}\)（n 为特征数量）
曼哈顿距离：像出租车在城市里绕路一样，沿坐标轴 “直角转弯” 的距离总和，适合特征值是整数或离散的场景。公式：\(d = \sum_{i=1}^{n}|x_i - y_i|\)

比如在电影分类中，用曼哈顿距离计算《Amped II》与《He's Not Really into Dudes》的距离：|18-2| + |90-100| = 16 + 10 = 26，同样能看出两者很接近。

KNN 的应用远不止给电影分类。在经典的 “鸢尾花分类” 问题中，它也能大显身手。

鸢尾花有 3 个品种（山鸢尾、变色鸢尾、维吉尼亚鸢尾），我们可以通过花萼长度、花萼宽度、花瓣长度、花瓣宽度这 4 个特征来区分它们。用 KNN 算法的步骤如下：

KNN 算法最大的优点是简单直观：不需要复杂的数学推导，像 “看邻居投票” 一样就能分类，而且能处理多类问题。但它也有 “小脾气”：

但这并不影响它成为机器学习的 “入门好工具”。下次当你纠结一部电影的类型时，或许可以试试用 KNN 的思路 —— 看看它和哪些已知电影 “最像”，答案可能就藏在 “邻居” 里。

从电影到花朵，从距离计算到分类决策，KNN 用最朴素的逻辑告诉我们：有时候，解决复杂问题的钥匙，就藏在 “相似性” 里。

用 KNN 算法解锁分类的奥秘：从电影类型到鸢尾花开