从去年11月开始做地表分类,时至今日竟然发现自己对“分类产品的验证”和“分类器的精度验证”傻傻分不清。
一、地表分类产品精度验证的目的
地表分类产品出来之后,不能只看模型训练时的精度(如训练精度、交叉验证精度),更重要的是验证最终分类图的精度,即:这个图到底准不准。
这叫做 “分类图的外部精度验证”,而不是“分类器本身的验证”。
二、常用的精度验证方法
✅ 1. 基于独立验证样本的混淆矩阵(最常用最标准)
📌 原理:
对比“地表分类结果”和“验证点的真实标签”,构建混淆矩阵来评估准确性。
从地面调查、Google Earth高分辨率影像、已有权威LULC数据集中采用与获取训练样本相同的策略,在空间上均匀抽样,随机选取几百到几千个样本作为独立验证样本;
与分类图进行逐点对比,得到混淆矩阵(confusion matrix);
计算指标:
总体精度(Overall Accuracy, OA):所有分类正确的比例;
Kappa系数(Kappa):考虑了随机正确的可能性,值越高越可靠;
用户精度(User’s Accuracy, UA):对用户来说,这个类别有多少是对的(预测为A的里面有多少是真A);
制图者精度(Producer’s Accuracy, PA):对制图者来说,A类别有多少被正确分类(真A中有多少被分对了);
F1-score:综合考虑精度与召回率;
✅ 适用情况:
有一定数量的高质量独立验证点
对分类图进行严格的定量评估
注意:验证样本的数量最好是每一类不少于30个,总数不少于300。
✅ 2. 与其他产品进行视觉解译对比验证(定性分析)
📌 原理:
通过人眼对比分类结果与高分遥感影像或已有产品的可视图层,观察是否分类合理。
把分类产品和已有高精度LULC产品(如FROM-GLC10、GLC-FCS10等)或高分遥感影像对比;
通过人眼解译典型区域的分类正确性,评价不同地物类型的识别效果;
✅ 优点:
简单直观
适合对典型区域、关键类别做定性分析
😟 局限:
主观性强,不能量化
不适合大范围、复杂类别分析
...同时也要注意,这种方法说服力较差,可能无法受到认可(比如我的Z导和某个期刊的编辑)...
✅ 3. 多源对比验证(定量分析)
📌 原理:
将分类结果与已有权威LULC产品(如FROM-GLC10、GLC-FCS10、MODIS-LULC等)进行对比,看两者在相同区域的一致性。
在Google Earth影像上均匀随机地选取一定量的验证样本,对应着验证样本将自己的分类产品与其他已有LULC产品的进行一致性交叉对比;
📈 可以做的分析包括:
像元一致性比例(相同位置分类一致的比例)
分类差异图(Difference Map)
每类之间的交叉对比矩阵
✅ 优点:
无需地面样本,也能进行大尺度验证
可体现你产品在某些类别上的优势或劣势
😟 局限:
不同产品的分类体系、精度、时间点可能不同,需谨慎解释差异
✅ 4. 空间一致性分析(定性分析)
📌 原理:
分析分类图在空间分布上的合理性,是否符合地貌、坡度、气候、植被生态学规律。
✅ 优点:
用于“可信度检验”和“生态合理性讨论”
可以借助 DEM、Slope、NDVI 等辅助因子分析空间一致性
三、建议使用组合策略
方式 | 是否建议你采用? | 原因 |
---|---|---|
独立验证点 + 混淆矩阵 | ✅强烈推荐 | 最标准的量化验证 |
视觉对比解译 | ✅推荐 | 适合展示具体区域的优势 |
与其他产品对比 | ✅推荐 | 辅助讨论结果差异 |
空间合理性分析 | ✅推荐 | 用于讨论部分分类差异的解释性 |
四、“分类产品”和“分类器”精度验证的核心区别
项目 | 分类器的验证(模型精度) | 分类产品的验证(图像精度) |
---|---|---|
✅ 验证对象 | 分类器本身(比如SVM、RF的“性能”) | 最终生成的分类图(地图) |
✅ 样本来源 | 来自样本集(训练+测试划分) | 来自独立于样本集的新数据或外部验证点 |
✅ 方法 | 交叉验证、留出法(hold-out)、混淆矩阵 | 与真实标签(独立验证点)对比,混淆矩阵、目视解译等 |
✅ 用途 | 判断模型是否学得好 | 判断“地图”能不能用,有多准 |
五、举个例子
有1000个样本点,想训练SVM模型。
💻 (1)分类器的验证(模型性能评估)
将1000个样本拆成:
700个用于训练(training)
300个用于测试(testing)
训练了SVM模型后,用那300个测试点来检验分类器的“学得好不好”。
👉 这个测试集来自我们亲手选的样本集。它用来评估“模型学习能力”。
🗺(2)分类产品的验证(分类图的精度)
接下来我们用训练好的SVM模型,把整张影像图都分类了,得到了LULC地图。
我们想知道:
这张图到底准不准?
于是去GE上人工标了500个地物点(或者用FROM-GLC10标注了验证点),这些不是之前模型训练中用过的数据。
然后把这300个验证点拿来和分类图比一比,看分类结果对不对,这就是:
👉 最终产品的外部精度验证。