前言
1.草图与图片和文字的对比:
(1)草图与照片的不同之处在于,它可以自由操纵,而照片则很僵硬,很难操纵。这在很大程度上要归功于草图的笔划导向特性——抖动的笔划可能会返回“相同”的草图,而抖动的像素会给你一个“奇特”的图像;
(2)草图在语义结构上具有与文本相同的灵活性:笔划是草图的构建块,就像单词是文本的构建块一样。
2.本工作的主要贡献:
(1)首先,将笔划识别为一种独特的构建块,在对象构建和操作方面提供了一定程度的灵活性;
(2)在此之后,设计了一个简单的可解释性友好的草图编码器,它适应了笔划的内在属性:形状、位置和顺序;
(3)定义草图的第一个XAI任务,即笔划位置反转(SLI)。SLI为草图提供了一个可解释的角度,询问网络在多大程度上可以恢复看不见的草图的笔划位置。
一、任务定义
1.两种任务类型:
(1)恢复:保留笔画形状,要求优化程序抖动笔划位置以恢复草图,使其与原始草图属于同一类;
(2)迁移:保持笔划形状和位置不变,同时将目标标签y指定为与输入草图不同的类别,以获得属于新类的草图,并将其作为输入传递给优化器。
2.对于由k个点组成的每个笔划
,确定了三个固有属性,并学习了每个属性的相应描述符:
(1)位置:使用绝对坐标系中
的起点来编码
,即
。在符号混淆的情况下,我们使用
作为替代方案;
(2)形状:使用相对坐标,并要求所有笔划都有相同的固定起点,在本工作中是画布原点中点。每个shi点还包含一个二维二进制笔状态
:正在绘制笔划,
:笔划结束,
:填充点。
(3)顺序
二、草图专用编码器
在进行最终决定之前,分别对、
和
进行推理。模型的结构如下图所示:
(1)使用双向LSTM提取每个笔画的形状的嵌入;
(2)使用一个线性层进行位置的嵌入学习;
(3)预先定义了允许的最大笔划数,并为每个顺序嵌入分配了一个可学习的嵌入;
(4)最后,将三种嵌入相加,并在馈入Transformer编码器之前添加一个额外的[CLS]令牌,采用[CLS]进行分类任务,在传统的多类交叉熵损失下进行了优化。
三、可解释性
通过回答以下问题来解释草图分类器——“分类器能反转这个随机草图到它应该具备的视觉语义?”通过这样做,人们能够探究曾经的黑匣子分类器的内部状态,从而实现解释。
SLI对应于一个迭代优化问题,专门用于重新配置笔划位置,以提高识别置信度,并为人类提供动态可视化路径。粗体s表示由N个笔划组成的草图,类标签以y表示,该过程公式如下:
四、实验结果
4.1 恢复
i)尽管恢复的草图在视觉上通常与原始输入不同,但它们揭示了观众需要解释的基本类别特定语义,进而建立了他们自己对当前分类器预测可信度的可解释性。例如,在[sun]的情况下,分类器通过尝试将随机聚类笔划重新定位到圆圈周围来学习光的概念。同样令人惊讶的是,在[tree]案例中,分类器甚至主要通过将一个笔划从花茎重新定位到树干来培养细粒度的理解。
ii)优化收敛的迭代步骤因样本和随机起点而异,100次迭代对于所有场景来说都是足够的预算,在现代GPU上只需要几秒钟。迭代优化还允许观众有选择地查看解释路径,并为AI归因识别出比最终静态输出更多样化的证据。在[手机]的例子中,分类器似乎没有学习到可靠的正确空间组合,而在[tree]中,分类器虽然对概念差异很敏感,但对于人类审查来说也不是无懈可击的——在第一次迭代后,识别置信度从32.81%增加到95.45%,但没有令人信服的视觉效果变化。
iii)随机化提供了一种对比的方法来解释分类器的不同功能特征,从而为观众提供了一个更好的方法来决定是否以及在多大程度上建立人工智能信任案例。例如,通过比较,我们可以通过为每个类别设置最小识别置信度基线来建立信任,也就是说,除非预测的置信度达到一定水平,否则我们无法信任它。这一结论源于我们的动态可视化,即不同的随机起点决定了分类器的不同暴露,在某些情况下,即使识别置信度超过95%,也可能不那么令人放心,例如[sun]。
4.2 转移
可以看到生成的解释路径变得不那么有效,但仍然部分可以理解:
即使构成不同类别的笔划形状也具有显著的视觉独立性,SLI能够通过将笔划放在正确的位置来传达合理的信息,代表视觉语义的正确抽象。[chair]的座椅行程变成[扫帚]的头部,[bicycle]完全被解剖成[camera]的样子。分类器的缺点也隐含在将[sun]转换为[apple]的过程中,这揭示了苹果分类器在菠萝攻击下的脆弱性。
4.3 笔画形状嵌入
为了分析学习到的形状嵌入,对所有草图类别中选定样本的笔划进行t-SNE,并对它们的缩减维度进行K-means均值聚类。
聚类质心:最接近的笔划样本(在训练过程中)。并将其视为属于同一质心的所有笔划样本的代表性笔划图元。
在K-means中设置的质心数越大,预期包含更多不同绘图风格的更精细的图元就越多:
(1)第一行显示了30个草图类别上100个质心的t-SNE聚类结果,并证实了形状嵌入已经形成了语义理解,可以将视觉上相似的笔划分组在一起,而不管它们来自哪个原始类别——知道嵌入是如何很好地识别出不同空心类型的点的;
(2)为了进行更定量的评估,我们将草图样本的所有笔划替换为它们的图元,并将它们输入SketchXAINet进行分类。如第二行所示,与过去工作中手动定义一组固定的基于启发式的形状基元(直线、圆弧、正方形、圆、三角形、U形、L形)的结果相比,我们的基于学习的方法在如何抽象笔划以及如何在整个草图级别权衡识别方面是灵活的。除了9类设置专门选择视觉语义偏向于分析的某些类(例如圆形轮廓)外,过去工作在更开放的设置下大多失败,在30类设置中,识别准确率从91.8%骤降至62.4%,对于不太规则的草图样本(例如鞋子、星星),完全重建失败。
五、总结
(1)本工作将笔画作为解释的基础,引入了SketchXAINet来编码草图笔划的三个固有属性:形状、位置和顺序。利用这种编码器,提出了第一个针对草图的可解释性任务,即笔划位置反演(SLI)。与典型的静态解释(如显著性图)相比,SLI是一个动态过程,通过检查草图模型在给定类别的情况下随机重新排列笔划以重建草图的能力来解释草图模型的可信度。
(2)它的具体的可解释性表现在哪些地方?(看的不是太明白),换句话说,它解释了什么?通过什么途径解决?