当前位置:河南时尚之窗 >> 科技 >> 文章正文

图像识别的视觉解读史

发布于:2020-12-07

新智元报道

编辑:QJP

【新智元导读】,使用机器学习算法(尤其是现代深度学习)进行图像识别的最大挑战之一是,很难理解为什么特定的输入图像会产生其预测结果。我们整合了过去十年中最先进的图像解释技术的视觉界面,并对每种技术进行了简要描述。

过去11年来,用来解释神经网络的最新方法是如何发展起来的?

在本文中,我们尝试使用引导反向传播来解释和演示初始网络图像分类器。

为什么“解释”很重要?

使用机器学习(ML)算法(尤其是现代深度学习)进行图像识别的最大挑战之一是难以理解为什么特定的输入图像会产生其预测结果。

ML模型的用户通常想知道图像的哪些部分是预测的重要因素。这些解释或“解释”有价值的原因有很多:

机器学习开发人员可以分析调试模型的解释,识别偏差,并预测模型是否可以扩展到新的图像

机器学习模型的用户可能更信任该模型,如果对为什么做出特定预测提供了解释的话。

像GDPR这样的机器学习规则要求一些算法决策可以用人类术语来解释

因此,至少从2009年开始,研究者们开发了许多不同的方法来打开深度学习的“黑箱”,从而使基本模型更容易解释。

下面,我们整合了近十年来最先进的图像判读技术的可视化界面,并对每项技术进行了简要描述。

我们使用了很多很棒的库,但是特别依赖Gradio来创建您在下面的gif文件中看到的接口和PAIR-code的TensorFlow实现。

所有接口使用的模型是盗梦空间网络图像分类器,复制这篇博文的完整代码可以在这个jupyter笔记本和Colab中找到。

在深入研究论文之前,我们先从一个非常基础的算法开始。

七种不同的解释方法

Leave-one-out (LOO)

留一(LOO)是最容易理解的方法之一。如果你想知道图像的哪一部分负责预测,这可能是你想到的第一个算法。

这个想法是将输入图像分成一组更小的区域,然后运行多个预测来每次掩蔽一个区域。根据每个区域“屏蔽”对输出的影响程度,给每个区域分配一个重要度分值。这些分数是对哪个区域最负责预测的量化。

这种方法很慢,因为它依赖于运行模型的多次迭代,但它可以产生非常准确和有用的结果。上图是杜宾犬的一个例子。

LOO是Gradio库中默认的解释技术,完全不需要访问模型的内部——,这是一个很大的优势。

Vanilla Gradient Ascent [2009 and 2013]

论文:可视化深层网络的高层特征[2009]

论文:可视化图像分类模型和显著图[2013]

这两篇论文的相似之处在于,它们都利用梯度上升探索了神经网络的内部。换句话说,他们认为输入或激活的微小变化将增加预测类别的可能性。

第一篇论文将其应用于激活,作者报道“有可能找到对高级特性的一个很好的定性解释,我们证明这可能是违反直觉的,但这种解释在单元层面是可能的,而且容易实现,各种技术的结果是一致的。」

第二种方法也使用梯度上升,但是直接检测输入图像的像素,而不是激活它们。

作者的方法“计算特定于给定图像和类别的类别显著图,该显著图可用于使用分类ConvNets的弱监督对象分割。”」

Guided Back-Propogation [2014]

论文:努力简化3360全卷积网[2014]

本文提出了一种完全由卷积层组成的新型神经网络。因为以前的解释方法不适合他们的网络,所以他们引入了引导反向传播。

当标准梯度上升时,这种反向传播可以滤除传播过程中的负激活。根据作者的说法,他们的方法“可以应用于更广泛的网络结构。」

Grad-CAM [2016]

通过基于梯度的定位从深层网络进行可视化解释[2016]

然后是梯度加权类激活映射(Grad-CAM)。它利用任意目标概念的梯度流入最终的卷积层,生成粗略的定位图,突出图像中的重要区域来预测概念。」

该方法的主要优点是进一步扩展了可解释的神经网络(如分类网络、字幕和视觉问答(VQA)模型),以及一个良好的后处理步骤,该步骤将解释集中并定位在图像中的关键对象周围。

SmoothGrad [2017]

Paper:平滑梯度:通过添加噪声来消除噪声[2017]

和以前的论文一样,这种方法从计算类评分函数相对于输入图像的梯度开始。

但是,平滑梯度通过向输入图像添加噪声,然后为图像的每个受干扰版本计算梯度,直观地锐化了这些基于梯度的灵敏度图。将灵敏度图平均在一起可以得到更清晰的结果。

Integrated Gradients [2017]

论文:深层网络的公理化属性[2017]

与以往的论文不同,本文作者从解释的理论基础入手。它们“确定了归属方法应该满足的两个基本公理——敏感性和实现不变性”。

他们用这些原理来指导一种新的归因方法(称为综合梯度)的设计,这种方法可以产生高质量的解释,并且仍然只需要访问模型的梯度;但是,它添加了一个“基线”超参数,这可能会影响结果的质量。

Blur Integrated Gradients [2020]

论文:规模和空间属性[2020]

本文研究了一种新技术——提出这种方法是为了解决特定的问题,包括消除“基线”参数和去除一些在解释中容易出现的视觉伪影。

此外,它还“在尺度/频率维度上生成分数”,本质上为图像中的重要对象提供了尺度感。

下图比较了所有这些方法:

参考链接:

https://gradio.app/blog/interpretation-history

https://github.com/gradio-app/History-of-exploration/blob/master/History-of-exploration . ipynb

标签: 图像 梯度 模型

上一篇:第四届天府文化论坛举办了一批新的产业场景

下一篇:刘雯冬天穿裙子看起来真的不冷