人类看见形状，AI看见纹理：从计算机视觉分类失败谈起

在我们观察一张猫的照片时，往往能够很快认出这是橘猫还是虎斑猫——此外，图像是不是黑白、是否存在斑点、是否存在磨损以及褪色等等，也都是观察过程中能够轻松得到的结论。此外，我们还会发现这些小生灵是蜷缩在枕头后边，还是迅捷地跃上一张台面。总而言之，人类总能不知不觉快速学会识别小猫。相比之下，由深度神经网络驱动的机器视觉系统虽然能够在某些特定情况下提供优于人类的识别能力，但一旦构图较为罕见、存在噪点或者其它一些干扰因素，系统也有可能对一张内容明确的图像束手无策。

最近德国一支研究小组发现了当中令人意想不到的原因：人类对图像里各对象的形状较为敏感，而深度学习计算机视觉算法却通常更关注对象的纹理。

这一发现发表在今年5月举办的国际学习代表大会上，主要强调了人与机器在“思考”方式之间的鲜明差异，并阐述了我们的直觉如何误导人工智能。此外，这项研究也暗示了，人类的视觉为何会发展成今天的形式。

拥有大象皮肤的小猫与由钟表构成的飞机

举例来说，深度学习算法体现为一套神经网络，其中包含着成千上万张有猫或者无猫的图像素材。系统能够从这些数据当中找到模式，而后利用它来决定如何更好地标记自己从未见过的图像。网络的架构类似于人类视觉系统，但建模方式更为松散——这是因为，其中的连接层允许网络一步步从图像中提取出越来越抽象的特征。然而，这套系统实际上是一种“暗箱”流程，我们只能获得正确答案，却不知道这答案从何而来。并未参与此项研究的俄勒冈州立大学计算机科学家Thomas Dietterich指出，“我们一直在努力找到使得深度学习计算机视觉算法得出正确结果的原因，以及哪些因素有可能干扰这种视觉识别能力。”

为了达成这一目标，有些研究人员开始探索，在对图像内容进行修改之后，网络会因欺骗而得出怎样的结论。他们发现，某些非常小的变化都有可能导致系统完全错误地标记图像中的对象——但有些很大的变化，却反而不会让系统修改其标记内容。与此同时，也有其他一些专家通过网络进行了回溯，分析了其中单一“神经元”在图像中的响应，并据此为系统学习到的特征生成所谓“激活图集”。

其中计算神经科学家Matthias Bethge实验室的一组科学家，以及来自德国蒂宾根大学的心理物理学家Felix Wichmann采取了更为定性的方法。去年，该团队报告称，当他们在利用特定噪声进行干扰处理的图像上训练神经网络时，结果发现神经网络在对存在类似失真干扰的新图像进行分类方面，表现要优于人类。但只要对这些图像稍微进行一些新的模式调整，就能够完全骗过网络——即使新的内容扭曲与图中原本存在的扭曲看起来并无不同。

为了解释这一结果，研究人员们猜测，也许极低的噪音水平也可能会具有巨大的判定权重。在这方面，纹理似乎是个很不错的线索。Bethge和Wichmann实验室研究生，研究论文第一作者Robert Geirhos指出，“如果长时间添加大量噪音，图像对象的形状因素其实并不会受到太大的影响。但在另一方面，图像中的某些局部结构，在添加一丁点噪音因素时也可能变得极度扭曲。”因此，他们提出了一种巧妙的方法，以测试人类与深度学习系统究竟是如何处理图像的。

Geirhos、Bethge和他们的同事创造出两幅包含相互冲突线索的图像，即对象的形状取自某一物体，纹理则取自另一个物体。例如，用带裂纹的灰色纹理（大象皮肤）填充在猫的轮廓当中；或者制作小熊纹理的铝罐，乃至由钟面堆叠而成的飞机图形等。利用数百张此类图像，人类仍能够根据图像中的形状——猫、熊、飞机等——以极高的准确度进行标记。相比之下，四种不同的分类算法则倾向于另一种理解方式，即给出能够反映物体纹理的标记，包括大象、罐头、时钟等。

并未参与此项研究的哥伦比亚大学计算神经科学家Nikolaus Kriegeskorte指出，“这正在改变我们对深度前馈神经网络能够实现视觉识别能力、及其训练过程的理解方式。”

奇怪的是，人工智能采取的纹理大于形状的理解方式，似乎很有那么点现实意义。Kriegeskorte表示，“我们其实可以把纹理看成是一种更精细的形状。”神经系统能够更轻松地锁定高精度形状比例：具有纹理信息的像素数，要远远超过构成对象边界的像素数，而神经网络的第一步就是检测线条与边缘等局部特征。并未参与此项研究的多伦多约克大学计算视觉科学家John Tsotsos指出，“这就是纹理。所有的线段组都以相同的方式进行排列。”

Geirhos和他的同事已经证明，这些局部特征已经足以帮助神经网络完成图像分类任务。事实上，Bethge和该研究的另一位作者，博士后研究员Wieland Brendel在今年5月的大会上也通过一篇论文提到了这一点。在这次工作当中，他们构建起一套深度学习系统，但具体运行方式却与深度学习技术出现之前的分类算法非常相似——这更像是一种“特征包”。它最初会将图像分割成众多微小的块（类似于目前的Geirhos等现有模型），但接下来它并不像其它模型那样逐步整合信息并提取高级特征，而是立即识别出每个小块中的图像内容（「这个块中包含自行车的因素，另一块当中包含鸟的因素」等）。它会将这些决策结果叠加在一起以确定对象的实际内容（「如果包含自行车因素的小块更多，那么图像展示的就是自行车」），而完全不考虑不同图块之间的全局空间关系。但就是这种“笨办法”，却能够以惊人的准确度识别物体对象。

Brendel表示，“这一发现挑战了此前人们所认定的，深度学习技术与原有模型完全不同的假设。很明显……深度学习仍然代表着一种飞跃，只是不像有些人所希望的那么天翻地覆。”

根据约克大学与多伦多大学博士后研究员Amir Rosenfeld的观点（并未参与此项研究），“我们理解中的神经网络运作方式，与其实际运作方式之间仍然存在着「巨大的差异」”，其中也包括神经网络对人类行为的复制效果。

Brendel也表达出类似的观点，他表示人们很容易假设神经网络能够像人类一样解决任务，“但我们也忘了、或者说是在刻意忽略其中还存在着别的可能。”

一种更接近人类的观察方法

目前的深度学习方法可以将纹理等局部特征整合至更多全局模式当中。Kriegeskorte指出，例如在谈到形状时，“论文当中提出了令人惊讶、但又非常引人注目的证明，即虽然架构能够关注形状，但如果仅仅进行训练（对标准图像进行分类），那么神经网络不会自动提出形状这一概念。”

Geirhos希望看到当团队强迫这些神经模型忽略纹理因素时，会发生怎样的结果。该团队采用传统上用于训练分类算法的图像，并以不同的样式对图像加以“绘制”，从而在根本上剥离出有用的纹理信息。当他们在新图像上重新训练每套深度学习模型时，这些系统开始逐步关注更大、更为全局的模式，同时也表现出更类似于人类的形状偏好。

在采取这种方式时，算法能够更好地分辨包含噪音干扰的图像，甚至无需训练即可识别出其中的内容。Geirhos表示，“基于形状的网络能够提供更强大的识别功能。这让我们意识到，对于特定任务，其实是存在「正确的偏见」这一概念的。以我们的研究为例，形状偏见能够把视觉识别算法推广到更多新颖的场景当中。”

研究还暗示，人类有可能也会自然地产生这种偏见；因为对于前所未有或者干扰因素较多的情况，形状是一种更为健壮的指标，能够帮助我们更好地定义自己看到的内容。人类生活在一个三维世界当中，很多物体在不同条件、不同角度之下都会呈现出不同的状态。而我们的其它感官，例如触觉，可以根据需要完善物体识别能力。因此，我们的固有思维就认定形状优先于纹理。（此外，也有一些心理学家提出，语言、学习与人类形状偏见之间的联系；当幼儿接受训练时，他们可以专门学习某些特定类别的单词以更多关注形状因素。如此一来，他们在后续掌握名词或物体相关词汇时，往往会表现出较超未训练孩子的学习能力。）

Wichamnn表示，这项工作提醒人们“数据会产生远超我们认知的偏见与影响。”这已经不是研究人员们第一次面对这个难题：人脸识别程序、自动招聘算法以及其它神经网络，此前都已经被证明会过度重视某些出人意料的特征。这是因为这些神经网络所使用的训练数据之内，已经存在着根深蒂固的偏见。事实证明，从决策过程当中消除这些不必要的偏见往往非常困难，但Wichmann认为此次新研究展示出新的可能性，也让他对此充满信心。

然而，以便Geirhos的模型已经开始关注形状这一因素，也有可能被图像当中的大量噪音或特定像素变化所干扰——这表明其距离还原人类视觉能力还有很长的道路要走。（同样的，Tsosenos实验室研究生Rosenfeld、Tsotsos以及Markus Solbach最近也发表了研究报告，认为机器学习算法无法像人类那样感知不同图像之间的相似性。）不过Krigeskorte指出，“通过此项研究，我们终于开始触及一个实质性问题——计算机视觉识别算法并没能把握住人类大脑当中的某些重要机制。”而在Wichmann看来，“在某些情况下，关注数据集可能更为重要。”

多伦多大学计算机科学家Sanja Fidler（并未参与此项研究）也对这一观点表示赞同。她解释称，“具体结果，取决于我们能否设计出聪明的数据与聪明的任务。”她和她的同事目前正在研究如何为神经网络提供辅助，以帮助网络提取出最重要的特征。受到Geirhos调查结果的启发，他们最近训练出一种图像分类算法，其不仅能够识别出物体本身，同时也可以判断哪些像素属于其轮廓或者形状的组成部分。该网络在常规对象识别任务中能够自动提升判断水平。Fidler指出，“只要完成了一项任务，我们就会自然地在关注当中带有选择性，同时忽略掉其它很多不同的因素。但如果面对多个任务，我们可能会发现更多影响要素。这些算法也是如此。”算法在解决各种任务的过程中会“对不同的信息产生偏见”，这与Geirhos在形状与纹理实验中的发现高度契合。

Dietterich总结称，所有这些研究都代表着“在深入了解深度学习中具体步骤与内容方面，一个个令人兴奋的阶段。这也许将帮助我们克服一系列当下困扰着我们的局限。因此，我非常赞赏此次发布的一系列论文。”

拥有大象皮肤的小猫与由钟表构成的飞机

一种更接近人类的观察方法

Recommend

挖洞经验 | 看我如何发现微软Outlook for Android移动应用的XSS漏洞

为什么企业要从离线数据中台走向实时数据中台？ | 数据分析网

数据库的索引和锁到底是怎么回事

Web 3.0 不需要区块链

OpenResty × Open Talk 全国巡回沙龙 | 深圳站顺利落幕

Go框架解析:iris

又拍云推出区块链开发平台，覆盖多个公链

探索学习率设置技巧以提高Keras中模型性能 | 炼丹技巧

【译】 Golang 中的垃圾回收（二）

SwiftUI ActionSheet Tutorial

About Joyk