可解释型 AI 打开黑盒子（附白皮书）

深度学习方面的最大挑战之一是，向客户和监管机构解释模型是如何得到答案的。在许多情况下，即使我们对答案本身很有把握，还是根本不知道模型是如何得到答案的。然而在《通用数据保护条例》（GDPR）严格监管的时代，这种黑盒子似的预测计算根本不足以满足要求，这正促使FICO及其他公司开发可解释型AI（explainable AI）。

将深度学习描述为黑盒子并不是要诋毁这种做法。实际上，在许多情况下，深度学习模式的黑盒子方面并不是一个错误（bug），而是一个特征。毕竟，当我们构建一个有着数百个输入变量、一千多个隐性层的卷积神经网络（这是最大的CNN）时，它居然完全可以运行，我们激动万分。我们不知道它到底是如何运作的，但我们很感激它确实可以运行。如果我们被要求明确编写一个程序来做与CNN一样的事情，那可能是彻头彻尾的灾难。要不是自学习机器的好处，我们根本无法构建今天在构建的决策系统。

但是尽管在过去的五年间深度学习已变得很好，但还是不够好。我们目前这个世界根本没有足够的善意，好让上千亿美元的公司或上万亿美元的政府让消费者或公民在做出改变生活的决策时“相信我们”。促使更清楚地阐明今天基于AI的系统在如何做出决策的不仅仅是警惕的公众，还有持怀疑态度的监管机构，毕竟GDPR对于数据处理方面加大透明度提出了新的要求。

一些公司处在有助于让AI更容易解释的这个前沿，FICO正是其中之一。这家总部位于加利福尼亚州圣何塞的公司以开发一套已申请了专利的信用评分方法（“FICO评分”）而闻名，许多银行用这套方法来确定消费者的信用风险。它还将机器学习技术应用于决策管理套件（DMS）中，许多公司利用该套件使一系列决策过程实现自动化。

神经网络利用复杂的连接来查找隐藏在数据中的关系（图片来源：Shutterstock）

两年前加入FICO之前，FICO产品和技术副总裁贾里•科伊斯特（Jari Koister）供职于Salesforce.com和Twitter，那时候使用最先进的机器学习技术和方法在这两家公司早已得到广泛接受，被视作是开展工作的常用方法。但是FICO的客户在采用机器学习方面较为保守。科伊斯特说：“我们的好多客户其实不敢在诸多场景下部署机器学习算法。”

科伊斯特转述了他接触过的一家欧洲大银行的故事，那家银行当时在考虑使用深度神经网络来帮助检测欺诈行为。科伊斯特表示，然而，尽管没有哪部具体的法规阻止深度神经网络用于检测欺诈，但由于普遍缺乏可解释性，该银行还是决定不使用深度学习方法。

他告诉外媒Datanami：“他们内部觉得需要能够解释，如果某件事被归类为欺诈行为，他们需要搞清楚为什么。这不仅与监管有关，还与一旦部署，你能理解为何系统这么做这种信心有关。”

那次经历有助于说服科伊斯特需要对可解释性问题做些什么。在过去的两年间，他和他的AI团队在努力解决这个问题。该团队最初与加州大学欧文分校合作开展LIME项目，但科伊斯特表示，LIME不够精确，根本没有达到标准。

科伊斯特谈到LIME时说：“它绝对不是最好的解决方案。但它备受关注，原因是它是最先真正试图公布任何机器学习模型的通用技术的项目。我们实际上赞助这项研究，以迈出下一步。”

于是，科伊斯特的FICO团队开始开发自己的方法让AI易于解释。在今年4月的FICO世界大会上，该公司推出了科伊斯特的团队一直在努力开发的第一个版本。他们称之为“可解释型AI”，恰如其名。

图片来源：《AI和机器学习：FICO的关键创新》

据科伊斯特声称，可解释型AI包括几个部分，但一个关键部分是“操练”模型，并且向客户表明不同输入如何直接导致不同输出的机制。

他说：“我们实际上拥有操练模型，并提取出一大批不同特点的机器，好让客户看到不同的输入生成什么类型的输出。我们实际上在打开黑盒子，说‘这是模型面对所有数据时的行为。”

比如说，假设客户准备保车险。保险公司在生成报价之前会考虑一系列因素，包括年龄、性别、事故历史记录、住址、车型、每年行驶里程以及其他因素。如果客户不喜欢初始保险条款，可能会问怎样才能降低保险费。

如果该公司使用黑盒子决策引擎，试图向潜在的保险客户解释其工作机理是没有意义的。（数据科学家可能也很难向另一位数据科学家解释清楚）。相反，FICO采取了一种蛮力方法，实际上拿不同的输入内容反复地运行模型，向客户表明他们实际上可以调整哪些参数，以影响模型的结果。

科伊斯特说：“他们需要搬家还是换车？还是再开一年车，没有发生任何事故？无法搞明白它，因为它是黑盒子。我们确切地告诉你‘这会你让面临另一个成本区间，这些是你需要改变的参数。’在我们看来，这是可解释性的一个非常重要的部分。这不仅表明了它是什么，还表明了你如何能影响模型。”

这家公司的可解释型AI方法已从用户处收到了良好的反馈，包括去年启动可解释型人工智能（XAI）计划的美国国防高级研究计划局（DARPA）。DARPA的代表听到FICO这项研究成果的消息后，马上联系该公司，打听更多信息。实际上，科伊斯特最近出席了DARPA研讨会，介绍FICO方法的更多细节。

可解释型AI现在是FICO DMS中的数据科学平台（Data Science Workbench）的一部分。该软件与三种类型的机器学习模型兼容，包括XGboost、随机森林和神经网络。采用可解释型AI的组织能够生成“解释证书”（具体表现为实际文档或UI窗口组件），而解释证书让客户或潜在客户可以更深入地了解为什么他们的自动化决策系统如实生成报价或如实收取费用。

科伊斯特说：“我们在帮助人们真正理解和打开黑盒子，让它成为白盒子方面显然处于领先地位。话虽如此，我们在这方面还没有大功告成。我们会继续致力于这方面。这个领域非常活跃，我们在想用可解释性来完成什么任务方面抱有更远大的目标。但我们认为，我们已经拥有了技术，可以真正帮助人们了解发生的事情，并且做到对模型了如指掌。”

为了进一步推动可解释型AI的现状，FICO在举办可解释型机器学习挑战赛。挑战赛的目的是，找到构建准确性和可解释性都很高的机器学习模型的新方法。该挑战赛于去年12月启动，使用FICO提供的样本抵押贷款申请数据，并得到了加州大学欧文分校（UCI）、加州大学伯克利分校、牛津大学、麻省理工学院、谷歌和伦敦帝国理工学院的赞助。参赛截止日期最近延长到8月31日。

白皮书：

Recommend

边学习代码边学习Git和GitHub（一）

打算入手一个只用于 coding 的 27 寸 2k 的显示器，求推荐

人活一辈子到底是为了什么

小米 8 太好抢了吧，是不是都在等探索版？

不用 QQ，我们如何方便地多平台之间传输文件？

哪位勇士刷了 macOS Mojave, 体验如何?

有江西农村的吗，你们那彩礼都是 20 万起？女朋友想房子上加名（市值 300 来万），彩...

互金协会互联网金融统一身份核验平台启动试运行

高德上线环境地图身边空气质量及水质等全国可查询

如何精确统计页面停留时长

About Joyk