压榨参与者！机器学习进化可能带来风险，是时候思考公平问题了

编者按：纽约大学社会学家莫娜·斯隆（Mona Sloane）致力于发现 AI 设计和政策方面的不平等问题。日前，她在《麻省理工科技评论》撰文指出，机器学习可能会对处于压迫和弱势的群体造成更大伤害，而科技界则一直没有有效的解决方案。她呼吁，是时候面对压榨思维带来的挑战了。

uMZrUfy.jpg!mobile

图｜莫娜 · 斯隆

人工智能领域终于意识到，机器学习可能会对处于压迫和弱势的群体造成更大伤害。我们要感谢活动人士和组织者为此做出的努力。机器学习研究人员和学者们已经开始寻找使人工智能更加公平、更负责任和透明度更高的方法，并且最近开始注重参与性这一方面。

前不久在美国举行的机器学习国际会议上，最令人感兴趣、参与人数最多的活动之一，就是“机器学习的用户参与”。这个研讨会将用户参与融入设计当中，以达到AI领域对建立更民主、更公平以及合作度更高的演算法系统的期望。这种方法可以让那些使用一个算法系统并受其影响的人参与到设计过程中，例如，让护士和医生帮助开发败血症检测工具。

这是机器学习领域急需的一种介入方式，因为机器学习本身可能会过度分层和同质。但这个方法也不是什么灵丹妙药，因为“用户参与式改进”可能会成为该领域下一个有风险的行为。这就是我和伊曼纽尔·莫斯、奥莱坦·阿沃莫洛和劳拉·福拉诺在我们最近发表的论文《用户参与不适合机器学习》中所主张的。

如果忽视系统对某些方面的压制和优待，就会出现极其不透明和不公平的机器学习系统。在过去 30 年中，这些特征已经渗透到人工智能领域里了。与此同时，世界正在经历贫富差距的指数级增长和化石燃料导致的气候变化。这些问题都根源于驱动资本主义的关键动力：压榨。用户参与通常也是基于同样的压榨思维，尤其是在机器学习方面。

这种参与并不是免费的

用户参与已经成为机器学习的重要组成部分，但在途径上存在问题。

一种途径是工作式参与。不管参与者的工作是否被认可，他们都在产生用于训练和评估机器学习模型的数据方面发挥了重要作用。

人们把拍摄的照片发到网上，而亚马逊的土耳其机器人等平台上的低薪员工会对搜集来的这些照片进行注释，使之成为训练数据。普通的网站用户在完成一个 reCAPTCHA（网站用于减少垃圾邮件和欺诈活动的工具）时也需要做这种注释。让一些看似是自动化的系统运行起来，需要大量的幕后工作，人类学家玛丽·格雷用“幽灵般的工作”来形容它们。这种参与在很大程度上并没有得到合适的补偿，甚至在很多情况下都没有得到承认。

另外一种趋势是咨询式参与，它在城市设计等领域很常见，在机器学习领域也越来越普遍。

但是这种方法通常只会在短期内产生效果，无法长期保持。因为考虑到知识产权的问题，所以很难让被咨询人真正去检测这些工具。因此，这种形式的参与往往只是口头表述性的。

更有希望的是将用户参与作为一种表达公正的理念。设计过程的所有成员在一起紧密地工作，并经常进行交流。公平公正的用户参与是一项长期的承诺，它注重来自不同背景的、长期发挥主导作用的群体指导设计产品，包括残疾人群体。这一概念具有社会和政治意义，但资本主义市场结构使其基本无法顺利实施。

机器学习让科技行业中的优先级情况更加普遍，其核心是规模和压榨。这让用户参与式机器学习目前更像是一种矛盾修饰法。大多数机器学习系统都默认带有监视、压迫和要挟（包括在工作场所中）的作用。这些系统也会强迫用户同意使用这些功能——例如，用户为了使用某些技术而不得不选择使用监视系统，一些默认设置也不利于用户保护自己的隐私。

有鉴于此，机器学习没有考虑使用现有的动力机制，而是采用一种压榨用户的方式来进行协作，这就不足为奇了。如果我们不注意这方面的话，用户参与式机器学习可能会触犯人工智能伦理，成为另一种用来合法化不公正的趋势。

更好的方法

我们怎样才能避免这些风险呢？这个问题不太好回答，但我们给出了四条建议：

承认用户的参与也是一种工作。现在许多人都在日常生活中使用机器学习系统，他们的参与大幅度维护和改进了这些系统，因此对系统所有者来说是有价值的。要承认这些用户带来的价值，在使用所有用户的贡献前都应征求他们同意，并给其提供退出系统的途径。

如果他们选择参与，就应得到补偿。这样做可能意味着系统所有者需要公开何时以及如何将用户行为生成的数据用于训练目的；这也将意味着为内容版主提供适当的支持，以公平地补偿那些幕后工作者，并开发货币或非货币奖励系统来补偿用户的数据和劳动。

让参与环境更加具体。技术人员必须清楚认识到他们所处的具体环境，而不是试图采用“一刀切”的方法。例如，当设计一个预测青少年和团伙暴力的系统时，技术人员应该不断重新评估他们在生活经验和领域专业知识基础上构建的方式，并与他们的目标对象合作。当项目所处的环境随着时间变化时，这一点尤为重要。记录过程和环境中的微小变化，可以形成长期有效用户参与的知识库。

例如，在设计用于临床护理的机器学习系统时，应该只咨询医生，还是应该同时咨询护士和病人？明确特定群体参与的原因和方式，可以使决策和关系变得透明、可问责和可执行。

一开始就做好长期的参与计划。随着时间的推移，如果用户能够分享和获得知识，而不单单是贡献知识，他们就更有可能坚持参与过程。这在机器学习中很难实现，特别是在专有设计案例中。

需要注意用户长期参与机器学习变得复杂化的紧张关系，并认识到合作和公正的发展不会一帆风顺。这些东西都需要不断维护，并且必须在新的环境中反复地表达清楚。

从过去的错误中吸取教训。重复产生有害技术的思维方式会造成更多的伤害。作为研究人员，我们需要提高跨应用和跨职业的横向思维能力。

为了促进这一点，机器学习和设计人员可以开发一个可搜索的数据库，以突出那些设计中失败的参与项目。这些失败可以与社会结构概念（如种族不平等问题）相互参照。这个数据库应该涵盖所有领域的设计项目，而不仅仅是机器学习领域，并且需要明确公开缺失值和异常值。我们通常可以从这类极端案例中学到很多教训。

我们非常乐意看到机器学习领域开始思考与公平公正相关的问题。但答案不应该仅仅依赖于用户参与。对有效解决方案的渴望困扰了科技界太久了，是时候面对压榨思维带来的挑战了。

这种参与并不是免费的

更好的方法

Recommend

宕机后，Redis如何实现快速恢复？-程序员麦冬

企业微信API：成员个性化新客户欢迎语的nodejs实现-11273856

kubernetes调整Node节点快速驱逐pod的时间-赵程的技术博客

浅谈数据库同步

领域驱动设计框架Axon实践

豆瓣读书被要求整改

苏州推出文明码

美国科技巨头起诉专利商标局

我们用婴儿拍的视频训练了个自监督模型，学到了高级视觉表征

图神经网络让预估到达准确率提升50%，谷歌地图实现新突破

About Joyk