专业测试告诉你，Alexa是个糟糕的医生

策划编辑｜Vincent 作者｜Katherine Ellen Foley 译者｜王强编辑｜Debra AI前线导读：我们适应新科技的速度太快了，人们似乎都忘了亚马逊的 Alexa语音助手诞生于 6年前。

Alexa的理念是为人们的家庭和办公室引入一位知识渊博、随时待命、无需太多人力打理的私人助理。只要说出 Alexa的名字，就能让她开始工作。我们现在无需打开笔记本电脑、平板电脑或移动设备，就可以为自己设置提醒、进行购物，并获得简单而重要的问题答案，例如获知我们早晨上班路上的天气状况。Alexa和依赖她的家庭智能设备在使用过程中变得越来越聪明，它们学会识别我们的声音、说话方式和常见需求。

Alexa取得了巨大成功，目前在美国约有 2000万家庭用户。据专家估计，亚马逊在美国占据了 70％以上配备语音用户界面（VUI）的“智能扬声器”市场份额。人们信任 Alexa和同类设备，将她们当作家庭成员，并托付给她们许多重要的任务，比如预订 Uber，或者唱歌哄孩子睡觉这样的私人事务。她高效、公正、可靠，基本具备了人类助理的所有优秀的品质，而人们无需担忧她会了解太多生活隐私。

由此来看，似乎 Alexa会是处理健康问题最理想的助手。但在这个领域，她还有很长的路要走。

更多干货内容请关注微信公众号“AI前线”，（ID：ai-front） 从搜索到语音的演化

在预约医生看病之前自诊症状是很有用的：如果得的只是可以在家治疗的小感冒，为什么要浪费时间和金钱去求医呢？因此皮尤研究中心 2013年的一项调查发现，超过三分之一的美国人至少通过互联网做过一次自我诊断，而英国的比例是四分之一。在全球范围内，2016年谷歌的总搜索量中约有 1％与健康有关。

当然，互联网“诊断”的效果远运比不上找医生看病来得好。我们很难在网上找到各种复杂问题的答案，就算找得到也不能保证它的正确性。互联网上与健康问题相关的答案往往是泛泛而谈或模糊不清。它们笼统地归纳了症状的各种成因，其中还会包括癌症——本来需要全面检测才能确诊这类疾病。于是人们很容易被吓住，可是去找医生看病来排忧解难是很花钱的，即使医院觉得病人没什么大问题，也可能会要求病人做详细的检查来排除各种可能性。这是在告诉病人，医院是非常重视病人的，保证他们在离开医院时能够感到满意。

另一方面，由于缺乏具体的答案，搜索引擎可能会忽略掉真正需要关注的关键症状。胃部剧烈疼痛可能是痛经或肠道易激综合症等各种问题引起的。如果你经常使用谷歌搜索，结果没能及时发现肠道易激综合征（一种需要终身治疗的慢性疾病），最后你肯定会后悔不如早点去看医生。

在谷歌上查询病症是非常普遍的事情，所以 Alexa引入这种功能也很自然。但是我们还不知道她是否可以与互联网上的工具展开竞争，是否与它们存在类似的问题。

如果用户在基于图形用户界面的操作系统上查询健康相关问题的答案（指的是我们日常使用的基于屏幕的系统，如 Android、iOS和 Windows），用户一般会使用搜索引擎，而搜索引擎会返回数以千计的结果。即使这些结果是经由隐蔽的算法进行过滤的，用户仍然可以查看信息的来源（如果没有信息来源，用户可以选择忽略它们），用户还可以交叉对比来自多个网站的不同答案。

Alexa的工作方式有点不同。虽然她很擅长处理简单问题，但她对复杂的医学世界了解得很有限，而且 Alexa通常只提供一个答案。用户不能像使用浏览器那样，在十几个标签之间来回切换，以确定到底是哪种热带寄生虫（也有可能不是）咬了自己。

用户可以通过有两种方式向 Alexa咨询健康相关的问题。第一种，使用内置的搜索工具，在这种情况下，她会引用一个“经过验证的可靠来源”。据亚马逊的一位发言人称，这些来源包括 Stats.com、IMDb、Accuweather、Yelp、Answers.com、Wikipedia和 WebMD。尽管 Alexa和亚马逊都没有告诉我们人工智能一般从哪里搜索到健康相关问题的答案，但我们可以合理地假设她是从 WebMD获取这类信息的。

另一种方式是安装亚马逊 VUI “skill”（类似智能手机上的应用程序），然后向这个 skill提问。亚马逊现在有大约 1000种与健康相关的 skill可供下载，其中大部分是免费的，水平参差不齐。它们中好点的也笨拙不堪，差的完全是伪科学贩子。

Quartz访问了 Alexa的 skill商店

Vanderbilt大学、MayoClinic和波士顿儿童医院等值得信赖的消息来源都在 Alexa商店（https://www.alexaskillstore.com/）中提供skill下载，但其他 skill的描述就含糊不清，并且没有明确透露它们的来源。我们在 2月份第一次报道这个故事时，我们联系了亚马逊，向他们询问与健康相关的 Alexa skill的审批流程，并想知道亚马逊是如何管理它们的。亚马逊发言人回复说，让我们给出一些想要调查的 skill案例，所以我们发送了一份当时正在测试的 19个 skill的清单。

亚马逊告诉我们，任何人都可以自己开发 skill并提交审查。该公司拒绝透露其 Alexa商店审核流程的运作方式，但也表示公司要求所有 skill都要符合亚马逊的开发者政策（https://developer.amazon.com/docs/custom-skills/policy-testing-for-an-alexa-skill.html）。对于健康问题相关的skill，存在三个约束：

skill不得从客户那里收集私人医疗信息
skill不能在命名或描述中表示它们能够挽救生命
skill必须附带免责声明，表明它们不提供“医疗建议”，并告诉用户在需要医疗服务时咨询医保服务提供方。

如果 skill没有提供这些免责声明，亚马逊有权从库中删除它（亚马逊拒绝透露他们是否真的这样做过）。一些 skill还（自主）附加了额外的免责声明：它们的信息可能是虚假的或仅用于“娱乐目的”。

2月份，亚马逊审查了我们发送给他们的清单上的 skill，并发现其中一些缺少免责声明。很快，他们就在商店中隐藏了这些 skill，并将问题转发给 skill开发人员。

几个月后，也就是 4月中旬，Quartz分析了 Alexaskill商店中“健康与健身”类别下发布的所有 915种 skill，并找出了 65种没有免责声明的 skill。我们还重新检查了我们最初向亚马逊查询的 19项 skill的情况。截至本文发布时，有 18项 skill仍在商店中供下载，其中 17项都有免责声明。被下架的 skill是康宝莱，一个位于加州洛杉矶的直销项目，销售营养补充品和减肥产品。仍然没有免责声明的是 Medical Symptoms，2月份之后亚马逊就在商店里隐藏它了。

7月 2日，Quartz向亚马逊发送了缺少免责声明的 65项 skill的完整列表。该公司的发言人重申了他们在 2月份告诉我们的内容：虽然亚马逊不会阻止人们向库中上传 skill，但“公司会定期审核 Alexa的 skill，如果有不合规情况，我们会迅速与开发人员沟通并代表客户采取行动。“

当被问及亚马逊最近一次对 skill商店进行审核是什么时间，发言人告诉 Quartz说，所有 skill都是持续被审核的。

虽然亚马逊没有积极监控这些 skill，但通过强制所有 skill发布免责声明，该公司（至少在美国）对这些 skill给出的任何有问题的建议都是免责的。纽约城市学院法学教授 Paula Berg在一封电子邮件中表示，如果有人因为 skill提供的医疗指导而起诉该公司，“亚马逊会辩称客户已经知晓了风险”。

截至 7月 10日，前面提到的 65个 skill仍然缺乏免责声明。其中有些 skill是没什么风险，比如 My Toothbrush，它“通过一段限时的对话引导你在刷牙时不错过口腔中的每一个角落”。然而，有些 skill很显然会提供医疗建议。例如，MS Awareness Facts“可以让你找到有关 MS和症状的有用信息，同时带有可能有用的建议”，而 Chronic Disease Tips的开发人员将他们的 skill描述为“帮助慢性病人或帮助人们了解慢性病“。另一个 skill宣称自己提供与自杀相关的信息。

这样会有问题吗？

即使是有免责声明的 skill也可能存在问题。如果你下载 skill并在家用设备上激活它，可能会看到公司或组织的信息，还应该能看到医疗免责声明。但很多人并不会这么详细地调查 skill的背景。此外，不管 Alexa skill是谁安装的，任何家庭成员都可以使用它们，也无法确保每位家庭成员都会理解或质疑其他成员所下载 skill的来源。如果 skill不是某人安装的，他就更不可能去亚马逊商店阅读其免责声明了。

免责声明经常会在 skill的实际用途方面误导用户。为了更好地了解 Alexa商店中与健康相关的 skill所涉及的范围，Quartz调查了所有 915项 skill并将它们分成四组：

医疗保健：提供有关健康或医疗保健基本信息的 skill。例如它们会介绍某种药物中含有哪些化学物质，或某种保险的相关信息。
追踪器：作为健康追踪器的 skill。它们有些会提醒你按时服用药物，还有的会告诉你摄入了多少碳水化合物，或者上了多少次卫生间（假设你愿意告诉 Alexa这些生活细节）。
活动指导：为冥想、有氧运动和核心锻炼课程等活动提供指导的 skill。
诊断和治疗：声称可以诊断或提供治疗方案建议的 skill。它们包括症状检查，可以区分感冒和流感，诊断并提供治疗轻微疾病的建议，并告诉用户如何进行心肺复苏，等等。

尽管免责声明另有说法，但归类为“诊断和治疗”的 skill显然有在提供建议。如果你问一个有关症状的问题，而 skill的回答包含了诊断建议，这还能算是“娱乐”吗？

Quartz在这个分类下测试了 16项 skill，向它们询问了 14个理论上会影响身体各个部位的症状。（“诊断和治疗”共有 19项 skill，但有 3项与特定付费产品相关，需要账号登录，因此被排除在我们的最终分析之外）。然后，我们请两位独立医生评估它们给出的答案。

在这 16项 skill中，只有 10项能够给出至少一个有效答案。一般来说，skill在流感、喉咙痛和腹泻等症状上能给出详细的预后，不太常见的症状得到的答案则比较少。

与这些 skill的交互都遵从以下这两种模式之一：第一，skill在你说话时识别关键字，对这些关键字执行数据库搜索，并从其数据库中获取与关键字相关的内容。我们测试的 16种 skill中有 9种属于这一类。剩下的七项 skill中，语音助理会同用户对话，询问一系列问题，并将问题缩小到最可能的诊断范围，然后提供治疗方案。

在第一种交互模式中，skill一开始会尝试从用户的问题中提取正确的关键字。有时这是一项简单的任务。当我们问“我怎么知道自己是否患有流感？”，九项 skill中有七项能够将“流感”识别为正确的关键词，然后从数据库中找到合理的答案。

然而，另外两项 skill甚至未能回答这个看似简单明了的问题。当我们向 Mayo Clinic的 skill提出这个问题时，Alexa开始喋喋不休地谈论“被细菌污染的食物或水”，直到我们命令她“停下来”。进一步的测试显示，尽管“流感”大致上不在 Mayo Clinic的数据库中，但数据库里应该是有“胃部流感”的。可 Alexa如何能在这样的细节层面上区分它们呢？

然后是 Zana AI，它似乎更擅长识别鸟类而非人类的症状。它回答了流感相关的问题：“禽流感是一种在鸟类中传播的传染性病毒。在极少数情况下，它会影响人类“。当我们向总部位于德国的人工智能公司 Zana询问为何他们的 skill给我们提供”禽流感“信息时，其联合创始人兼首席执行官 Julia Hoxha告诉我们，关键词”流感“在数据库中产生了四个可能的结果， “禽流感”是数据库搜索得到的第一个结果，也是在我们的测试期间 Alexa返回的唯一答案。

这是一种模式：基于数据库驱动的 skill往往难以从我们的 14个问题中挑选出正确的关键词。我们试图通过重新描述问题来解决这些问题，结果发现，我们在描述症状时必须非常具体才有可能获得有用的信息。问“为什么我的头部左侧受伤”这个问题得到的答案远远少于专门询问“头痛”问题得到的答案。

其他情况下，似乎 skill会用冗长、充斥术语的回复来掩盖它们糟糕的调查能力。当我们问 Virtual Nurse“为什么我的左侧头部会痛”时，“护士”啰嗦了五分钟，列出了所有可能的原因，包括紧张性头痛、过度使用止痛药导致的头痛和偏头痛等，还为每种情况给出了治疗建议。当我们听到最后，我们根本无法回想起前面的治疗建议：感觉 Alexa刚刚背诵了医学院教科书的整个“头痛”相关章节。

Lowaire公司（Virtual Nurse的开发商）的董事总经理 Adam Coley表示，用户要求往数据库中添加新的医疗问题，他们接受了用户的要求。到目前为止，他们已经增加了 900多个科目。Coley说，Virtual Nurse理解人类语言随意性的能力每天都在提高，因为他们为 AI提供了更多的数据。

还有一些 skill试图以模仿现实世界中医患互动的方式与我们交谈。有时这很有效：由 Vanderbilt大学研究人员设计的 The Flu Tool，能够在向我们提出八个问题之后正确诊断出“普通感冒”。

其他情况下，这些会话 skill并不是那么好用。例如，由旧金山一家同名创业公司开发的 GYANT在提供诊断之前让我们回答了 25个问题。除了与症状相关的询问外，GYANT还要求提供一些个人详细信息，包括年龄，性别、地点和既往病史。它会问你，“以下任何一项适用于您吗？HIV阳性、癌症、化疗、器官移植、脾脏受损或无脾脏、慢性类固醇治疗、多发性硬化症“。回答这一串令人莫名其妙的问题时，我们根本不知道后面还有多少问题在等着你，于是在它给出答案前，我们的耐心已经消耗殆尽了。

最终的答案也不是特别有用：“这是我找到的可能原因，你可以问我更多关于它们的信息：感冒、急性上呼吸道感染或病毒性咽炎“。这三项结果中有两项是专业术语，而且没有进一步的解释，那么你如何能回想起一个你从未听过还不会发音的医学术语？还不如用谷歌搜索，这样花的时间更少，得到的结果更清晰。

我们询问了一些 skill开发人员，为什么用户会得到这些莫名其妙的答案。有的开发者说，skill并非为回答我们提出的每个问题而设计的。Mayo Clinic的一位发言人写道：“在设计这个 skill时，我们考虑的是急救用途，目前不包括对流感等常见病毒感染的治疗”。虽然她也没搞明白关于胃部流感的回复是怎么回事，但她表示，skill一定是根据我们的问题判断出这是一种疾病的急性症状。我们也不知道这些答案对怀疑自己得了流感的病人究竟有什么用。

Alexa医生 vs 人类医生

我们的测试表明，Alexa健康 skill顶多能提供普通的健康建议。帮助我们评审分析的医生也同意这个观点。

Cate Mackenzie是加拿大新不伦瑞克省 Everett Chalmers地区医院的家庭医生指出，Alexa skill提供的治疗建议一般都很好，但对于特定的患者群体可能具有危险性。例如，WebMD建议将服用“对乙酰氨基酚或布洛芬等非处方止痛药”作为偏头痛的治疗方法。Mackenzie指出，“有些患者不应服用对乙酰氨基酚或布洛芬”。根据过敏史或既往病情，这些药物可能会引起并发症，而不是减缓病情（这些信息可以在 WebMD网站的偏头痛治疗部分轻松找到 https://www.webmd.com/migraines-headaches/migraine-treatment#1）。

乔治城大学的神经学家 Tian Wang也觉得结果令人感到沮丧。他在一封电子邮件中写道， “这些答案听起来像是从维基百科提取的信息（其中还包含大量不正确的信息），它们使用的是非常简单的‘是’或‘否’算法。据我了解，这些都是糟糕的答案。如果这是硅谷能提供的最佳产品，那么机器想接管我们的工作仍需要走很长的路。“

Mackenzie和 Wang都对 GYANT skill特别不满。其他 skill只是给出诊断的描述或可能的治疗建议，GYANT则会详细询问用户，让用户误认为它给出的结果非常专业。

Wang说，“乍一看，GYANT好像很聪明，但这却是病人遇到的最糟糕状况。在医学院和住院医师培训期间，我们一再被告知，最差的方式就是向病人提出引导性问题，要病人回答‘是’或‘否’，因为这会误入歧途并影响我们的临床判断。首选问题应该是开放式的，比如‘告诉我更多关于你的疼痛’之类的问题，因为我们并不会预判一个人的疼痛应出现在何处或感觉如何。“

根据开发该 skill的公司联合创始人 Pascal Zuta的说法，GYANT不是像医生那样从经验中总结答案，而是依靠数据来提出最合适的问题。 “我们付出很多努力来让 skill以正确的方式提问”，他还指出，公司会查看每个问题的答案并将其与“症状或病情流行的统计数据”进行比较，以便找出其 skill可能不甚理解的问题。

我们测试的 skill都没能有效地处理开放式问题（例如“为什么光线会让我的头痛更严重”），不过 Zuta说 GYANT最近发布了一项功能，允许用户进行自由反馈，并记录这些反馈，用于将来的训练。Zuta声称，如果数据集足够大且足够全面，那么该公司的 AI就能教会这些 skill回答开放式问题。

但即使一项 skill可以学会准确地回答医学问题，也不意味着医生就会失业。skill描述中的免责声明应该提醒用户，skill提供的建议并没有得到医生的认可。

也许医生相比现有技术的最大优势是在医院看病时的真实互动。医生亲眼观察病人能帮助他们提出机器永远想不到的问题，而不是问一些机器会问的无意义或误导性的问题。

例如，患者可能会因持续头痛而拜访医生。医生可以询问患者他们是否疲劳过度，患者可能会说没有。但在医生的办公室里，病人的身体表象等因素可能会提示医生需要检查一下病人的体征，比如血压。反过来，这些指标与头痛主诉相结合，可能让医生诊断出病人患有睡眠障碍。与 Alexa skill进行相同的对话却可能导致 AI忽略“睡眠”这个问题。

Alexa能起到作用的地方

从 Alexa目前的状态来看，她在今天的医疗保健领域（不包含诊断）中扮演着有意义的角色。我们知道人工智能能够追踪语音模式，所以不难想象，我们可以改进语音助手，让她学会询问和了解主人的睡眠、饮食、运动和语言习惯，这样在出现异常时就能立刻给出警示。理想情况下，AI可以提醒你去看医生，或者直接连入医生办公室并为你预约。

然而，这需要 Alexa和她的 skill在功能上作出结构性的改进。目前，Alexa不符合健康保险流通与责任法案（HIPAA），这意味着，在美国她无法合法地与任何人分享你的健康数据，甚至不能让你的医生知道。 6月份，亚马逊推出了一项名为 Neptune的服务（http://www.healthcareitnews.com/news/aws-releases-amazon-neptune-help-health-organizations-build-apps），以帮助其他组织构建安全的应用程序。虽然亚马逊拒绝对Neptune发表评论，但其网站服务页面上的现行政策表明，它“与我们的 HIPAA风险管理计划保持一致”。未来 Alexa可能会逐渐改进，从而在预防性医疗服务领域发挥作用。

此外，亚马逊似乎正在悄悄培养一支真正的健康团队来改进其语音助理服务（该公司拒绝评论该团队将采用哪些具体产品）。如果 Alexa skill能够处理实际的对话，而不仅仅是基于关键字来生成回复或者在决策树中找到下一个分支，那么它们可能会在不久的将来在家庭诊断中占有一席之地。甚至有一天，它们可能会成为人类医生的替代方案，尤其是涉及性健康之类人们感到尴尬的问题时更是如此。毕竟，你可能会更诚实地与没有预设立场的机器交谈，这可能会让结果更加准确。 Mackenzie说：“我认为对于想要去 ER治疗足癣，或接受 STI检测的病人来说，这类技术可能会很有用。”

但就目前而言，这些 skill实际上顶多算娱乐消遣，而且它们并不是很有趣。

英文原文：

https://qz.com/1323940/alexa-is-a-terrible-doctor/

今日荐文

点击下方标题即可阅读

机器学习是统计学旧汤换新药？非也

课程推荐

人工智能时代，如何快速且有效地入门？需要哪些数学基础？怎样掌握机器学习主要方法？工学博士、副教授王天一在他的《人工智能基础课》里，会带你巩固人工智能基础，梳理人工智能知识框架，了解人工智能的最佳应用场景。

现在订阅，有以下福利:

原价 ¥68，新用户立减 ¥30
每邀请一位好友购买，你可获得 ¥12 现金返现，好友也将获得 ¥6 返现。多邀多得，上不封顶，立即提现。

点「阅读原文」，订阅专栏

如果你喜欢这篇文章，或希望看到更多类似优质报道，记得给我留言和点赞哦！

今日荐文

机器学习是统计学旧汤换新药？非也

Recommend

一文看懂如何将深度学习应用于视频动作识别

“网络兼职刷单”骗局：拿佣金为诱饵受害人陷骗局

高级 Android 工程师的进阶之路

React 学习路线图 - 2018版

论低于 12px 字体处理方案

“华北第一操盘手”梦醒

转基因玉米违规种植，深层原因到底是什么？

来看看这家“疯狂实验室”有哪些稀奇古怪的新点子

GitHub - tsoding/nothing: A simple platformer about nothing. No Engines, no Box2...

我想要一个这样域名的邮箱，嘤嘤嘤

About Joyk