语音交互——对话设计原则

编辑导语：对话设计是语音交互设计中的重要环节，有效的对话设计可以让用户拥有更加流畅的体验，并在帮助用户解决相应问题时，给予用户一定的温度感。本篇文章里，作者总结了人机交互中对话设计的原则与注意事项，一起来看一下。

为用户解决问题，建立有温度的对话交流是设计师的共同愿景。对话设计是语音交互中最重要的一环，也是最能体现智能助手智商和情商的一环，它将直接影响用户和计算机之间的交流。

笔者按照自身经验，以及Google、亚马逊和阿里提供的语音交互设计指南，总结了以下内容供各位设计师作参考。

对话设计前你需要了解的事项：

一、考虑计算机的局限

语音交互设计是设计人类和计算机之间的对话，因此我们在设计前要考虑技术的优势和不足。

在很多方面，计算机都很容易超越人类，它们可以快速找到并共享信息；不厌倦被问到重复的问题，不会被命令给冒犯到。

但是计算机在很多方面都不如人类。技术的局限性引入了人与人对话中不会发生的场景，例如人机对话时需要以特定的单词或短语开头，例如“Ok Google”；用户说的话需要转变为结构化数据才能被计算机理解，中途出现一些不稳定因素都会导致计算机理解失败，这些局限性应该提前提示用户。

另外，当你的语音系统还达不到很聪明、随意交流的程度，那么就不应该让用户误认为它可以达到。提前让用户了解到语音系统的局限可以规避用户问一些千奇百怪的问题。

二、确认用户场景

为了实现个性化和场景化设计，我们可以通过技术手段获取用户地址、时间和用户身份（包括声纹、用户注册信息）等信息，在设计对话脚本前我们需要考虑以下几个场景相关的问题：

用户在哪里？所处的环境是怎样的？
用户正在做什么？
用户使用的是什么设备？
用户要完成什么任务？目标是什么？
用户的期望和意图是什么？

三、明确你要设计的技能是什么？

不同类型的技能面向不同的用户群体和用户场景，在设计前明确要设计的技能是什么。

2019年亚马逊Alexa的技能总数已经超过100，000项，技能类型包括娱乐游戏、新闻、教育、生活、趣味搞笑、效率、天气、音乐影视、智能家居、运动、饮食、财经、当地、旅行交通、电影电视、公共服务、社交、购物、车联网。而音乐影视、游戏娱乐、生活和智能家居19种分类，而音乐影视、游戏娱乐、生活和智能家居技能占绝大多数。所有的技能都可以分为播报型、指令型和互动型三类。

1. 播报型

为用户提供内容服务，例如音乐、新闻、百科、食谱、故事等等。

2. 指令型

为用户和生活服务建立一座工具桥梁，帮助用户解放双手，通过语音就能控制家居、发送短信、叫外卖等等。

3. 互动型

用户通过多轮对话的方式与设备交互。主要用于在娱乐领域，如问答测试、情景探险、识图对话、听音唱歌等功能。

2019年亚马逊Alexa团队针对用户评论、评分、参与度、用户体验和创新性5个维度公布了Alexa十大技能，都属于播报型和互动型技能，其中七项是游戏和问答测试类型，另外三项分别是Spotify音乐，导游冥想和TED演讲。

四、明确你要设计的对话类型是什么？

不同的技能对应着不同的对话类型，从应用场景的覆盖面看，对话类型可以分为开放域（Open-domain）和封闭域（Closed-domain）两大类。

开放域对话类型没有太多限定的主题或明确的目标，用户和语音助手之间可以进行各种话题的自由对话，它更像一种图灵测试，难度很大，需要大量的知识库和复杂的模型，一般用于闲聊场景。

封闭域对话类型通常会限定在一定场景之下，有若干明确的目标和限定的知识范围，目标也更加清晰明确，例如正常人不会和电商导购交流情感问题。

正因如此，封闭域对话类型对对话的质量要求更高，错误的容忍度更低，它需要一个垂直领域建立的模型和知识图谱。封闭域对话类型一般用于任务、问答或者娱乐场景。

基于以上的总结，对话类型主要分以下四种，它们有各自的特点。

1. 任务类型

任务类型的对话指在特定条件下为带有明确目的的用户提供信息或者服务。

在智能家居场景下，一般可以通过单轮对话实现设备的操控。如果用户的需求需要多轮互动，那么任务类型的对话需要通过询问、澄清和确认来帮助用户明确目的。

任务类型的对话主要用于智能助手应用上，例如Siri、小爱同学和天猫精灵。

特点：设计起来比较复杂，非常依赖意图识别技术，通常使用意图识别+多轮对话+对接内容提供商的API和知识图谱。
目标：用最短的对话轮次来完成用户的任务，通过对话所获取的信息转换成需要的参数。比如“明天北京天气怎么样”。地点是北京，时间是明天，意图是天气。这些都要在意图设计时提前设计好。

2. 问答类型

问答类型的对话需要回答“怎么设定闹钟”、“什么是巡航系统”等问题，而这些问题也是一种任务，所以问答类型和任务类型的对话有一定的相似性。

问答类型的对话一般用于客服机器人上，例如京东的JM客服机器人和阿里的云小蜜客服机器人。它们能和用户进行基本沟通并自动回复用户有关产品或服务相关的问题，当问题回答不了时可以转向人工客服，降低企业客服运营成本的同时兼顾用户体验。

特点：意图设计非常简单，一般抓住关键词“为什么”和“是什么”即可，然后通过FAQ+对接内容提供商的API和知识图谱回答用户的问题。
目标：用最短的对话轮次来回答用户的问题。

3. 闲聊类型

前面提到闲聊类型的对话属于开放域类型，因此它是一种没有明确目的的对话，语音助手不知道用户下一句话会说什么，主要根据用户对话中出的关键词进行回复。闲聊类型的对话一般用于智能助手应用上。

特点：不精准，不可控。机器的回复会在闲聊库当中，通过检索给出相应的回复。
目标：对话轮次越多越好，一直聊下去就行。

4. 游戏/娱乐类型

游戏/娱乐类型的对话结合了任务和闲聊类型的特点，还要结合游戏类型、趣味性等因素进行设计，一般用于智能助手应用上。

特点：脚本分支多，游戏型还需要考虑故事线，设计起来比较复杂。
目标：让用户放轻松。

五、提前定义好智能助手的人物设定

智能助手的人物设定会影响回复话术的设计，所以提前确认好智能助手的核心关键词和画像可以避免后续回复话术的修改。

六、了解对话的关键因素

Google的设计师通过解构那些我们习以为常的自然对话中的规则和惯例，挖掘出一个好的VUI对话的关键因素。

在语音交互设计指南Actions on Google Design中提到，构建一个好的VUI对话需要考虑以下4个部分。

1. 话轮转换（Turn-taking）

在对话交流中，我们会在一些往返的微妙信号中轮流说话。如果没有有效的轮换，会导致对话过程中双方同时说话，或者对话内容会不同步并且难以被理解的情况。

因此轮到用户说话时，智能助手应该发出清晰的信号，例如音效提醒。用户说话时智能助手不要贸然强行打断。如果是询问用户问题，那就不要在用户回答的时候又突然插入一些其他问题或者指令。

2. 对话线索（Treading）

在自然交流中，对话中的上下文、对话随时间演变的方式等对话元素都会连贯地交织在一条主线上。对话中的对话线索可以帮我们更容易跟上对话流的节奏。

3. 利用语音固有的效率

人们经常使用较为简短的口头表达方式，因为他们能够洞察出大家在说什么。基本上我们都可以感知出一个对话中的“言外之意”，也知道有些东西是不需要被直接说出来的。但是VUI中的隐喻必须能够弥补人类语言中看似不合逻辑、非理性的部分。

4. 预测不同的用户行为

人们会用不同的词语和风格去描述同样的事情，这取决于他们自己的情景语境和自己早前经验产生的对 VUI 的预期，因此 VUI 应该支持这些差异，用户才能拥有一个无损的体验。

七、遵循会话“合作原则”

有研究表明，人们对技术的反应就像对另一个人的反应一样。这意味着用户在和智能助手交互时，也会依赖他们现有的人与人对话方式。

美国语言哲学家格莱斯（Paul Grice）认为，在人们交际过程中，对话双方似乎在有意无意地遵循着某一原则，以求有效地配合从而完成交际任务。因此，格赖斯提出了会话中的“合作原则”，语音交互可以考虑跟从对话合作原则进行设计。

量的准则：所说的话应该满足且不超出交际所需的信息量。
质的准则：不要说自知是虚假和缺乏足够证据的话。
关系准则：所说的话要贴切, 要与交谈目的和方向有关系，不说不相干的话。
方式准则：所说的话要简洁明了,别拐弯抹角产生歧义。

然而，人们在实际言语交际中，并非总是遵守“合作原则”，有些时候人们会故意违反合作原则。格莱斯把这种通过表面上故意违反“合作原则”而产生的言外之意称为“特殊会话含义”，它是需要依赖特殊语境才能推导出来的含义。

举个例子：A和B在谈论一部电影。

A：“你觉得这部电影怎么样啊？”

B：“场面倒是很壮观，服装也很耀眼。”

表面上B并没有回答A的问题说出这部电影怎么样，但是不可否认的是，B的话语有自己的内在意义。B的回答暗指除了耀眼的服装和壮观的场面，电影本身并没有什么吸引人的地方。这内在意义需要通过语境推断出来，这样的含义就是特殊会话含义。

尽管大部分的幽默源于特殊会话含义，但我们在设计脚本过程中，尽量避免使用这种对话方式，避免用户一时半刻理解不了这句话的意思。

八、对话不存在“出错”的概念

逻辑和准确性不是万能法则，人类口语表达通常会呈现出各种毫无道理的话。用户任何请求都是有目的的，他们总是希望完成某些任务，即使没有明确说出来。

这时候，不要管用户说了什么，不要把它当成是一个错误来处理，而是考虑如何把它转变为一个机会，把它当做是对话中的转折点，用新的方式来处理，从而推进更顺畅、更自然的沟通。

以下方法有助于把“错误”转化为对话交互中自然的一部分：

不要把技术上的“出错”当做用户的错误。
对于不同类型的“出错”提供对应适合的处理方式。
通过提供帮助来避免出错。
要知道在什么情况下放弃。
使完成任务的路径更强，来掩盖错误。

#专栏作家#

薛志荣，微信公众号：薛志荣，人人都是产品经理专栏作家。畅销书《AI改变设计-人工智能时代的设计师生存手册》作者，全栈开发者，专注于交互设计和人工智能设计。

本文原创发布于人人都是产品经理。未经许可，禁止转载

题图来自 Unsplash，基于CC0协议。

给作者打赏，鼓励TA抓紧创作！

一、考虑计算机的局限

二、确认用户场景

三、明确你要设计的技能是什么？

1. 播报型

2. 指令型

3. 互动型

四、明确你要设计的对话类型是什么？

1. 任务类型

2. 问答类型

3. 闲聊类型

4. 游戏/娱乐类型

五、提前定义好智能助手的人物设定

六、了解对话的关键因素

1. 话轮转换（Turn-taking）

2. 对话线索（Treading）

3. 利用语音固有的效率

4. 预测不同的用户行为

七、遵循会话“合作原则”

八、对话不存在“出错”的概念

#专栏作家#

Recommend

电脑技术：macOS 读写 NTFS 盘的几种方法

电脑技术：可运行在ARM设备上的Linux系统——Armbian

快手打响了「反内卷」的第三枪，互联网大厂们风向怎么突然变了？

VoIP-Pal again accuses Apple of patent infringement in new lawsuit

运营人如何写一份优秀的活动策划？

技术8年转产品经理，这1年我的经历

【茶包射手日記】.NET 3.5 TLS 1.2 踩雷記

TouchArcade Game of the Week: ‘Baba Is You’

Windows 測試 TCP 連線，比 Telnet 更好的方法

Chris's Wiki :: blog/programming/GoAndDeprecatingGoGet

About Joyk