谷歌对话式交互规范指南系列：对话式界面的概念和机制

2017-8-22 资深UI设计者

如果您想订阅本博客内容，每天自动发到您的邮箱中，请点这里

语音交互是一个全新的体验设计领域，目前各家机构、公司、设计组织还处于摸索设计范式的阶段，Google提供了一份非常成熟、系统的交互规范文档，其中包含了核心概念的诠释以及诸多可以指导设计的实践原则。最近正在做的项目中涉及到语音交互的部分，所以顺手将这份文档翻译出来，给需要的设计师参考。

我的译文尽量的贴合文档中原有的表意，同时基于我个人对语音交互的理解对表达文字进行润色。其中有个别概念名词比较抽象，所以我也旁边附上了英文单词，以便大家理解。

我们正在进入一个有光明前景的全新计算领域，机器学习和人工智能激发着对话式界面和自然语言的进步，同时使对话式交互成为一种新的交互模式。

目前，识别语音输入的相关问题已经大部分得到解决，而现在我们面临一个新的挑战：如何构建一种继承人类自然语音会话的用户体验模式。

本站内容涵盖了关于对话的核心机制，介绍了核心的设计原则，并提供一个可实践的UI工具，帮助你为用户创建有吸引力、令人愉悦并有实际价值的对话式用户体验。

一. 对话的基础概念

通过对自然对话中我们几乎无意识遵循的规则与惯例进行解构，我们总结出一些形成良好对话的关键要素，包括：

1. 轮流（Turn-taking）

在对话中我们基于互相来回传递的微妙信号进行轮流表达。如果会话中缺少这种有效的轮流互换，我们就有可能难以保持信息的同步或无法跟上对方的节奏。

2. 串联（Threading）

在自然语言中，对话的元素通常会被连贯的串联在一起，包括上下文以及随时间演进的对话方式。这种串联帮助我们跟进会话过程。

3. 利用语言的潜在效率

人们经常会用简略的口语交流，因为他们可以了解其中的含义。我们在对话中自动补全那些句子之间那些“没有被说出来的”潜台词，有些表达可以不言而喻。但是与软件系统进行对话，就需要弥补人类语言中那些似乎不合逻辑的、无法被计算的自然属性。

4. 预估用户行为的多样性

对同样的内容，人们会根据情景上下文和对话的期许，采用不同的词汇和方式来表达。所以对话式UI应该考虑支持这种多样性，以便所有用户都能够无障碍体验。

设计师不应该仅仅关注所谓的“愉悦路径”（happy path），而是要在所有场景中创造稳定的体验，即使是那些看起来像是”出错“的场景。在任何对话中，都可能出错，就像人们经常会发现和修复自己的错误一样，设计师必须也应该可以在对话的过程流中修复出现的问题。

二. 理解合作式行为（cooperative behavior）

轮流表达、上下文和串联是合作式会话的组成部分，这是由哲学家保罗·格里斯（Paul Grice）普及的一个概念。格里斯把它称为合作原则（Cooperative Principle）。他还创建了“格里斯原则”，来诠释他所观察到的会话中的原则——人们的交谈应该尽可能的真诚、详实、有相关性并且清晰。

对话式UI应该尽量的遵循这些固有的合作原则，也要准备好同时支持那些有过不良对话体验的用户。

三. 解锁口语的力量

好的UI体验不会被限制在一个固定的脚本中，也不应该像过去的触摸式屏幕交互那样强迫用户沿着单一路径去操作。对话式UI应该聚焦到发挥语言和表意的强大力量，采用人们日常的语言来交流，而不应该为了把用户束缚在“愉悦路径”上而去“教导”用户。另外，也要尽量避免说那些显而易见的东西，或是以高高在上的语气说话。人们不会喜欢那种听起来比他们自己要聪明的设备。

四. 向用户传递信心

好的UI也意味着确认用户的输入和管理用户的预期，以便获取用户的信任、传递信息。

当用户提出请求，在UI体验可以进行确认——用类似“OK”、“Sure”、“Alright”、“Thanks”或“Got it”的短语进行反馈，来表示接收到指令和正在聆听。随机的确认语可以让体验更加流畅自然。

进行反馈后，系统可以请求显性或隐性的确认。通过显性的确认（通常在重要任务的场景中，如订购机票），UI会在进行下一步之前请求用户的口头确认。

而在隐性确认中（通常适用在低风险的场景，如播放一首歌），UI会将用户请求中的关键信息融入到自己的反馈中，来给予用户反馈，向用户传递信息，这种确认不需要用户的口头确认。

未来的二十五年，没有人会再点击下拉菜单，但是人们还是仍会指着地图、互相纠正对方的话，这是最基本的。好的信息软件在处理信息时，会更贴近人类本来的方式，而不是电脑。 ——Bret Victor, Magic Ink

目前，多数用户界面开始呈现出科幻小说中所描绘的关于未来的图景——充斥着人工智能以及与智能机器人和工具之间更轻松的对话。

我们如何做到这些呢？

首先，在最开始，我们要教会机器与人类对话。

值得注意的是，对话沟通帮助我们的文明发展到了今天的状态。所有的人类发明都源自于我们通过语言沟通出来的灵感，这是一种在很长的时间中进化出来的能力，事实上超过了10万年。而书写能力也才进化了5000年，更别说智能计算了。

所以很显然，人们不可能在短时间内改变他们说话的方式，此外，人们自然而然形成的关于对话的判断标准也不可能轻易改变。

我们有意或无意的，都会在谈话中遵循某种特殊的规则或惯例。如果我们能够对良好舒畅的人类对话进行解构分析，我们就可以找到构建更好的对话式UI体验的方法。

轮流（Turn-taking）

有一点很明显，却相当重要，就是轮流是谈话的手段，其中包含了我们认为理所当然的一些微妙信号。语法可以帮助聆听者预判出适时给予回应的时机，而韵律——结合节奏、音量、音调和停顿的信号，可以表明何时是轮换的关键点。人们利用这些提示线索可以互相传递对话的主动权。如果缺少这种有效的轮流方式，我们就无法顺畅的交流、保持同步。

合作原则（The Cooperative Principle）

语言哲学家Paul Grice（他的工作也被应用到人工智能领域）曾说过，人们需要以合作的方式表达，以获得他人的理解。他提出了一些基础的合作性对话原则，称为格里斯原则，其中指出人们的谈话行为需要真诚、详实、与当时的场景有相关性以及清晰。

语义与语境

对话的含义与所处的语境密切相关。然而在通常的对话中，我们没有说出来的潜台词往往也会传递出含义。

例如你问一位朋友：”你周六可以来参加聚会吗？”，她回答：”我目前要上夜班”。你的朋友在暗示她不可能同时去两个地方，所以你可以推测出她不会来参加聚会。

再比如另一个场景，当你被问到要为多少人预定时，你说：”哦只有我和我丈夫”，这样意味着你期望对方能够推测出你要预定的数量是两个人。

如果我们没有这些谈话的预设和原则惯例在运作，我们就会不得不在口头上表述很多内容，来让对方理解。

串联（Threading）

对话中的所有元素都应该被连贯的串联在一起。能够理解欣赏笑话幽默的人都知道，在谈话中的每个回合都要注意上下文的相关性，并加强整体的交流。

为了成功的做到这一点，设计师应该保持对每一个对话回合的理解，例如下面的对话就是一个回合。

对话回合也不一定就是一问一答式的。从聆听者角度的表达也可以形成对话回合：

以及上文提到的支持或否定的句式：

如果对话UI没有产生这些对话回合的串联，那么对话就会不流畅，或不容易理解。所以串联是创造一种可以吸引用户的良好体验的重要手段，就像下面的这个例子：

修复

对话失败有可能是因为双方缺少共同的认知背景。而如果对话不符合格里斯的合作法则，也可能会导致错误的表意。例如，当一个人被问到”你知道谁会去参加聚会吗？”，然后简单的回答”是的”，这就是不恰当不自然的表达，会使对话很难挽回修复。

即使在功能性的对话中，形式与内容也有可能是不准确、不得体或是荒谬的，需要修复才可以回到正确的轨道上。对话中任何一方都可以在对话的回合之内与外部修复这段对话，说话人通常能够发现和修复他们自己的错误。而对话UI需要能够根据交互的流程和自然属性来做出修复。

对话是构建UI的基础

对话是一种基于原则的协商互动行为。对话的参与方在丰富而微妙的语境下创造并认同语言的表意。理解这一点可以为对话式UI的设计提供一种理论模型。

蓝蓝设计( www.lanlanwork.com )是一家专注而深入的界面设计公司，为期望卓越的国内外企业提供卓越的UI界面设计、BS界面设计、 cs界面设计、 ipad界面设计、包装设计、图标定制、用户体验、交互设计、网站建设、平面设计服务

« “思维框架”理论，让我们更好地决策和解决问题。掌握这5个方面，让你具备真正的交互设计思维！ »