AI时代新篇章：用户体验设计的智能革命与未来展望

2024-6-19 鹤鹤

随着ChatGPT在23年初的火热，AI热潮已经开始席卷各行各业，人们对于AI的热情就像是看着第一款iPhone发布或者蒸汽机的发明，期待着它带来一场信息时代的工业革命。同时，AI替代60%岗位的口号也足以让相关从业者感到前所未有的压力与焦虑。在各大设计网站上，关于AI的内容肉眼可见的占据了越来越多的比重，包括AI在设计流程中的应用、各种AI最新工具等介绍、AI的使用技巧、AI生成的海报/插画等作品……一瞬间，似乎全民都投入到了AI的浪潮之中。

反过头来看，对于用户体验设计而言，由于产品的底层逻辑被AI改写，产品的生态、单个产品的形态、使用方式等都将发生翻天覆地的变化。连带着的，由于生产工具的变革，产品的设计、开发流程也将随之发生变化，进一步提高效率，对于从业人员的能力要求也在实时更新。

对于这样一种浪潮，埋头当个鸵鸟或者嗤之以鼻是没有意义的，我们需要看到、认识、拥抱它。所以有人笑称：打不过就加入。同时，对于各种所谓干掉各个岗位的宣传，也吸引着、推动着我们去了解将被什么干掉以及怎么被干掉。

从另一方面讲，只有在技术变革的时候，弯道超车才有可能。如果只是沿用之前的经验与技术，那么成熟的企业就会有先发优势。但是当面对新的技术变革时，大家被拉回到同一起跑线上，这个时候，就看谁能够找到正确的方向，率先突围。

所以，不管是被动也好，还是主动也好，面对着新一轮的技术变革，也希望从AI能力本身、所带来的变化、以后的发展等方面全面了解一下这个新的时代宠儿。

本文结构：

1 AI相关概念与术语

1.1 AI&AIGC

人工智能或者说AI，Artificial Intelligence。是用机器来模拟人的智能或者思维模式来完成各项任务目标。

从其工作的机制而言，目前主要分为两种：决策式人工智能，生成式人工智能。

决策式人工智能。根据已有数据进行分析、判断、预测，比如我们常见的抖音、头条、淘宝等的推荐算法。
生成式人工智能。通过分析现有数据来生成模仿、拼合、创造新的内容。比如当下最热的chatGPT、Midjourney、Sora等。

从能力角度而言，人工智能也可以分为强人工智能和弱人工智能。

强人工智能。通用型人工智能（AGI，Artificial General Intelligence）。能够像人类一样对不同领域进行记忆、推理和解决问题。领域间的知识与经验可以迁徙、借鉴，是“通才”。既可以写诗画画，又可以诊断疾病，还可以进行数学计算。
弱人工智能。在某一领域具备专业能力、解决特定问题，能力没法泛化，是专才。比如下围棋的AlphaGo，可以打败人类围棋世界冠军，但是没法回答你“白毛浮绿水”的下一句是什么。

AIGC（Artificial Intelligence Generative Content）

人工智能生成的内容，包括文本、语音、图片、视频等多种形式。

AI生成内容

1.2 AI Agent

1.2.1 人类与AI协作的三种模式：

嵌入（Embedding）模式：类似于L2级别的自动驾驶。人类占据主导，AI作为工具，执行某条具体的命令。
副驾驶（Co-pilot）模式：类似于L3级别的自动驾驶。人与AI共同参与，与人类之间互相协商、沟通，实现某一目标。
智能体（Agent）模式：类似于L4级别的自动驾驶。人类作为指挥者、监督者、评估者。AI作为独立的行动者，自主分析目标、拆解任务、尝试执行、对比结果与目标、优化执行步骤与方式并最终实施完成人类设立的目标。

AI与人类协作模式

1.2.2 AI Agent是什么

AI Agent是有能力主动思考和行动的智能体。让任务自动化，主要包括感知、记忆、规划与决策、行动/使用工具。

就像吴恩达在TED演讲中提到的：“许多工作包含不同的任务，AI自动化的是任务而不是工作。”与直接使用大语言模型相比，AI Agent能够依据目标分解复杂的工作流程，从而实现大语言模型的自我对话与运转，而不是简单地执行单一任务或者由人类来驱动任务的每一步。

AI Agent = 感知（Perceive）+LLM（记忆（Memory）+规划（Planning ））+工具使用（Tool use）/行动（Action）

AI Agent

感知是AI Agent使用传感器与周围环境交互，感知真实的物理世界，这个部分涉及到多模态的信息解析与处理。
记忆让AI Agent可以存储关于某些方向的专业知识以及交互过程中产生的信息，从而利用这些经验来支持、优化后续的决策与行动。
规划和决策就像是通过大脑进行分析，包含事前规划和事后反思。LLM在这里就类似于大脑。AI Agent让AI不再是执行单一的任务，而是自动将复杂的任务拆解为一个个可执行的子任务步骤，然后按照顺序执行，并结合感知与记忆信息在过程中不断试错、优化，最终得到满足目标的结果。
工具的使用就像是能力集成/封装，类似于APP将能力打包的逻辑（比如修图类app可以提高亮度、裁剪画面、改变色彩等等）。通过利用外部的资源或工具来执行任务，从而拓展AI Agent的能力边界。
同时各个AI Agent之间还能够彼此沟通、协作，通过不同能力之间的配合来发挥最大的效用。

AI Agent本质而言是一个更好发挥大模型能力的技术框架，是围绕LLM搭建的一套程序。让用户不再只是与LLM进行对话，而是根据场景，借助LLM 的分析、推理能力，制定解决思路并调用不同的工具的能力，从而解决问题或者达成既定目标。简单理解为一个会使用大语言模型能力以及各类工具来帮助人类解决问题的助理。

1.3 AI的算法

1.3.1 AI的三大流派

1.3.1.1 符号主义：

基于统计方法，通过建模预测让机器通过计算来模拟人的智能，实现识别、预测等任务

主要代表算法有：朴素贝叶斯，逻辑回归，决策树，支持向量机。

1.3.1.2 连接主义：

认为生物智能是由神经网络产生的，可以通过人工方式构造神经网络，训练神经网络产生智能。也就是模拟人的脑部神经系统，通过构建神经元与他们之间的连接，来构建一个可以学习、推理的神经网络。

主要代表就是神经网络算法。

1.3.1.3 行为主义：

认为生物的智能来自对外界的复杂环境进行感知和适应，通过与环境和其他生物之间的相互作用，产生更强的智能。也就是通过尝试与反馈来强化学习、改进系统自身的行为。

主要代表算法是强化学习。

1.3.2 目前主流的算法：

目前主流的算法都是基于神经网络和机器学习，在此基础上创新与结合。

1.3.2.1 神经网络（Neural Network）

人工智能三大流派中的连接主义的代表算法，通过人工方式构造神经网络，训练神经网络产生智能。最早起源于麦卡洛克-匹兹模型/M-P神经元模型（McCulloch-Pitts model）。

简单来说就是模仿人脑的神经元结构，构建一个函数集合作为基本单元，然后再互相之间加权拼接形成神经网络。一个神经元就是一个函数/规则，前一个神经元的输出作为后一个神经元的输入。

循环神经网络（Recurrent Neural Networks, RNN）

神经网络的一种。关键在于多一个隐藏层，可以将上一次的输出产生的输出作为这一次输入的一部分。简单来说就是能够记住上下文信息。

在此基础上演变出来的长短期记忆（Long short-term memory, LSTM），让模型可以去选择记住什么信息、忘掉什么信息，而不是越早的信息记忆得越少，或者无差别地全部记住前文的信息，避免短期记忆、梯度爆炸、梯度消失等问题。（梯度可简单理解为变化率）

主要用于语音分析、文字分析、时间序列分析。

卷积神经网络（ Convolutional Neural Network, CNN）

基本机构包含输入层、卷积层、池化层、全联接层、输出层。

卷积层的主要目的是识别与提取不同的局部特征。

池化层也叫降采样层，其本质是采样共享。简单来说就是通过用同一个采样值（最大值或者平均值之类）来代替那些差别不大的采样值，以便减少数据量。

主要用于图像识别、人脸识别等。

1.3.2.2 生成式对抗网络（Generative Adversarial Networks, GAN）

主要包含生成器(Generator)、判别器(Discriminator)。

生成器用于生成内容，判别器用于判断生成网络中产生的内容是真实数据还是生成的数据。

生成器要不断优化自己的生成数据让判别器判别不出来；判别器也要优化自己的判断能力，使其更准确；通过互相之间的对抗、制约来实现训练过程。

1.3.2.3 Transformer模型：

谷歌的论文《Attention Is All You Need》中提出一种神经网络模型架构。主要特点在于加入自注意力（Self-attention）机制来处理序列数据。

自注意力机制通过给长文本中每个词不一样的权重来判断每个词之间的相关性，从而判断整个文本中最重要的部分。

与RNN相比，Transformer会将一串序列中的每个词的意义及其位置信息结合起来传输给神经网络，从而让模型可以同时处理序列里的所有位置的信息，而不需要像RNN那样依次处理。这种并行计算带来的好处是大大提高了模型的训练速度，从而为大模型的发展奠定了基础。

1.3.3 自然语言处理（Natural Language Processing, NLP）

“语言理解是人工智能领域皇冠上的明珠”——比尔盖茨

自然语言处理（NLP）就是在机器语言和人类语言之间沟通的桥梁，终极目标就是让人和机器能够通过自然语言进行交互，也就是让机器能够理解人类的语言、文字等。

主要包含自然语言理解（NLU）和自然语言生成（NLG）。简单来说就是听懂人话和说人话。

1.3.4 机器学习（Machine Learning, ML）

所有的对象，不论人类、动物，甚至是无生命机械，如果接受外界信息的刺激之后，能形成经验反应，并影响日后的行为，那其实这个过程就已经可以称之为“学习”了。——《智慧的疆界：从图灵机到人工智能》

机器学习是实现人工智能的核心方法。从有限的观测数据中“学习”（or“猜测”）出一个具有一般性的规律，并利用这些规律对未知数据进行预测的方法。

简单来说，机器学习就是通过数据训练让算法掌握规律。

机器学习

1.3.4.1 深度学习（ Deep Learning）

机器学习的一个分支。使用深层次神经网络模型进行学习。深度是指模型有多个层次的神经元。通过逐层分解来解决复杂度较高的问题。

深度学习与传统机器学习最大的区别在于使用神经网络模型代替人工的特征提取过程，通过数据训练来优化模型的表现。

可简单理解为使用神经网络算法的机器学习。

1.3.4.2 监督学习（Supervised Learning）

有标准答案的学习。其基本思想是利用带有标签的训练数据来训练模型，从而使其能够从输入数据中学习到输入与输出之间的映射关系，然后可以利用这个映射关系对新的未打标签数据进行预测。

监督学习需要告诉模型：1. 事物的关键特征是什么（称为特征）；2. 那东西到底是什么。就像学生刷题，通过练习获得的经验来解新的题目。

1.3.4.3 无监督学习（Unsupervised Learning）

没有标准答案的学习。其目标是让模型从未标记的数据中自行发现共性、结构、模式、关联或者表示，而无需使用人工标签或者先验知识的指导。包括聚类、降维、异常检测等。

1.3.4.4 强化学习（Reinforcement Learning）

与监督学习、无监督学习类似，也是一种机器学习的方式。

算法不断的尝试、试错，反馈机制通过奖赏与惩罚告诉算法哪种是好的，哪种是不好的，从而规训其行为方向。简单来说就是奖励积极行为和惩罚消极行为。

美剧《生活大爆炸》中Sheldon就使用巧克力作为奖励，驯化Penny的行为。

美剧《生活大爆炸》剧照

1.3.5 大语言模型（Large Language Model, LLM）

是一种基于神经网络、机器学习、自然语言处理技术的模型，目前大部分知名的大语言模型都是基于Transformer架构。

它通过将每个词转化为向量输入到模型中，并使用大量的文本数据进行训练，让模型来学习服务人类语言理解和生成的能力。

大语言模型的【大】主要体现在训练数据与模型参数的大，从而需要更高的算力支持。

与传统的机器学习模型相比，大模型具有更强的表示能力和泛化能力，能够处理海量数据、完成各种复杂的任务，如自然语言处理、计算机视觉、语音识别等。

2 AI能力分析

2.1 人类能力地形图

机器人专家汉斯·莫拉维克（Hans Moravec）曾提出人类能力地形图的概念，其中，海拔高度代表这项任务对计算机的难度，不断上涨的海平面代表计算机现在能做的事情。

图源：https://qph.cf2.quoracdn.net/main-qimg-dfa49b90572af22a8b8e9ec7c02b8688

AI的发展，会逐渐淹没人类的特有的优势领域。最终，当AI开始具备设计人工智能的能力（AI Design），AI能力的推动将有AI自己的改进来推动，其速度会比由人类推动快得多。这也是所谓的“奇点”，到达奇点，人工智能将出现爆发式的增长。

就目前而言，人类与AI各有优势，所以人类与AI携手合作，发挥各自的优势，形成群体智慧，实现1+1> 2 才是最优解。

2.1.1 人类相比于AI，所拥有的优势：

自主创造、构思以及战略性规划、精细化决策
具有同理心，能够理解人类的情绪、情感
对于美的理解与感受
不同领域之间的经验可以迁徙、复用
具备常识
具有价值观、人生观、世界观，能够理解人类的行为与文化
可以完成精确且复杂的体力工作
可以轻松界定思考问题的框架，也就是哪些问题与任务相关，哪些无关

2.1.2 AI相比于人类，所拥有的优势：

没有情感等主观因素，比人类更理性，可以公正客观对待每个方案
可以在极短时间内完成超复杂的运算，从而产出大量的方案与探索结果
可以长时间不厌其烦做同一件事，而且不会累或者因为疲劳而降低准确度
记忆力好，积累的经验可以被随时调用

2.2 发挥各自最大的优势

对于AI将会取代人类，现在最常见的说法就是：

AI将改变或者消灭某些工作，同时创造出新的工作。
AI不会取代人，而会使用AI工具的人将取代不会使用AI工具的人。

让AI解放人类的双手，去做那些机械性、重复、无聊的计算工作。而人类则把时间精力投入到更有价值的工作比如规划、决策、制定目标、人际关系维护等。

当然，二者之间的工作并不是完全剥离、独立的，而是互相影响与沟通协作。比如，人类可以借用AI的数据分析能力、预测结果等增强自己的决策能力。

所以，一方面，人要学习怎么更好地使用AI，发挥AI最大的价值。另一方面，AI也要往增强人类能力、改善人类社会生活的方向发展。

3 AI能力加持后，产品/业务层面变化

3.1 产品边界变得模糊

3.1.1 物理世界与数字世界深度融合

数字孪生将物理世界映射到数字世界，具身智能机器人、自动驾驶等让数字世界操控物理世界。AI能力的强化则让二者之间的融合更加深入。比如京东AI数字人“采销东哥”，看面相几乎和真人无异，可以在直播间为大家介绍各种产品。如果再进一步，可以实时回答观众的问题，那就与真人差别不大了。

3.1.2 产品成为能力中心

产品之间的壁垒打通，成为能力插件，主要在于提供某种能力。比如小D想通过视频学习糖醋排骨的做法，那么AI所获取的内容可能会来自于抖音、快手、淘宝直播、小红书等等平台，或者整合各平台内容生成一个新的、针对于小D喜好的内容。平台成为底层信息的提供方或者说资源池，用户也无需在多个产品之间来回切换。

3.1.3 服务设计

由于AI对流程中每一个触点信息的掌握以及对于各项能力的集成，使得根据场景调用不同能力以满足需求成为可能。

产品的设计不止考虑单一的产品，而是要考虑与其他产品、能力、服务的配合。在使用环境/场景中，从用户的历程出发，满足用户在整个任务链路中每一个节点的需求。

3.1.4 流程自动化

产品与产品之间的互相衔接、流转也将自动化，无需由用户来推动。比如小D要出差，当他向AI提出这个需求时，AI一并将机票、酒店同步预定好，同时，在出差结束后，自动对接人事考勤、费用报销等产品能力，实现流程自动化。也就是依据场景将服务打包，用户触发一次就完成整个流程动作，无需到每一个系统/产品中分别去执行一遍操作。

流程自动化带来的也是效率和易用性的提升，用户的操作负担被大大减少。

3.1.5 B/C端差异减少

B端各流程节点之间的沟通、协作、传递也可以由【人-产品-人】的方式转变为【Agent-Agent】的方式。提高流程运转的效率，降低了B端产品的操作复杂度。

当用户与AI Agent交互，由Agent代替用户去直接面对、调用各个产品的各项能力，发起各种任务，B端产品和C端产品交互的逻辑会愈发类似。Agent对话式的交互、自动规划等将会大大减少B端产品的学习成本，用户在使用不同类型产品时将不会有太大的差异。

3.1.6 多产品形态互联互通

AI可以在手机、平板、电脑、电视、车载终端等不同设备之间的无缝切换，设备跟着场景转换，但是流程不中断，多设备协调配合走完整个任务链路。比如在下班回家的路上，小D在车里听小说，回家以后，家里的智能音箱继续从下车时刻的部分开始继续播放。

3.2 接受非结构化的信息

语音识别、NLP、图片识别、手势识别、红外传感、重力感应、脑机接口等等技术的演进与突破。让输入不再依赖于表单、按钮等创建符合计算机理解模式的结构化信息。

非结构化输入的特点：多模态、更自然、更高效、学习成本更低。不再是人去适应计算机能接受的数据模式，而是计算机来学习理解人类的信息表达形式，比如表情、手势、语气等。

AI对于非结构化数据、自然语言的理解，也降低了产品的复杂度，减少用户的认知负担，让产品的学习成本大大减低。

3.2.1 普适计算（ubiquitous computing）

普适计算是指计算可以在任何设备上、在任何地理位置中以及用任何格式进行。其显著目标之一则是使得计算机设备可以感知周围的环境变化，从而根据环境的变化做出自动的基于用户需要或者设定的行为。

与物联网类似，简单来说就是通过多样化的设备（手机、手表、眼镜、微波炉、冰箱等）来感知信息、获取信息、处理信息，所有的物品都有可能变成一个计算机。这样的目的是让计算机可以随时感知环境、行为的变化，从而及时、贴心地满足用户的需求。

3.3 数据的集中化处理

假设个人助手或者说AI Agent的成熟，那么人们与产品交互的通道将会从各个分散的产品集中到一个点。由统一的交互入口收集的用户行为数据以及AI主动通过各类设备收集的用户个人数据，让每个人的信息更加完整、全面地被AI所记录，更容易实现个人数据的集中化处理。

AI掌握的个人信息越多，才能更全面地了解一个人，也才能更有针对性地为用户提供个性化的服务。聪明、贴心、智能的AI与集中化的数据将会互相促进、互相强化，也就是越集中的数据带来越聪明的AI，越聪明的AI将会通过多渠道收集到更多的个人数据。

3.3.1 对于个人信息安全的注重

AI将会使用个人的数据进行训练并改进行为，这需要符合监管要求，遵循个人数据处理的最小化原则，保证用户的知情权，进行节点隔离以及加强对于数据处理权限、存储、保密的管理。避免个人信息的泄露或者被不当使用。

当然，这也需要更加完善的数据保护法规进行支撑，比如GDPR、ADPPA、中华人民共和国数据安全法、个人信息保护法等，避免个人隐私泄露。

3.4 人机深度协同，构建信任变得更重要

越是使用频繁的、形成依赖的产品，越需要得到用户的信任。如果微信在使用过程中时不时的出现bug，发给A的消息错发给了B，那么用户就会变得不敢使用。尤其AI产品还需要收集用户的各种数据才能更好地发挥作用，那么得到用户的信任将显得更加重要。

信任来源于了解、确定、可控，由于AI的黑盒性质以及产品越来越主动，如何解释AI的决策过程、规范AI的行为、提高AI行为的可预测性、保持用户的掌控感也越来越重要。

解释决策过程和规范行为并不是说需要AI事事作说明、汇报，而是当用户想要了解时提供详细的解释与说明、当用户想要自己决策时可以修改AI提供的方案。从原则上而言，AI最终还是要服从于人、服务于人，而不是指挥人、控制人、取代人。

3.5 提前预判，主动推送，具备主动性

根据用户的场景、行为，判断用户的意图，通过多产品、数据的贯通，综合分析，提供事前的提醒与服务。比如在用户购买机票后对接航班、天气、交通等数据，如果有航班管制、恶劣天气、交通拥堵等不良状况发生，可以及时通知用户。

3.5.1 场景驱动

信息的集中化处理，使得结合各种传感器、设备所提供的环境信息以及用户的生理、行为等信息进行综合分析成为可能。AI可以了解用户所处的环境及其需求，通过场景所提供的上下文来减少信息输入的要求。同时，调用各个产品的能力，解决问题，减少用户操作，提高效率与用户体验。

比如，智能家庭助手通过手环检测到小D躺在沙发上已经睡着，并且有点冷，那么它可能会自动调小正在播放的音乐、关闭窗帘、调暗灯光、打开空调，让用户更加舒适且不会着凉。

3.6 个性化/定制化

由于用户与产品之间通过一个统一入口来交互，那么用户的行为数据（包括个人的生物信息、健康状态、行车路线、购买习惯、用户偏好、场所出入数据等）将更加全面、完整、准确被获取。

通过大量的数据与机器学习，让人工智能可以依据个人喜好、场景，进行意图判断。结合各个产品能力，针对不同用户可以推荐更加精准、个性化的内容、功能等，也就是说功能也能够像feed流一样被推荐，更好地满足不同人群、场景的需求。

3.6.1 用户自定义

AI降低了产品/工具操作的门槛，让更多人可以使用它，也就是所谓技术的民主化。

这就让用户有可能根据自己的喜好、习惯、场景等需求差异来配置产品功能组成结构、优先级等。就像是洞洞鞋，本身提供一个基础的样式，但是每个人可以选择自己不同的鞋花。未来，也许每个人都可以都可以自己设计一个APP应该具有什么功能、设计衣服样式、设计房子的装修风格等等。

同时，通过社区、论坛等的信息交流，A设计的产品也许B可以参考、改进后成为属于自己的产品，每个人都有可能成为生活的创作者，而创作的对象可以包罗万象。

3.7 改变垂直领域的细分产品

所有行业都值得基于人工智能技术重做一遍——阿里巴巴张勇

AI的生成、总结、提取、分类等能力的突破，将进一步促进各行业中各类信息的整合与利用，接手重复性的工作，给各行各业带来流程的简化、模式的转变、效率的提升。

针对如残障人士、老人、小孩等特殊群体，可以开发提供陪伴、照顾等功能的AI机器人。
针对律师、医生等特定职业的人员，利用AI辅助进行资料收集、数据分析等，增强他们的能力，提升工作的效率。
针对生产线、仓库等目标和任务相对固化的场景，也可以引入AI来替代很多重复性等工作。比如利用无人超市模式来管理仓库出库，领用人员刷脸后自动确认领料单，同时系统在领料人员拿走物品后自动进行出库处理、更新库存数据，在库存不足时对接采购系统进行采购等。

4 AI能力加持后，产品的交互逻辑变化

4.1 信息架构的变化

GUI模式下基于点击的输入，需要将页面内容、功能分门别类进行组织、布局，以方便用户理解与查找然后触发，所以信息需要按照逻辑归类，可寻性也是信息架构关注的重点之一。

AI能力加持下的对话式交互，让用户只需要面对一个统一的入口，通过这个入口直达任意一个功能（类似于Deeplink）。信息的结构不再是以用户快速找到为中心，而是以让AI快速调取为导向。不再是由人去穿越层层结构寻找所需信息，而是所需的信息从纷繁复杂的数据中跳脱出来。

4.1.1 功能架构扁平化

通过AI直接调起产品中的某一个页面，模块的功能更加独立、内聚，成为一个个能力单元，产品则成为能力单元的横向集合。

如果是窄而深的信息架构，层层嵌套的模式，那么能力之间可能会有一定的耦合与依赖，被直接调起时容易缺失上下文，导致功能不可用。

4.1.1.1 导航的弱化

直接调起的模式，用户直达功能。比如对AI说【我想听李健的《给你》】，它会直接打开播放器，播放这首歌。而不再需要我们【打开音乐APP-找到并点击搜索框-输入并搜索-点击播放】这样一步一步操作。

减少了寻找信息的步骤，也就减少了导航的需求。导航页的价值将会降低，以往功能之间需要合理组织以方便用户记忆、寻找的特征将会减弱。

4.1.2 信息模块化

功能变成类似于API或者组件的形式，可以根据需要与其他产品的信息随意拼装，成为整体信息流的一部分。就像我们在小红书看一个个的笔记，或者在淘宝浏览一个一个的商品，功能也被拆解为一个一个的单元，在场景需要的时候与其他的功能拼装形成一个解决方案。

同时，从整体而言，每个产品可能只提供整个信息集合的其中一个部分。也就是前面的说的产品边界被打破。

4.1.3 拓展性更强

每个页面都有可能成为首页，都是信息架构的顶部，这需要产品的信息架构有很强的兼容性和扩展性。——《AI改变设计》

按照前述AI Agent的设想，AI所涉及的任务可能包含多个层级的复杂度，需要不同能力的配合才能完成，也就是需要依赖不同的产品、组件所提供的能力。

产品的每个功能将类似于乐高的一个积木零件，便于互相组合，目的是容纳更多新的功能。同时AI直达功能的能力可以弱化过宽的信息架构所带来的寻找信息不方便的问题。

4.1.4 用完即走

用户以任务目标为导向，不在乎是哪个产品、哪个功能，关键在于高效。就像我们不会关注手机包装盒里的充电器是哪个代工厂生产的。产品/能力会“透明化”“无形化”，这些能力的提供方将会成为AI Agent所对接的“供应商”。比如小D想听李健的《给你》，内容有可能是QQ音乐提供的、也有可能是网易云音乐提供的、或者是B站一个李健的音乐会视频，对用户而言，听歌的目的达到了就行。

4.2 交互范式的变化

技术的革新会引起范式的变迁。最终指向的都是越来越简单、方便、自然，都是围绕着更好地服务于人而来的。

4.2.1 人机交互的发展历程：

批处理（Batch Processing）
命令行交互（Command-based Interaction）
图形界面交互（Graphical User Interfaces,GUI）
对话式交互（Conversational User Interface,CUI）/语音用户界面（Voice User Interface,VUI）/语言用户界面（Language User Interface,LUI）
自然界面交互（Natural user interface,NUI ）/基于意图的结果规范化（Intent-Based Outcome Specification ）

前三种都属于用户向计算机发出命令，计算机严格执行命令并产生结果，用户评估结果逐步调整输入，最终一步一步达成目标。

对话式交互，本质也和之前的几种范式一样，人发出命令，计算机执行命令，只是用户的输入方式更加多样化，不止是依赖于当前界面所呈现的元素与选项。（图形界面相对于命令行，也是在输入输出方式上变得更丰富，鼠标、触控、手势等输入方式以及图形、动画等输出方式减少了用户的认知负担、记忆负担、操作负担）

而在高级阶段自然界面交互/基于意图的的结果规范化中，用户不再需要去适应计算机，而是计算机来适应人，去理解人的表情、手势、语言、语气、点击、生理数据等等方式/渠道所传递的信息。用户也不再告诉计算机要做什么，而是告诉计算机他们想要的结果，或者，计算机能够通过感知周围环境，主动识别用户的意图并自动达成其目标。

类似于前文提到过的AI Agent，能够依据目标分解复杂的工作流程，从而实现大语言模型的自我对话与运转，而不是简单地执行单一任务或者由人类来驱动任务的每一步。

人机交互发展历程

4.2.2 对话式交互

交互本质上是信息的交流，包含信息的输入与输出。人与现有产品的交互，输入的形式包括鼠标、键盘、触屏手势、语音、拍照识别、扫码等。而输出的内容则包括视觉（文字、图片、视频、灯光等）、听觉（语言、报警音等）、触觉（震动）。

人与人之间最自然的交流方式通常是语言交流，通过言语表达思想、感情和意图。除了语言，人们还通过非语言的方式进行交流，如面部表情、姿势、手势、眼神等。这些非语言元素可以传达丰富的信息，有时比言语更直观和强烈。这是我们整个成长过程中一种主要的学习形式。

对话式交互，就像是人与人之间聊天的交互方式，输入的途径可以是文字，也可以是语音、图片、链接、手势等。Sora甚至可以使用视频作为输入来生成视频。

4.2.2.1 对话式交互的特点

用户的输入没有边界

摆脱了按钮、输入框等的限制，用户的输入可能五花八门，甚至与产品的主要功能无关。功能“无形”之后，就需要针对各种场景给出不同的反馈。

打破产品边界、跨越信息层级

入口统一，交互路径缩短，能够穿透信息层级、跨越产品的业务界限。我们的交互过程基于语言的形式输入，然后回答的形式根据内容而变。可以结合所个产品、领域的数据，综合给出答案。也就是说，我们不用面对数量繁多的应用/产品，只需要像使用Siri一样，和一个统一的AI Agent沟通，然后由它来调取各个产品的能力来为我们提供服务。

4.2.2.2 对话式交互的场景

任务式设计——高效

专业化的应用/工具。针对具体的业务领域、任务类型提出需求。输入一般具有边界、比较集中。产品的目的是尽快达成用户的目标。

闲聊式设计——有趣

娱乐型的应用/伙伴。用户没有明确的目标，跟随情绪变化。输入一般没有边界，可能包含任何主题。产品的目的是在对话过程中逐步满足用户的情感需求。

4.2.2.3 对话式交互的原则

提供引导，鼓励用户输入

如果开始对话之后迟迟没有输入，则提供猜测、默认选项、参考示例等，让用户直接点选、引导用户输入，避免用户在空无一物的前提下不知道如何开展对话。

特别是在闲聊式场景下，通过打招呼来引导、提示等让对话可持续。

理解语境

在我们日常的对话中，很多信息是大家的【共识】，是彼此之间交流的信息基础，无需在对话中特意说明。

比如对话【Q：今天的天气怎么样？A：哪里的天气？】。这其中位置信息一般都是基于当前对话所在的位置或者上下文出现的位置信息来决定的，也就无需用户再次说明。

在AI的对话设计中，也就需要理解这些语境信息，减少信息输入的数量要求，提高沟通的效率。

记住上下文

上下文包括用户之前的操作、输入、用户的背景信息等，记住上下文并运用到之后的对话之中多轮对话的基础。一方面可以保证话题的连贯性，一方面也避免用户的重复输入。

具有包容性，消除歧义

语言表达会有不同的语气或者表达方式，语音识别也会有错误的情况，这时候要像谷歌搜索一样，给出合理的猜测并回答，减少用户二次输入的成本。

当用户的输入有歧义时，实用多级置信度的方式给出最匹配的、最有可能的回答，并进一步询问且允许用户修改。

简洁、清晰、保证表达质量

简明扼要，陈述与话题相关的信息，避免模糊晦涩的表达。不管以何种形式来反馈，陈述的都是有效的事物，而不是无意义的答案。比如这样的对话【Q：你知道有哪些人获得了2023年诺贝尔奖吗？A：知道。】就毫无意义。

合适的信息量，采用多种信息输出模式

不多不少，恰到好处的信息含量。面对一个问题，网络上相关的信息可能千千万。需要结合实际产品、场景、用户属性等实际情况，给出合理、有效的回答。

我们大脑能处理的信息量是有限的，一旦超出，就会对短期记忆造成负担。在某些场景下，语音可以提高效率。但是语音输出的一个弊端是：听清并理解语音中的信息，需要耗费我们大脑的资源，而且语音播放之后就消失了，也加重了用户的记忆负担。

所以不能只依赖于语音的输出方式，也不仅仅依赖于当前的输出渠道。采用视频、图片、声音等多种形态的输出方式甚至跨终端的输出渠道（比如某些场景在手表输入在手机、电视显示反馈结果等），可以极大地丰富我们反馈的多样性、提高信息传达的效率，避免用户需要在不同端之间来回处理信息。

照顾人类情绪，保持礼貌，具备服从指令的属性

比如这样的对话【Q：可以朗诵一首唐诗吗？A：不可以】会让人觉得别扭、受挫。

如果无法做到，也应该表达歉意并且说明愿意来安慰用户。比如【A：不好意思，当前网络状态不可用，请检查网络设置后再次尝试吧】

话轮转换

对话是一种相互合作，必须有来有回，实用的对话让对话双方知道该谁说话。

设定用户的期望，让用户知道什么时候可以轮换到自己、输入是否生效等。方法包括隐性确认（在回答时带上用户提供的信息）、非语言确认（使用灯光、图像、震动、提示音等进行反馈）等。

4.2.2.4 VUI/LUI

VUI，Voice User Interface，语音用户交互界面。LUI，Language User Interface，语言用户交互界面。是基于语音/语言作为输入与输出的交互方式。

严格来说，VUI/LUI是对话式交互形态之一。因为对话式交互的核心在于一来一回的对话，输入输出的可能并不只有语音、文字，可以容纳更多的内容形式。

对话式交互

优点

自然流畅、学习成本足够低。因为对话是从我们出生开始就伴随我们的交流方式，对话式的交互和人与人之间的沟通相似，无需教学就会使用。
从输入效率的角度而言，语音输入比键盘打字的速度更快。
解放双手，在双手被占用的情况下，可以拓展交互的渠道。
语音中包含语气、语调、语速等情绪性信息，如果能够识别这些附属的信息，也就拓宽了信息接收的渠道。
减少对于导航的依赖，减少用户的记忆负担、认知负担

缺点

视觉通道和听觉通道的信息融合要优于单独的视觉通道和听觉通道。对于多步骤、多字段的操作，如果完全依赖于对话式交互，所需的对话次数将会过多，影响整个动作的效率。这时候就需要用户意图预测、沿用典型模板、结合其他通道（屏幕点击、手势、实体按钮、位置等）操作等方式来简化所需的信息量或者多通道融合获取信息。
容易受到周围噪音的干扰。
隐私问题，在公共场合使用语音输入容易泄露隐私或者影响到其他人。
公共场合之下对着手机说话，有可能会引发社会耻辱感。所以，新的类型的产品往往需要通过明星效应、营销来形成一种风尚，引导人们使用。

4.2.3 NUI

NUI充分利用我们生活在这个世界中获得的技能，最大限度地减少认知负担，从而最大限度地减少对于注意力的分散。（NUIs exploit skills that we have acquired through a lifetime of living in the world, which minimizes the cognitive load and therefore minimizes the distraction.）——Bill Buxton, a principal researcher at Microsoft

自然用户界面（Natural user interface，NUI）。维基百科对于NUI的描述是人们以最自然的交流方式与机器互动，使用NUI的计算机不需要键盘或鼠标。

相比于传统的GUI或者当下比较火热的CUI，NUI更强调【自然】，也就是以符合人类直觉的方式与计算机沟通。不局限于某一种交互方式，而是依据场景选择最合适的交互方式。比如在自己家里，使用语音与智能音箱交互。在图书馆，使用触控、手势与智能手表交互。

NUI最大的核心是以人为中心，让用户可以使用生活中已经习得的技能、经验以及已有的心理模型来与计算机交互，极大地减少学习成本。因为人与外界的自然交流本身是多通道的，包含视觉、听觉、触觉、嗅觉、味觉，也就决定了NUI注定是多模态的。

4.2.3.1 不完全依赖于语音

因为声音稍纵即逝、难以回溯。完全依赖于语音输入与输出的交互方式需要占用用户大量的注意力，而我们的注意力往往有限，长时间的注意力集中非常消耗人的精力，从而降低了交互的准确性、影响交互的效率。同时长时间占用用户的主要注意力，也让用户无法同时做其他的事情。

对话式交互主要改变的是输入方式与使用路径，与现有丰富的、多模态的反馈形式结合，可以有效提升人机交互的效率。除听觉反馈以外，输出方式可以是视觉（指示灯、图片、视频等）、触觉（震动、温度变化等）。

随着AI在语音识别、语义理解等方面能力的进步，自然对话的形式已成为AI产品的主流交互形式。就目前的情况而言，AI还难以捕捉并解读我们的面部表情、姿势、眼神等这些非语言、情绪化、视觉化的信息。

相信未来，随着各种传感器、算法模型的不断演进，在我们与机器对话时，它不仅能听懂我们的话语，也能结合我们的面部表情、姿势、手势、眼神等综合分析。至少在输入端，让人与机器的交互逐渐靠近人与人的交互。有可能就像图灵所预测的，我们难以分辨和我们对话的到底是一个人还是一台机器。

4.2.3.2 VUI+GUI

未来的人工智能系统很可能会拥有混合用户界面，结合了基于意图和基于命令的界面元素，同时保留许多图形用户界面元素。——Jakob Nielsen

凡事皆具两面性。不同交互形式的目的都是为了减少用户的认知负担、操作负担、记忆负担，不是为了用个用。结合用户、场景、设备等特点，选用不同的交互形式结合，最大化地方便用户才是最优解。

4.2.3.3 多模态交互

多通道融合交互/多模态交互，包括语音、面部表情、手势、各类传感器所检测到的生理信息等都可以作为输入通道，既可以是用户主动发起的，也可以是产品主动获取的。输出则可以结合视觉、听觉、触觉、味觉和嗅觉多种模态。核心是围绕情境选择合适的交互模式，目标是自然、高效。

优势：

多模态融合不仅是为了符合用户自然的操作习惯，也可以增加信息的处理效率。就像在听演讲时，如果演讲者结合PPT进行图示化说明，就更容易、更快速地让人理解。
多模态交互充分调动人的五感，结合AR、VR、MR等技术，将数字世界与物理世界有机结合，可以提供更好的真实感、临场感、沉浸感。
减少对于个人能力的要求，让老人、残疾人等特殊群体也可以轻松、便捷地使用，践行通用设计的原则，促进社会的和谐。

4.2.3.4 基于意图的结果规范化（Intent-Based Outcome Specification ）

这是雅各布·尼尔森提出的一种新的交互范式，详见：https://www.nngroup.com/articles/ai-paradigm/

以前是设计产品的能供性（Affordance）来引导用户操作，比如按钮代表可点击。现在是计算机要来理解人的意符（Signifiers），比如抬起手臂，手机自动点亮屏幕，因为它猜测你可能需要开始使用手机。

NUI侧重于交互方式的自然化，基于意图的结果规范化侧重于对于用户意图的反应。一个是方式，一个是目的，二者的核心都是让计算机围绕人来进行改变，减少人们对认知负担、记忆负担、操作负担，提高人的效率，丰富人的生活。

4.3 交互特征的变化

4.3.1 交互层级的压缩

功能架构更加扁平对应的就是交互层级的压缩。通过对话直接调起某个特定的功能，不需要在一层一层的功能结构中去寻找。每一个动作都是直达目的，减少了很多寻找功能过程中的过渡操作。

4.3.2 界面的减少

一方面，NUI结合多种输入输出方式，不再单纯依赖于界面的呈现，语音、提示音、灯光、震动等多种形式的反馈会替换部分界面的反馈。另一方面，对话式的交互减少了很多承载功能的页面如导航页、工作台等。

4.3.2.1 按钮的减少

按钮是基于界面存在的，目的在于触发一个动作。一方面，卡片等元素本身可以充当按钮。另一方面，NUI带来的多模态交互，点击屏幕操作将会减少，对按钮的需求也相应的减少了。

4.3.3 主动交互增加

产品不再只是被动的接受信息，而是可以通过多模态感知主动获取信息，并依据用户设定的目标、对于用户的了解进行自主决策并触发下一步的动作，不再需要每一个任务都由用户来触发。比如汽车在检测到到用户远离车辆时自动锁车。智能音箱会在天气预报有雨时提醒用户出门记得带伞。

主动交互减少了用户的操作负担，提高了人机协同的效率，也让产品显得更加贴心。

4.3.3.1 分析用户的意图

用户的行为数据、个人习惯与偏好等通过AI Agent这个统一的交互入口被全面、完整、准确地获取，结合AI Agent所记忆的上下文信息以及各种传感器所获取到的场景信息，对用户意图对分析将更加准确。也就是可以通过预测用户的下一步行为，主动提前帮助用户完成。有点类似于想要喝水的时候，杯子里总是有温度适宜的水。

4.4 AI的“人设”

4.4.1 人设是什么

人设是指用户在与AI产品互动过程中，根据感知到的信息（虚拟形象、文本或者语音中的语气、语调、音色、情绪等）将AI对象人格化后所建立的一种对于AI的角色形象认知。比如，扫地机器人在电量不足时，发出语音：“没能量啦，我要回去吃饭了。”在用户询问“你在哪里”时，回应“我在这里”。都可以让人感觉到它是一个有温度、有感情的个体而不是一个冰冷的机器。这是一种心理上的简化行为，避免“恐怖谷”效应。

人设使得产品的个性更加鲜明、突出，用户与产品交互时能够获得“伙伴感”以及交流的愉悦感，有助于拉近产品与用户之间的心理距离。

4.4.2 人设设定的原则

4.4.2.1 一致性

角色的设定要与产品/内容的属性一致。比如法律、政治新闻等严肃性内容，就不适合使用呆萌、可爱的角色。

作为服务于人类的产品，在于用户对话时，应该保持前后一致、稳定的形象。如果前后的回答反差太大会让人觉得产品出错了。

4.4.2.2 有礼貌

同时要注意礼貌。比如要及时回答用户的问题，不能敷衍了事，不能指责用户。即便用户苛刻、生气，角色也应该体现出礼貌、谦逊、关怀。

4.4.2.3 情感性

感知到人类的情绪，并给出恰当的、体贴的回应。用户因此而与产品之间形成情感依恋，增强整体的使用体验。

4.4.2.4 幽默性

使用象征、讽喻、双关等手法，让人感受到愉悦、有趣，给予用户类似真实的社交体验。使AI的形象更加灵活、生动、富有人情味，而不再是冰冷的机器。

4.4.2.5 个性化

针对不同的用户特征（年龄、职业等），也可以针对性地提供不同的角色设定。

4.4.3 人设性格的体现方式

声音的音色、语速、节奏、表述的方式/语气、头像都能体现出AI的性格特征。

4.4.4 人设性格的设定方法

与品牌/产品人设设定的方法类似，使用情绪板moodboard，结合商业目标、产品目标来发散人设的关键词，比如客户希望以什么形容词来描述产品、用户喜欢什么样的人设。然后通过筛选、整合，选择最具有代表性的形容词，以可视化的方式呈现。然后与Persona类似，固化名字、职位、年龄、性别、行为习惯、爱好等特征。

人设设定好以后，所有的行为（语气、语速、表达方式等）、外观（表情、头像、虚拟形象等等）都围绕人设，从而强化这一形象在用户心中的印象。并在用户测试中优化迭代。

5 AI能力加持后，产品设计应该注意的原则

目前比较系统的提出AI产品设计原则都有MicroSoft、Google、SAP、IBM几家公司（原文档见文后参考链接）。总体而言，设计原则中不变的是以人为本的核心，变化的是如何以人为本、如何更好地以人为本。

5.1 明确传递系统可以做什么

做出说明、给出推荐等，帮助用户明白 AI 系统能够帮助自己解决何种问题。

提供框架与制约因素，引导用户迅速展开行动，避免用户在面对完全空白的页面时，脑海中思绪过多且无法集中，不知从何着手。

5.1.1 说明系统能做到多好

帮助用户了解AI系统犯错的频率，让用户对产品形成合适的预期。使用诸如【我们认为你可能会喜欢】来介绍推荐的音乐，会让人更能包容错误。

5.2 基于具体场景和时间提供服务

根据用户当前的任务和环境判断何时该触发行为或中断行为。

比如检测到用户在行走过程中，手表自动记录步数。假设用户刚刚查询过去往目的地的路线，则自动进入步行导航模式。比如当时间为半夜时，语音助手在回答问题时主动降低音量。

5.2.1 记住前后文

记住用户最近的交互行为。保持短期记忆并允许用户高效引用。比如用户说：搜索【歌手李健】，在AI给出结果后，用户说：播放他的歌曲。这时候产品就应该播放李健的歌曲而不是再次询问用户播放谁的歌曲。

5.2.1.1 显示与上下文相关的信息

显示与用户当前任务和环境相关的信息。比如用户询问【天气情况】时，在结果中表明是今天、当前位置的天气情况。

5.2.2 记住关于用户的信息

记住用户的个人偏好、行为习惯等，主动推送/建议，减少用户的重复操作。类似于登录之后的个性化推荐。

5.2.2.1 从用户的行为中学习

不断学习用户过往的操作来个性化用户体验，与用户建立更加亲密的联系。类似于推荐算法，推荐的是用户感兴趣、可能会用到的功能、信息。比如用户总是在每天的同一时刻打开同一个APP，iPhone会在用户下次这个时间点解锁手机时推荐这个APP。

5.2.2.2 鼓励用户反馈

让用户能够在与人工智能系统的定期互动中提供反馈，表明自己的偏好。也就是产品不仅可以主动学习用户的行为，还可以让用户主动告诉产品自己喜欢什么、习惯什么。

5.2.3 机器主动感知

通过各类传感器实时感知周围环境、人的行为，以此更好地为人类服务。不需要用户主动发出指令，就可以结合以往的使用习惯进行意图判断，主动推送/发起流程。

5.2.3.1 平静技术

交流不是为了体现技术设备的能力，而是为了满足用户需求。——《交互的未来》

因为人们的注意力是有限的，是一种宝贵的资源。应该让人把注意力放在真正重要的事情上。如果各个产品一直大声的吆喝，不停地争夺用户的注意力，那么重要的事情有可能会被淹没。

在用户需要时，能够及时响应甚至提前预判，提高效率与流畅度。用户不需要时，不要过多的干扰用户，避免产品/技术本身引起太多的注意。类似于微信产品经理张小龙之前提出【用完即走】的理念，产品是服务于人的，不能成为负担，而是要减轻人的负担。

5.3 建立信任、不要让用户失去控制感

由于AI的不可解释性、自主决策，用户必然会对其有所顾虑。所以让用户建立起对于AI的信任感，是人类与AI深度协同的重要前提。

信任是有粘性的，如果用户信任一项服务，可能会选择一直信任。反之，如果用户不信任，可能会一直选择不信任。

信任对于用户是否会采用至关重要。不信任会蔓延，一个功能的不信任会影响对于整体或者所有类似产品的不信任。比如Siri就降低了人们对于所有手机语音助手的信任度。

人类对机器的信任依赖于可靠性与安全性、可控性、清晰透明、一致性。

5.3.1 可靠性与安全性

要使 AI 系统受信任，它们需要可靠且安全。系统必须像设计好的那样运行，并安全响应新的情况。其固有的复原能力应能抵御预期操作或意外操作。

5.3.1.1 准确、及时

信任由积极的体验构成。频繁的犯错、延迟、不可用，让用户遭遇多次失败、挫折，会降低用户对产品的信心与信任。

与实际的人相比，人们对于机器犯错的容忍度更低。

5.3.1.2 用户数据权利

提供通知和同意的机制，允许用户拒绝服务或数据。隐私设置和权限应该清晰、可查找且可调整。

充分披露个人信息的使用或共享方式。对数据的用途、使用范围提供详细的说明。

用户应始终控制正在使用的数据以及选择在什么情况下使用。他们可以拒绝AI访问他们认为可能会受到损害或不适合人工智能了解或使用的个人数据。

保护用户的隐私与数据安全。当个人详细信息（例如地址）可能作为人工智能预测的一部分而暴露时，采取额外措施来保护隐私（例如，匿名化姓名，即使人们同意使用他们的名字）。保护个人隐私，遵守机器人三定律等。

5.3.2 可控性

5.3.2.1 由用户控制

AI的底层原则是强化人的能力，而不是取代人。辅助用户决策，简化用户的负担。

从简单、独立的任务开始，让用户相信、适应AI的能力。同时，可以提供预测、建议，但是应该由用户来做最终的决策。如果产品决策完以后再通知用户，会让用户感觉失去主导权或者被产品所控制。

当用户提出的诉求有歧义时，给用户提供选项或者调整的机会来逐步明确目标。比如用户说想听【如愿】这首歌曲，搜索结果有好几个版本，这时候让用户选择一个，或者在播放开始时提示用户可以主动更换。

提供全局控制，允许用户全局自定义人工智能系统的监控内容和行为方式。

5.3.2.2 可以轻松的调用与关闭

在需要时能够易于启用。比如使用【Hi，Siri】来随时激活iPhone的语音助手。

出错时能轻松回退、编辑、改进或恢复。能够随时退出，类似于安全舱设计理念。

5.3.3 清晰透明

5.3.3.1 真诚

标记AI生成的内容，让用户心里有数，保持诚信。

5.3.3.2 可解释性

清楚地说明系统为什么这样做。提供解释说明，让用户知晓AI做出决策的原因（一般是基于决策所带来的好处，当用户对底层技术感兴趣时，通过渐进式披露的方式来提供更多详细的信息）。或者如果发生错误，解释哪里出了问题。

由于AI对于普通用户来说就像一个黑盒，可解释性可帮助数据科学家、审核员和业务决策者确保 AI 系统能够证明其决策及其得出结论的方式，建立公众对颠覆性技术的信心，促进更安全的实践，并促进更广泛的社会采用。

可解释性还有助于确保符合公司政策、行业标准和政府法规。

5.3.3.3 通知用户

谨慎的更新和修改，添加或更新其功能时要通知用户。在更新和调整人工智能系统行为时，限制破坏性变化，让用户能够适应变化。

传达用户行为的后果，及时更新或传达用户行为将如何影响人工智能系统的未来行为。

5.3.3.4 一致性

一致性让AI的行为可预期，有助于用户建立心智模型，减少因为AI能力黑盒带来的不可知，增加用户的掌控感。

5.4 符合社会规范、减少偏见

5.4.1 公平

错误的数据会带来错误的认知。如果AI预训练的数据中存在偏见，那么AI可能也会产生偏见。

建立伦理道德规范，减少社会偏见。由于现实世界的数据中难免包含带有种族歧视等社会偏见的意向，需确保人工智能系统的语言和行为不会强化不良和不公平的成见和偏见，特别是那些与种族、民族、性别、国籍、收入、性取向、能力以及政治或宗教信仰等敏感特征相关的偏见。

5.4.2 国际化/在地化

根据用户的社会和文化背景，确保以用户期望的方式提供体验。国际化的产品要尊重当地的文化、风俗习惯、宗教信仰等。

5.5 拟人化

社会语言学家的研究表明即使是极少的语音样本，也会让人产生对于演讲者性格、形象方面的印象。我们早已进化成可以根据人的声音来总结评判别人的专家。——《谷歌是怎么设计AI语音界面的？这里总结了对话设计六大原则》

人与AI的对话式交互，就像人与人之间的交流一样。用户能够这种拟人化的对话中获得“伙伴感”以及交流的愉悦感，拉近了人工智能与用户的心理距离，大大降低了用户使用人工智能的心理抗拒程度，从而形成品牌或产品和顾客间的情感纽带，强化用户与该品牌之间的关系。

6 AI产品发展过程分析

能力的发展会推动产品形态的变革，就像是通信网络、智能手机催生出了无数的APP，让微信视频聊天、实时看直播成为可能一样。AI能力的发展也会拓宽AI产品的边界、丰富AI产品的形态。

6.1 从能力发展看

人工智能的主要发展方向：运算智能、感知智能、认知智能。

计算智能：计算智能是人工智能发展的最初阶段，主要是指机器对信息进行存储和计算的能力。在这个阶段，机器主要进行简单的数据处理和计算任务，缺乏更深层次的理解和学习能力。这部分主要是模型计算能力的提升。
感知智能：感知智能是人工智能发展的第二阶段，指机器具备感知世界的能力，包括视觉、听觉、触觉等感知方式。这让机器能够更好地理解周围环境和与之进行交互，但仍缺乏深层次的思考和推理能力。这部分主要是多模态感知能力的提升。
认知智能：认知智能是人工智能发展的最高阶段，指机器具备类似人类的认知能力，包括学习、推理、记忆和理解等方面。在这个阶段，机器可以自主地进行学习和思考，具有更高级的智能表现。这部分主要是模型能够自主学习、调整、优化。

6.2 从产品角度看

6.2.1 一个趁手的工具

利用AI的运算智能、感知智能，在任务全流程的某一个任务中引入AI能力，解决各类业务场景中出现的问题。或者根据不同领域、职业等特定场景，打造垂直领域的AI而不是通用型的解决方案。比如使用人脸识别技术分析学生上直播课的表情，判断学生的学习状态，及时提醒老师关注，促进学生高效学习。

人智结合，任务还是由人来主导，AI作为像锤子一样的工具，主要是执行指令，成为用户的助手，提高操作效率，帮助用户节省时间。比如内容创作平台的编辑器，可以让作者利用AI助手优化文章表达，但是没法从头到尾写一篇符合用户高要求的文章。

图片来源：unsplash

6.2.2 成为现代“电力”

通过软硬结合的形式，连接起各个产品，产品之间借助各自的AI Agent互相沟通，形成统一的生态。这样的话，AI就在我们的生活环境中无处不在，渗透到每一个角落，集成各类行为数据进行分析，提供综合、全面、贴心的服务。比如最常见的智能家居场景，门锁通过人脸识别为主人开门，同时把客厅的灯打开。用户坐到沙发上之后，用语音控制打开电视，客厅的灯光则自动调整到适合看电视的模式。

图片来源：unsplash

6.2.3 一个管家/私人助理

认知智能让AI学会自主预判、创造、决策，接管人类生活的琐碎事情。打造个人专属的AI，借助信息通信，从用户相关的每一个产品中获取信息，综合分析，帮助用户做出决策。这个AI助理熟悉用户方方面面的习惯，通过用户的行为分析主动去对接各个产品、能力，从而实现完全的个性化。

比如一个独居老人，手环、心脏监测装置等检测到用户可能会身体不适，提前通过智能音箱、手机等提示用户去往医院检查。用户乘坐自动驾驶等汽车到达医院后，AI助理已经帮助用户挂号，并将过往的数据发给医院的AI医生。医护人员根据AI医生的建议，直接安排检查、治疗方案。老人出院后，AI医生将医嘱传送给老人的AI助理，由它来提醒老人每天按时吃药。

图片来源：unsplash

7 AI与现有产品的融合模式分析

从与现有产品的结合程度而言，大致应该是AI部分介入作为辅助——AI主导功能——完全AI化。

7.1 从融合程度看

7.1.1 单点嵌入

在局部增加AI能力，比如嵌入到某一个按钮中、在原界面增加一个小入口、在评论区/聊天窗口使用AT等方式呼出AI助理。这样可以在保持原有用户习惯的基础上逐步培养用户的习惯。

需要对场景进行细致地分析，也就是应该在什么场景下提示用户产品所具有的AI能力。比如文档类产品，可以自动生成文章大纲。或者在用户选择一段文字后，编辑菜单中会出现【AI改写】的入口。

单点嵌入

7.1.2 模块嵌入

划分出专门的一块功能区，比如页面增加一个tab、或者做一个独立的模块、或者下拉后进入AI对话模式。这样的好处是加入AI后，对原有的页面影响不大，同时又会比较醒目，让用户快速感知。

比如FigJam AI，通过一个悬浮框来引导用户使用。

Figma界面截图

7.1.3 半独立

这种是比较常见的一种方式，好处是不破坏原来的信息结构与页面布局，可以更快地融入AI能力。比如悬浮操作球作为入口、浏览器插件等。

7.1.4 完全独立

把AI能力打包，作为一个统一入口，可以辅助/调用所有产品，就像是嵌入AI Agent的PC或者手机一样。

这样AI就不是为了增强某一个产品的能力，而是本身成为一个能力平台/私人助理，类似于Siri，可以调用iPhone内的各种应用。

7.2 从结合方式看

以下模式只是基于现有状况对未来发展方向的一种合理推测与猜想。

7.2.1 软硬结合

7.2.1.1 能力平台

在电脑/手机中嵌入AI Agent ，就像手机的语音助手一样，综合多模态交互，直接调起设备中的各项能力进行响应。结合个人行为数据后，不但在对指令的回应方面愈发契合用户的喜好与习惯，还可以主动交互，提高生产效率。

比如用户想要看开心麻花的电影，那么Agent会整合各个应用资源供用户选择，或者依据用户的习惯直接播放用户可能感兴趣的那一部。

比如在用户看论文时，默默帮助用户总结、整理、收集、分类，用户看完几十篇论文后，不仅可以帮助用户横向对比、提取核心观点，还可以帮助用户发现类似的论文。用户在写作中引用某一原文时，对应生成参考文献注释。

7.2.1.2 硬件协同

AI来协调指挥硬件，让信息在各个产品/设备之间流动，按照具体场景实现设备之间关联的贯通，促进各个设备之间的高效合作。

比如家庭助理，协调家中的各种电器，在下班到家之前调好空调温度、到家后继续通过智能音箱播放在车上收听的节目、音乐等。假设用户订好了第二天早上的机票，那家庭助理会在用户回到家后提醒用户收拾行李并且定好第二天早上的闹钟。

对于独居老人而言，可穿戴设备会实时监控老人的身体状况并提醒老人按时服药。在老人发生危险情况时及时拨打急救中心电话并为医护人员开门。

7.2.2 物理世界与数字世界的融合

结合各类传感器，AI可以更全面的收集关于物理世界的各类信息。同时，利用XR（VR, AR, MR）、具身智能（Embodied Artificial Intelligence）等技术等发展，数字世界也可以直接影响、操纵物理世界。

物理世界的信息、行为将可以通过数字世界进行传输，也许未来不仅可以视频通话看到对方的样子，还可以远程握手、拥抱等，人与人之间通过网络的聊天就像是面对面聊天一样。

7.2.3 数字孪生

数字映射（Digital twin），或译作数字孪生、数字分身、数位双生，指在信息化平台内模拟物理实体、流程或者系统，类似实体系统在信息化平台中的双胞胎。比如在医疗领域，通过把患者投射成具有生命功能的数字孪生体，就可以让AI来模拟患者对于各种药物的反应，从而为患者选择最好的治疗方案。

在科幻电视《黑镜》中，技术人员通过抽取用户的思维，在数字世界制造一个用户的分身来作为用户的私人助理。因为只有自己才最了解自己。

电视剧《黑镜》剧照

8 我们该怎么做

8.1 AI只是手段，关键在于目的

AI可以执行【做】这个过程，它知道要做什么，但是它不知道为什么要这么做。产品的目的、所需要服务的人群、所产生的价值都是由人来定义的。这些是将所有资源整合起来的核心。不然，只是通过AI生成一堆没有关联的内容，并不能转化为实际的产品或者服务。

AI可以解决重复性、规则性的工作，但是无法共情人类的情感、理解人类情绪、主动创造、做出决策。所以需要人类与AI携手合作，充分发挥各自的优势，

8.1.1 结合AI能力，帮助项目落地

在产品研发流程中，需要根据不同的业务需求和场景选择适合的AI技术，灵活运用AI的能力，将AI技术融入工作流。

比如目前AI生成的内容，就像是一个一个单独的元件，往往不能拿来直接使用，需要结合业务目的、场景等进行调整、结合等，达成业务目标。就像现在各种设计组件库，也需要结合实际的业务场景、需要解决的问题等灵活选用。

8.2 提升综合能力，成为雪花形人才

雪花型人才是指多元、复合型人才，围绕一个核心，在多个领域快速积累知识和经验。知识之间的交叉、经验的迁移、不同行业之间的借鉴等，有助于快速地给出解决方案、做出决策。

由于AI可以解决很多基础性、重复性的工作，拓展个人的能力边界，提升个人产出的效率。那么人有限的精力可以用来做更多重要的事情，个人的能力将得到更全面的发展。也就是把以前用来练习与掌握各种软件、工具的时间都用于去理解不同领域的知识，并结合这些知识指导、使用AI进行创作与输出。

雪花型人才

8.2.1 未来已来，只是分布得不均匀

技术要找到合适的场景，解决问题，适配人性。就像《梁宁-产品思维30讲》中所说的：未来已来，只是分布得不均匀。面对问题时，我们可以将多领域知识、经验、技术、逻辑等迁移互鉴，拓宽自己的视野，通过类比、联想获得更优的解决方案。

这需要跨领域的学习能力，或者说快速熟悉某一个领域的能力，以及系统性思维。利用AI的快速总结能力，秉持终身学习的理念，将知识横向连接，最终成为一个具有自己独特见解的问题解决者。

8.2.2 提升软实力

8.2.2.1 对于世界的好奇心

好奇心引领人类前行。AI是解决问题的工具，而人类则通过提出问题来拓展知识疆域的边界。爱因斯坦曾说：“提出一个问题往往比解决一个问题更为重要。”提出一个好问题，往往意味着对事物有着浓厚的兴趣、深入的思考、敏锐的洞察。在科学研究中，一个具有创新性和前瞻性的问题可能会引发一系列的研究和探索，从而推动整个领域的发展。

好奇心是自驱的动力。对未知充满好奇，可以提升我们的自我批判能力，助力于我们探索新的未知的领域、拓宽我们的思维边界，而不是仅仅满足于当前已有的模式。

8.2.2.2 保持人性

AI主要是根据已有的数据、信息进行分析或预测，而人类的想象力、直觉、情感等可以帮助人类“无中生有”，创造那些不曾存在过的新事物。

信息不发生串联、关联、形成网络，则只是数据，而不能称之为知识。AI可以帮我们快速、准确地找到各类信息与资源，但是让这些信息转变为个人的知识与智慧，还需要人类自我的认知、分析、整合、思考的努力后形成自己的观点与理解。

同时，我们能够运用批判性思维来质疑和验证所接收到的信息，保持自我的独立性，从而避免盲目接受。

8.2.2.3 沟通能力

所有产品终究都是要为人所服务的，与人沟通、了解人的需求、确定我们要解决的问题，是确立产品目标的关键。而产品目标是决定我们要做什么、以及怎么做的指导原则，是整个产品的方向与旗帜。只有产品目标明确，产品才有可能获得成功。

人与AI相比的一大优势是具有同理心，能够理解人类的情绪、情感，这在与人沟通中发挥着关键作用，可以设身处地为他人着想，理解他们的感受和观点，从而分析与理解他们没有直接表达出来的某些想法。

在沟通中建立信任、巩固情感、平衡各方利益，与上下游合作推进方案落地，是除了产出设计方案以外更加重要的能力。

8.2.2.4 对于业务的理解

只有深入理解业务，才能真正知晓用户在业务流程中的痛点和期望，从而设计出能切实解决问题、提升用户体验的产品。

很多B端产品，特别是金融类、法律合规类的产品，由于现实情况、规则制定多样化的原因，往往有很多复杂业务场景限制，这些规则由人制定而且互相牵扯，AI 可能需要大量的训练数据和时间来学习和适应。

同时，评估这些规则对于产品的影响，也需要多维度的梳理，并针对性的解决，确保产品的合规性和稳定性。

8.3 在目前的产品研发流程中，如何使用AI提效？

就目前的阶段而言，人工智能更像是一个趁手、高效的工具。所以我们使用AI提效的总体原则是：在产品研发流程的不同阶段，选取有价值的环节、AI比较擅长的部分，利用AI来强化能力、提高效率。

比如可以使用AI提高我们的搜索效率、助力我们快速获取各类资源，或者辅助我们进行一些发散、总结、提炼等方面基础性的思维创造工作，从中获取一些设计灵感与方向。

或者使用AI为决策过程增加视角的多样性。基于AI所拥有的不同领域的背景知识，当我们向AI寻求建议时，等于有各种类型的专业人士意见可供参考。

8.3.1 产品规划

描述产品的目的、场景、用户等，由AI给出一定的产品设计思路参考，包括对于产品业务流程的优化、模块分类、页面布局等。

8.3.2 信息架构

在组织信息时，可以让 AI 扮演不同的角色，如用户、管理员等，提供类似卡片分类测试的结果以供参考。

8.3.3 提供灵感

在设计的双钻模型中，当具体需要解决的问题明确以后，一般需要进行创意探索与方案发散。这时候可以利用AI所掌握的海量数据与远超人类的计算能力，快速尝试各种风格进行对比，探索各种类型的风格感觉。对于视觉要求度高的运营设计而言，能够极大程度地缩减前期风格探索所需的时间。

8.3.4 寻找&生成各类资源

增强搜索能力，进行资源整合或者生成一些符合业务场景的资源。包括不限于竞品、分析报告、情绪版、设计组件库、产品相关知识（业务、心理学、设计等）、行业数据、展示模板样机、插画、宣传海报等。

8.3.4.1 生成设计元素

使用Midjourney等AI图像生成工具，生成如icon、logo、头像、虚拟人物、背景、banner、运营活动宣传插图等视觉元素。比如QQ音乐的不同播放器风格，就是AI生成的。

8.3.4.2 AIGC丰富产品

产品中的一些内容资源，也可以加入AIGC内容。例如电商应用中的模特图片、数字人虚拟主播、可以发表话题的虚拟用户、可以在群聊/评论区随时出现的AI助理等。这样，可以使平台内容更加丰富、多样化，以吸引更多的用户参与和交流。

8.3.5 优化文案

对文案表达进行润色、优化表达方式、检查错别字等，包括不限于内容示例、说明引导文案、反馈提示文案、产品的简介、销售文案、各平台的运营文案、Slogan等。

8.3.6 提炼重点、分析数据、撰写材料

把资料整理、数据处理这一类重复性的工作交给AI。比如设计调研后，由AI来产出数据分析报告并总结、产品汇报阶段用AI先拟定一个初步的PPT大纲、在用户测试阶段用AI帮助制定测试计划、在宣传策划阶段让AI撰写视频脚本等。然后设计师再结合AI初步整理的材料进行细化与完善。

8.3.7 提供决策依据

设计方案完成后，需要对不同的方案进行比对、测试、验证等。传统的用户测试常需要花费大量的人力、时间、金钱成本。使用AI进行初步的分析总结，选择一种方案上线并在后续迭代中不断优化，也许是另一种轻量化的解决思路。

9 最后

世界上唯一不变的是变化，我们唯一能做的就是拥抱它。

技术是产品实现的重要基础，技术的变革会导致产品的形态发生改变。因而所有行业都有可能被AI改造一遍，包括不限于：生产制造、教育、法律、影视传媒、游戏、医疗等等。这些改变将是业务层面的变革。

人性是产品需求的重要基础，人性不变，需求则不变，改变的只是实现需求的方式。技术的发展应该服务于人类的利益，无论技术如何演进，归根结底仍需以人本为核心，而不是仅仅追求技术本身的进步。也就是产品以技术作为实现手段，围绕着提高人类生活质量、实现人类终极自由的目标而前进。

蓝蓝设计(www.lanlanwork.com )是一家专注而深入的界面设计公司，为期望卓越的国内外企业提供卓越的大数据可视化界面设计、B端界面设计、桌面端界面设计、APP界面设计、图标定制、用户体验设计、交互设计、UI咨询、高端网站设计、平面设计，以及相关的软件开发服务，咨询电话：01063334945。我们建立了一个微信群，每天分享国内外优秀的设计，有兴趣请加入一起学习成长，咨询及进群请加蓝小助微信ben_lanlan。

关键词：UI咨询、UI设计服务公司、软件界面设计公司、界面设计公司、UI设计公司、UI交互设计公司、数据可视化设计公司、用户体验公司、高端网站设计公司、银行金融软件 UI界面设计、能源及监控软件 UI界面设计、气象行业 UI界面设计、轨道交通界面设计、地理信息系统 GIS UI界面设计、航天军工软件 UI界面设计、医疗行业软件 UI界面设计、教育行业软件 UI界面设计、企业信息化UI界面设计、软件qt开发、软件wpf开发、软件vue开发

« 超全面阴影设计指南图标设计的进化历程，读这一篇就好了！ »