抛砖引玉了。
我期待看到的下一个人机交互大动作是 multimodal interaction , 多模态交互 。一些别的回答已经提到,但我想要深入讨论一下。
这个词在人机交互领域其实已经存在几十年了,指的是一件事可以通过多种交互方式做到。很多小范围的交互实际上也已经达到了多模态,比如打字输入这件事,你可以在实体键盘上打字、可以在触屏键盘上打、可以用触控笔或手写输入,也可以用语音输入。
但是,我们离真正的、全面并且无缝衔接的多模态交互,还差那么一点。
首先抛出利益相关,我是做 无障碍交互设计 的,就是针对有视觉/听觉/肢体/言语/认知障碍的用户做设计。
无障碍领域的一大基石是,
所有人都在某些时候是残障人士 。
视觉障碍,可以是眼盲,也可以是开车的时候眼睛放在路上没法看手机。
听觉障碍,可以是耳聋,也可以是在嘈杂的餐馆里听不清朋友说话。
肢体障碍,可以是截瘫,也可以是做饭的时候腾不出来手操作手机。
言语障碍,可以是失语症,也可以是出国旅游无法和当地人沟通。
认知障碍,可以是阿兹海默症,也可以是忙了一天累得脑袋转不动。
用户(人)与设备(机)之间的交互,是由 输入 (input) 和 输出 (output) 两部分组成的。任何输入或者输出方式都要通过用户的某个感知能力才能成立。
目前主流设备中,普遍的输入和输出模态有以下几种:
任何障碍,无论是永久性的障碍(如眼盲/耳聋),还是情境性或临时性的障碍(如开车/做饭),都会影响到用户某些模态的感知或操作能力。
换句话说,
任何人,在任何场景下,任意一个输出或输入模态都可能受到限制。
但是,反观我们现在主流的产品交互,绝大多数都是基于「视觉输出」+「触碰输入」。即便是已经达到多模态交互的操作(比如打字),仍然是视觉+触碰为主、其他模态为辅(仍然要先按下语音输入按钮,然后才能开始通过语音打字)。
这显然无法满足现代人更加多样、更加动态的设备交互需求。要不然每年也不会有那么多车祸是一边开车一边用手机导致的了。
真正的多模态交互,是任意一种输出/输入方式,都可以被任意另一种所取代。
再加上 ambient computing 带来的情景感知和智能辅助(见 @吴升知 的回答),这就可以非常厉害了。
这个概念实际应用起来会是怎样?
床头的闹钟刚响,我迷迷糊糊地睁不开眼睛( 视觉障碍) ,就跟闹钟说「关掉闹钟」来停止它。系统检测到我起床了但睡眼惺忪,开始用语音播报现在的时间、今天的天气、新闻、日程。
考虑到我刚起床有点迷糊( 认知障碍 ),它特意采用简短、语言简单的版本来报新闻。
走进洗手间,系统也跟着从床头切换到洗手间里。用电动牙刷刷牙的时候,我听不清声音( 听觉障碍 ),系统就从语音朗读切换到隐藏在镜子里的显示,让我用眼睛接着读新闻。
刷牙的时候只有非惯用手能操作设备,用起来不灵活( 肢体障碍 ),但因为在刷牙我也没法用语音操控( 言语障碍 ),所以系统把镜子上的UI调整为适合我的模式,显示出超大颗的「上一篇」、「下一篇」按钮,方便我点击。
看,起床不到10分钟,已经遇到了所有类型的障碍。你确定你真的是个所谓的「健全人」吗?
洗完澡,开始吹头发,系统也跟着我从洗手间切换到了梳妆台的镜子上。吹头发的时候我打算刷刷抖音,但是吹风机太吵( 听觉+言语障碍 ),系统就自动给我加上字幕。同时,我的惯用手握着吹风机,只能单手操作( 肢体障碍 ),所以系统继续采用超大颗按钮的UI模式。
准备出门,拎着包走进车库( 肢体障碍 ),汽车看到我走来,自动辨别出我的身份、给我开门。
这时系统已经切换到车内音响。我一边手握方向盘专心开车( 肢体障碍+视觉障碍 ),一边听着车内音响播报当前的路况和今天的会议日程,并且它还推荐了沿途最便宜的加油站,提醒我该去加油了。
(请不要吐槽为什么都有贾维斯了还没有无人驾驶,咳)
上面这些只是一些最简单的例子,故事不再往下讲了,但是你可以想象一下所有情景障碍情况下的应用 —— 做饭、遛狗、跑步、骑自行车、去嘈杂的餐厅、手指受伤、等等。
即便不考虑情景感知的部分,多模态交互本身也是成立的 —— 笨办法就是,可以让用户主动以当前能够使用的操作方式切换到另一种模态(比如"OK Google,把新闻读给我听」、点击按钮切换到显示模式继续看新闻)。
语音交互虽然已经进入主流,但是使用场景仍然非常有限,无法全盘代替视觉+触碰交互(所以视障用户才需要用读屏软件这么笨重的解决方法)。我认为完全可以替代视觉+触碰的的语音交互会是多模态交互的下一个突破点。
不对用户的感知/操作能力做出任何假设、并且可以在不同输入/输出方式间切换自如,这才是真正友善包容、以人为本的交互方式。
如果对无障碍设计或「所有人都在某些时候是残障人士」这个概念感兴趣,我在这篇文章里有深入讨论:
也欢迎关注专栏「无障碍,是每个人都被世界善待」,以及公众号「无障碍设计研究小组」