下一個革命性的人機互動方式會是什麽？

2020-05-19知識

拋磚引玉了。

我期待看到的下一個人機互動大動作是 multimodal interaction ， 多模態互動 。一些別的回答已經提到，但我想要深入討論一下。

這個詞在人機互動領域其實已經存在幾十年了，指的是一件事可以透過多種互動方式做到。很多小範圍的互動實際上也已經達到了多模態，比如打字輸入這件事，你可以在實體鍵盤上打字、可以在觸屏鍵盤上打、可以用觸控筆或手寫輸入，也可以用語音輸入。

但是，我們離真正的、全面並且無縫銜接的多模態互動，還差那麽一點。

首先投擲利益相關，我是做 無障礙互動設計 的，就是針對有視覺/聽覺/肢體/言語/認知障礙的使用者做設計。

無障礙領域的一大基石是，

所有人都在某些時候是殘障人士 。

視覺障礙，可以是眼盲，也可以是開車的時候眼睛放在路上沒法看手機。
聽覺障礙，可以是耳聾，也可以是在嘈雜的餐館裏聽不清朋友說話。
肢體障礙，可以是截癱，也可以是做飯的時候騰不出來手操作手機。
言語障礙，可以是失語癥，也可以是出國旅遊無法和當地人溝通。
認知障礙，可以是阿茲海默癥，也可以是忙了一天累得腦袋轉不動。

使用者（人）與器材（機）之間的互動，是由 輸入 (input) 和 輸出 (output) 兩部份組成的。任何輸入或者輸出方式都要透過使用者的某個感知能力才能成立。

目前主流器材中，普遍的輸入和輸出模態有以下幾種：

器材輸出：視覺、聽覺、觸覺；使用者輸入：觸摸、語音

任何障礙，無論是永久性的障礙（如眼盲/耳聾），還是情境性或臨時性的障礙（如開車/做飯），都會影響到使用者某些模態的感知或操作能力。

視覺障礙會影響視覺輸出和觸碰輸入（僅限於無法觸碰精準的位置），肢體障礙會影響觸覺輸出和觸碰輸入，聽覺障礙會影響聽覺輸出，言語障礙會影響語音輸入，認知障礙可能會影響任意一種輸出或輸入。

換句話說，

任何人，在任何場景下，任意一個輸出或輸入模態都可能受到限制。

但是，反觀我們現在主流的產品互動，絕大多數都是基於「視覺輸出」+「觸碰輸入」。即便是已經達到多模態互動的操作（比如打字），仍然是視覺+觸碰為主、其他模態為輔（仍然要先按下語音輸入按鈕，然後才能開始透過語音打字）。

視覺輸出、觸碰輸入為主，其他互動模態都是次要的

這顯然無法滿足現代人更加多樣、更加動態的器材互動需求。要不然每年也不會有那麽多車禍是一邊開車一邊用手機導致的了。

真正的多模態互動，是任意一種輸出/輸入方式，都可以被任意另一種所取代。

視覺/聽覺/觸覺互相替代、觸碰/語音互相替代

再加上 ambient computing 帶來的情景感知和智能輔助（見 @吳升知的回答），這就可以非常厲害了。

這個概念實際套用起來會是怎樣？

床頭的鬧鐘剛響，我迷迷糊糊地睜不開眼睛（ 視覺障礙） ，就跟鬧鐘說「關掉鬧鐘」來停止它。系統檢測到我起床了但睡眼惺忪，開始用語音播報現在的時間、今天的天氣、新聞、日程。

考慮到我剛起床有點迷糊（ 認知障礙 ），它特意采用簡短、語言簡單的版本來報新聞。

走進洗手間，系統也跟著從床頭切換到洗手間裏。用電動牙刷刷牙的時候，我聽不清聲音（ 聽覺障礙 ），系統就從語音朗讀切換到隱藏在鏡子裏的顯示，讓我用眼睛接著讀新聞。

刷牙的時候只有非慣用手能操作器材，用起來不靈活（ 肢體障礙 ），但因為在刷牙我也沒法用語音操控（ 言語障礙 ），所以系統把鏡子上的UI調整為適合我的模式，顯示出超大顆的「上一篇」、「下一篇」按鈕，方便我點選。

看，起床不到10分鐘，已經遇到了所有類別的障礙。你確定你真的是個所謂的「健全人」嗎？

洗完澡，開始吹頭發，系統也跟著我從洗手間切換到了梳妝台的鏡子上。吹頭發的時候我打算刷刷抖音，但是吹風機太吵（ 聽覺+言語障礙 ），系統就自動給我加上字幕。同時，我的慣用手握著吹風機，只能單手操作（ 肢體障礙 ），所以系統繼續采用超大顆按鈕的UI模式。

準備出門，拎著包走進車庫（ 肢體障礙 ），汽車看到我走來，自動辨別出我的身份、給我開門。

這時系統已經切換到車內音響。我一邊手握方向盤專心開車（ 肢體障礙+視覺障礙 ），一邊聽著車內音響播報當前的路況和今天的會議日程，並且它還推薦了沿途最便宜的加油站，提醒我該去加油了。

（請不要吐槽為什麽都有賈維斯了還沒有無人駕駛，咳）

上面這些只是一些最簡單的例子，故事不再往下講了，但是你可以想象一下所有情景障礙情況下的套用 —— 做飯、遛狗、跑步、騎單車、去嘈雜的餐廳、手指受傷、等等。

即便不考慮情景感知的部份，多模態互動本身也是成立的 —— 笨辦法就是，可以讓使用者主動以當前能夠使用的操作方式切換到另一種模態（比如"OK Google，把新聞讀給我聽」、點選按鈕切換到顯示模式繼續看新聞）。

語音互動雖然已經進入主流，但是使用場景仍然非常有限，無法全盤代替視覺+觸碰互動（所以視障使用者才需要用讀屏軟件這麽笨重的解決方法）。我認為完全可以替代視覺+觸碰的的語音互動會是多模態互動的下一個突破點。

不對使用者的感知/操作能力做出任何假設、並且可以在不同輸入/輸出方式間切換自如，這才是真正友善包容、以人為本的互動方式。

如果對無障礙設計或「所有人都在某些時候是殘障人士」這個概念感興趣，我在這篇文章裏有深入討論：

也歡迎關註專欄「無障礙，是每個人都被世界善待」，以及公眾號「無障礙設計研究小組」