當前位置: 華文星空 > 知識

下一個革命性的人機互動方式會是什麽?

2020-05-19知識

拋磚引玉了。

我期待看到的下一個人機互動大動作是 multimodal interaction 多模態互動 。一些別的回答已經提到,但我想要深入討論一下。

這個詞在人機互動領域其實已經存在幾十年了,指的是一件事可以透過多種互動方式做到。很多小範圍的互動實際上也已經達到了多模態,比如打字輸入這件事,你可以在實體鍵盤上打字、可以在觸屏鍵盤上打、可以用觸控筆或手寫輸入,也可以用語音輸入。

但是,我們離真正的、全面並且無縫銜接的多模態互動,還差那麽一點。

首先丟擲利益相關,我是做 無障礙互動設計 的,就是針對有視覺/聽覺/肢體/言語/認知障礙的使用者做設計。

無障礙領域的一大基石是,

所有人都在某些時候是殘障人士

視覺障礙,可以是眼盲,也可以是開車的時候眼睛放在路上沒法看手機。
聽覺障礙,可以是耳聾,也可以是在嘈雜的餐館裏聽不清朋友說話。
肢體障礙,可以是截癱,也可以是做飯的時候騰不出來手操作手機。
言語障礙,可以是失語癥,也可以是出國旅遊無法和當地人溝通。
認知障礙,可以是阿茲海默癥,也可以是忙了一天累得腦袋轉不動。

使用者(人)與裝置(機)之間的互動,是由 輸入 (input) 輸出 (output) 兩部份組成的。任何輸入或者輸出方式都要透過使用者的某個感知能力才能成立。

目前主流裝置中,普遍的輸入和輸出模態有以下幾種:

裝置輸出:視覺、聽覺、觸覺;使用者輸入:觸摸、語音

任何障礙,無論是永久性的障礙(如眼盲/耳聾),還是情境性或臨時性的障礙(如開車/做飯),都會影響到使用者某些模態的感知或操作能力。

視覺障礙會影響視覺輸出和觸碰輸入(僅限於無法觸碰精準的位置),肢體障礙會影響觸覺輸出和觸碰輸入,聽覺障礙會影響聽覺輸出,言語障礙會影響語音輸入,認知障礙可能會影響任意一種輸出或輸入。

換句話說,

任何人,在任何場景下,任意一個輸出或輸入模態都可能受到限制。

但是,反觀我們現在主流的產品互動,絕大多數都是基於「視覺輸出」+「觸碰輸入」。即便是已經達到多模態互動的操作(比如打字),仍然是視覺+觸碰為主、其他模態為輔(仍然要先按下語音輸入按鈕,然後才能開始透過語音打字)。

視覺輸出、觸碰輸入為主,其他互動模態都是次要的

這顯然無法滿足現代人更加多樣、更加動態的裝置互動需求。要不然每年也不會有那麽多車禍是一邊開車一邊用手機導致的了。

真正的多模態互動,是任意一種輸出/輸入方式,都可以被任意另一種所取代。

視覺/聽覺/觸覺互相替代、觸碰/語音互相替代

再加上 ambient computing 帶來的情景感知和智慧輔助(見 @吳升知 的回答),這就可以非常厲害了。

這個概念實際套用起來會是怎樣?

床頭的鬧鐘剛響,我迷迷糊糊地睜不開眼睛( 視覺障礙) ,就跟鬧鐘說「關掉鬧鐘」來停止它。系統檢測到我起床了但睡眼惺忪,開始用語音播報現在的時間、今天的天氣、新聞、日程。

考慮到我剛起床有點迷糊( 認知障礙 ),它特意采用簡短、語言簡單的版本來報新聞。

走進洗手間,系統也跟著從床頭切換到洗手間裏。用電動牙刷刷牙的時候,我聽不清聲音( 聽覺障礙 ),系統就從語音朗讀切換到隱藏在鏡子裏的顯示,讓我用眼睛接著讀新聞。

刷牙的時候只有非慣用手能操作裝置,用起來不靈活( 肢體障礙 ),但因為在刷牙我也沒法用語音操控( 言語障礙 ),所以系統把鏡子上的UI調整為適合我的模式,顯示出超大顆的「上一篇」、「下一篇」按鈕,方便我點選。

看,起床不到10分鐘,已經遇到了所有型別的障礙。你確定你真的是個所謂的「健全人」嗎?

洗完澡,開始吹頭發,系統也跟著我從洗手間切換到了梳妝台的鏡子上。吹頭發的時候我打算刷刷抖音,但是吹風機太吵( 聽覺+言語障礙 ),系統就自動給我加上字幕。同時,我的慣用手握著吹風機,只能單手操作( 肢體障礙 ),所以系統繼續采用超大顆按鈕的UI模式。

準備出門,拎著包走進車庫( 肢體障礙 ),汽車看到我走來,自動辨別出我的身份、給我開門。

這時系統已經切換到車內音響。我一邊手握方向盤專心開車( 肢體障礙+視覺障礙 ),一邊聽著車內音響播報當前的路況和今天的會議日程,並且它還推薦了沿途最便宜的加油站,提醒我該去加油了。

(請不要吐槽為什麽都有賈維斯了還沒有無人駕駛,咳)

上面這些只是一些最簡單的例子,故事不再往下講了,但是你可以想象一下所有情景障礙情況下的套用 —— 做飯、遛狗、跑步、騎自由車、去嘈雜的餐廳、手指受傷、等等。

即便不考慮情景感知的部份,多模態互動本身也是成立的 —— 笨辦法就是,可以讓使用者主動以當前能夠使用的操作方式切換到另一種模態(比如"OK Google,把新聞讀給我聽」、點選按鈕切換到顯示模式繼續看新聞)。

語音互動雖然已經進入主流,但是使用場景仍然非常有限,無法全盤代替視覺+觸碰互動(所以視障使用者才需要用讀屏軟體這麽笨重的解決方法)。我認為完全可以替代視覺+觸碰的的語音互動會是多模態互動的下一個突破點。

不對使用者的感知/操作能力做出任何假設、並且可以在不同輸入/輸出方式間切換自如,這才是真正友善包容、以人為本的互動方式。

如果對無障礙設計或「所有人都在某些時候是殘障人士」這個概念感興趣,我在這篇文章裏有深入討論:

也歡迎關註專欄「無障礙,是每個人都被世界善待」,以及公眾號「無障礙設計研究小組」