拋磚引玉了。
我期待看到的下一個人機互動大動作是 multimodal interaction , 多模態互動 。一些別的回答已經提到,但我想要深入討論一下。
這個詞在人機互動領域其實已經存在幾十年了,指的是一件事可以透過多種互動方式做到。很多小範圍的互動實際上也已經達到了多模態,比如打字輸入這件事,你可以在實體鍵盤上打字、可以在觸屏鍵盤上打、可以用觸控筆或手寫輸入,也可以用語音輸入。
但是,我們離真正的、全面並且無縫銜接的多模態互動,還差那麽一點。
首先投擲利益相關,我是做 無障礙互動設計 的,就是針對有視覺/聽覺/肢體/言語/認知障礙的使用者做設計。
無障礙領域的一大基石是,
所有人都在某些時候是殘障人士 。
視覺障礙,可以是眼盲,也可以是開車的時候眼睛放在路上沒法看手機。
聽覺障礙,可以是耳聾,也可以是在嘈雜的餐館裏聽不清朋友說話。
肢體障礙,可以是截癱,也可以是做飯的時候騰不出來手操作手機。
言語障礙,可以是失語癥,也可以是出國旅遊無法和當地人溝通。
認知障礙,可以是阿茲海默癥,也可以是忙了一天累得腦袋轉不動。
使用者(人)與器材(機)之間的互動,是由 輸入 (input) 和 輸出 (output) 兩部份組成的。任何輸入或者輸出方式都要透過使用者的某個感知能力才能成立。
目前主流器材中,普遍的輸入和輸出模態有以下幾種:
任何障礙,無論是永久性的障礙(如眼盲/耳聾),還是情境性或臨時性的障礙(如開車/做飯),都會影響到使用者某些模態的感知或操作能力。
換句話說,
任何人,在任何場景下,任意一個輸出或輸入模態都可能受到限制。
但是,反觀我們現在主流的產品互動,絕大多數都是基於「視覺輸出」+「觸碰輸入」。即便是已經達到多模態互動的操作(比如打字),仍然是視覺+觸碰為主、其他模態為輔(仍然要先按下語音輸入按鈕,然後才能開始透過語音打字)。
這顯然無法滿足現代人更加多樣、更加動態的器材互動需求。要不然每年也不會有那麽多車禍是一邊開車一邊用手機導致的了。
真正的多模態互動,是任意一種輸出/輸入方式,都可以被任意另一種所取代。
再加上 ambient computing 帶來的情景感知和智能輔助(見 @吳升知 的回答),這就可以非常厲害了。
這個概念實際套用起來會是怎樣?
床頭的鬧鐘剛響,我迷迷糊糊地睜不開眼睛( 視覺障礙) ,就跟鬧鐘說「關掉鬧鐘」來停止它。系統檢測到我起床了但睡眼惺忪,開始用語音播報現在的時間、今天的天氣、新聞、日程。
考慮到我剛起床有點迷糊( 認知障礙 ),它特意采用簡短、語言簡單的版本來報新聞。
走進洗手間,系統也跟著從床頭切換到洗手間裏。用電動牙刷刷牙的時候,我聽不清聲音( 聽覺障礙 ),系統就從語音朗讀切換到隱藏在鏡子裏的顯示,讓我用眼睛接著讀新聞。
刷牙的時候只有非慣用手能操作器材,用起來不靈活( 肢體障礙 ),但因為在刷牙我也沒法用語音操控( 言語障礙 ),所以系統把鏡子上的UI調整為適合我的模式,顯示出超大顆的「上一篇」、「下一篇」按鈕,方便我點選。
看,起床不到10分鐘,已經遇到了所有類別的障礙。你確定你真的是個所謂的「健全人」嗎?
洗完澡,開始吹頭發,系統也跟著我從洗手間切換到了梳妝台的鏡子上。吹頭發的時候我打算刷刷抖音,但是吹風機太吵( 聽覺+言語障礙 ),系統就自動給我加上字幕。同時,我的慣用手握著吹風機,只能單手操作( 肢體障礙 ),所以系統繼續采用超大顆按鈕的UI模式。
準備出門,拎著包走進車庫( 肢體障礙 ),汽車看到我走來,自動辨別出我的身份、給我開門。
這時系統已經切換到車內音響。我一邊手握方向盤專心開車( 肢體障礙+視覺障礙 ),一邊聽著車內音響播報當前的路況和今天的會議日程,並且它還推薦了沿途最便宜的加油站,提醒我該去加油了。
(請不要吐槽為什麽都有賈維斯了還沒有無人駕駛,咳)
上面這些只是一些最簡單的例子,故事不再往下講了,但是你可以想象一下所有情景障礙情況下的套用 —— 做飯、遛狗、跑步、騎單車、去嘈雜的餐廳、手指受傷、等等。
即便不考慮情景感知的部份,多模態互動本身也是成立的 —— 笨辦法就是,可以讓使用者主動以當前能夠使用的操作方式切換到另一種模態(比如"OK Google,把新聞讀給我聽」、點選按鈕切換到顯示模式繼續看新聞)。
語音互動雖然已經進入主流,但是使用場景仍然非常有限,無法全盤代替視覺+觸碰互動(所以視障使用者才需要用讀屏軟件這麽笨重的解決方法)。我認為完全可以替代視覺+觸碰的的語音互動會是多模態互動的下一個突破點。
不對使用者的感知/操作能力做出任何假設、並且可以在不同輸入/輸出方式間切換自如,這才是真正友善包容、以人為本的互動方式。
如果對無障礙設計或「所有人都在某些時候是殘障人士」這個概念感興趣,我在這篇文章裏有深入討論:
也歡迎關註專欄「無障礙,是每個人都被世界善待」,以及公眾號「無障礙設計研究小組」