兩天前,知名 AR 廠商 Rokid 釋出了新一代 AR 眼鏡——Rokid Glasses,透過網絡攝影機、多模態大模型以及(玻璃繞射)光導波等技術,在一定程度上讓 AR 眼鏡實作了對真實世界的感知與理解,以及對使用者的協同與展現。
然而就當下來說,AI 或者說視覺大模型對真實世界的理解還遠遠不夠,更多還是對二維照片的物體辨識,很難像人類一樣具備空間理解能力,也根本無法準確描述物體與物體、物體與人之間的空間關系。
而這個問題的答案,或許還是要從大模型技術中尋找解法。
稍早前,【Pokémon Go】開發商 Niantic 對外宣布正在開發「地理空間大模型」(Large Geospatial Model,簡稱 LGM),將利用大規模機器學習來理解真實世界的空間,借助 LGM 模型實作「空間智能」。
LGM 模型訓練,圖/ Niantic
用全球玩家數據打造的「地理空間大模型」
正如 Niantic 在新聞稿中提到的,即使是當今最先進的 AI 模型也難以視覺化和推斷場景中的缺失部份,或從新的角度想象一個地方。而在根本上,Niantic 認為借助大語言模型訓練的方式,我們已經能讓 AI 實作比擬甚至超越人類空間理解能力的「空間智能」。
野心背後,Niantic 的另一份底氣在於,作為【Pokémon Go】【Ingress】開發商,Niantic 早就手握全球無數玩家貢獻的海量真實影像和地圖數據,並在過去五年中開發視覺定位系統 (VPS) ,在手機上實作根據單個影像在 3D 地圖中確定使用者的方位。
事實上,2021 年 Niantic 還釋出過一項名為 ManyDepth 的技術,能夠透過單個手機網絡攝影機直接建立 3D 地圖,利用機器學習將沒有深度資訊的二維影像轉化為帶有深度資訊的三維影像,並且不依賴 LiDAR 或者其他深度傳感器。
圖/ Niantic
而作為 Niantic 視覺定位系統的一部份,LGM 模型目前已經訓練了超過 5000 萬個神經網絡,擁有超過 150 萬億個參數,能夠在超過 100 萬個位置執行。 Niantic 首席科學家 Victor Prisacariu 還表示:
「利用我們的使用者在玩 Ingress 和 Pokémon Go 等遊戲時上傳的數據,我們打造了世界的高保真 3D 地圖,其中包括 3D 幾何形狀(或事物的形狀)和語意理解。」
最終,LGM 模型的目標是在全球範圍內實作對地理空間的共同理解,即便是那些沒有被玩家掃描過的地方。
但 LGM 模型意義不僅是讓器材「看懂」真實環境,提供精準的空間定位。 更重要的是,只有讓電腦能夠更準確、高效地感知和理解物理空間,才能更深刻地改變人與機器之間基於物理世界的互動方式,進而推動 AR 眼鏡以及智能機器人真正走進我們的生活。
左邊是 Rokid Glasses,右邊是特斯拉擎天柱,圖/ Rokid、特斯拉
不過具體到 AR 眼鏡上,LGM 模型的推出真的會如人們期待的那樣,加速 AR 眼鏡的普及嗎?甚至成為 AR 行業的「一腳地板油」?這不是一個容易解答的問題。
地理空間大模型,AR版的「高精地圖」?
在 AR 眼鏡中,準確的空間定位一直是重中之重,這一點相信早已不言而喻。問題在於,現行的 SLAM(同步定位與建圖)空間定位技術就像一位即興作畫的畫家: 透過網絡攝影機等傳感器,即時描繪周圍環境的地圖並確定自身的位置。
但要用這種「即看即建」的方式實作準確的空間定位,不僅依賴傳感器支持,往往還需要較高的效能與續航開銷,對於內部空間「寸土寸金」的 AR 眼鏡來說,始終是不小的壓力。AR 廠商不是沒想過新的解決方案,比如 Rokid AR Studio 上就實作了基於單目網絡攝影機的空間定位和手勢辨識,也只是降低了硬件門檻和成本。
Rokid AR Studio,圖/ Rokid
而與之相對,LGM 模型和 SLAM 技術可以理解為 AR 眼鏡的「地圖」和「指南針」: LGM 提供了一幅全域性的高精度地圖,為器材提供宏觀層面的環境理解;SLAM 則像指南針,幫助器材在未知或動態環境中快速調整和適應。
透過構建了一套全球性的高精度 3D 地圖,LGM 模型能夠提供詳盡的地理空間資訊。對於 AR 眼鏡來說,這種預先構建的地圖意味著在已知環境中無需從零開始建圖,而是可以直接利用 LGM 提供的全域地圖進行精準定位, 理論上可以在不影響準確性的前提下,大幅削減效能開銷,尤其在室外場景。
想象一下,當你在一個陌生的城市中尋找餐館,AR 眼鏡讓導航箭頭更準確地貼合地面,更精確地指向餐館的入口,而不是像過去那樣懸浮在半空,只能提供粗略的方向。這種視覺上的準確性不僅提高了便利性,也增強了使用者對 AR 眼鏡的信任感。
另一方面,LGM 模型對空間的「語意理解」,對於 AR 眼鏡的意義不只是辨識環境,還在於「理解」環境。 與 SLAM 只是繪制幾何地圖不同,LGM 模型還能透過語意理解為空間中的物體賦予了具體意義,讓 AR 眼鏡能夠理解環境的上下文,將虛擬的 3D 物體合理地放置在真實空間的方位中。
任天堂與 Niantic 合作的【皮克敏】AR 手遊,圖/ Niantic
這一點也與現有視覺模型依賴二維影像辨識技術不同,視覺模型更多只能辨識出眼前是「路」還是「樹」,卻無法理解這些物體在空間中的位置,自然也無從談起虛擬內容在真實空間的合理放置。
不過眾所周知,【Pokémon Go】並未進入中國,中國市場也始終沒有出現一款能夠進入大眾視野的 AR+LBS 遊戲。類似 LGM 的地理空間大模型,在中國還沒有出現成長的土壤。
但視覺大模型其實也有潛力從二維平面的物體辨識前進演化到三維空間的理解,具備「空間智能」,甚至是影片生成模型也有可能。 就像 OpenAI Sora 出現之初,以 360 創始人周鴻祎為代表的一部份人都認為 Sora 不僅是影片生成模型,還是能夠最終理解物理世界的「世界模型」。
Sora,圖/ OpenAI
再有,Niantic 的 LGM 目前仍在開發中,理論上的潛力是一方面,實際上的表現則是另一方面,還很難斷言它的未來。
AI大模型改變 AR 眼鏡,一切才剛開始
在之前的報道,雷科技多次提到一個觀點:最近一年多智能眼鏡的關鍵轉變在於大模型帶來的自然理解能力大升級,帶來了人機語音互動的質變,這是互動方式有限的智能眼鏡能夠爆發的前提條件。
這一點對於 AR 眼鏡其實亦然。 雖然包括 Rokid、雷鳥創新都在嘗試各種互動方式,比如 Rokid 基於單目網絡攝影機的手勢互動,雷鳥創新基於智能戒指的互動,但實際上主流產品線受限於效能、體驗和成本等因素,語音和觸摸互動,才是核心的互動方式。
雷鳥 X2,圖/雷鳥創新
從這個角度看,AI 語音互動帶來的質變也就不言自明了,可以明顯改善 AR 眼鏡在人機互動方式上的短板。 而與此同時,大模型也在帶來電腦視覺能力上的「基因突變」,決定著 AR 眼鏡的未來方向。
誠然,目前 AI 視覺的價值才剛剛嶄露頭腳,比如基於周圍環境的即時問答、直接轉譯外文進行播報或文本呈現等,都能做到比以往更低的成本、更好的體驗。另外,地理空間大模型、能夠理解世界的影片生成模型,對於 AR 眼鏡來說也還未真正達到可用。
但不管從互動體驗,還是 AR 眼鏡的「減重」來看,基於網絡攝影機的 AI 視覺(端雲混合)在理論上都有更高的潛力,不僅能降低空間互動的復雜度和門檻,也能減少傳感器和傳統計算開銷,從而做到重量和成本的降低、續航的提升。
一言以蔽之,大模型改變 AR 眼鏡的旅程,還遠沒有走到終點。