被嘲笑只有沙發彩電的理想，怎麽在智能化上跑這麽快？

2024-11-21心靈

外界對理想汽車的認知，似乎存在不少誤解。

在眾多新興汽車品牌中，理想汽車常常被指責「沒有技術」，甚至有些聲音將其產品貶低為「工業垃圾」。尤其在智能座艙方面，外界對其印象似乎僅限於冰箱、彩電和大沙發等元素。

這種誤解看似有其道理。理想汽車創始人李想被認為是車圈最優秀的產品經理，他敏銳地洞察了多孩家庭的需求，並針對這一細分市場提供了更好的用車體驗。

在這過程中，理想汽車的宣傳策略長久以來是將技術細節置於幕後，更註重於展示產品的使用體驗，比如寬敞的空間、舒適的配置以及影音娛樂等功能，而相對少提及自主研發技術。這些在無形中造成了外界對理想汽車的認知偏差。

盡管理想汽車率先推出了冰箱、彩電和大沙發等配置，但理想汽車深信，真正能夠提升智能座艙體驗的，將是他們自研的大模型——Mind GPT。理想汽車在2023年一季度開始了這一專案，成為全球首個自研大模型上車的汽車企業。

理想汽車AI首席科學家兼智能座艙AI負責人陳偉 | 圖片來源：理想汽車

在廣州車展開始前，極客公園在北京望京的理想汽車辦公室，采訪了理想汽車的AI首席科學家兼智能座艙AI負責人陳偉。他分享了大模型在汽車中的套用及人機互動助手-理想同學的未來展望。

目前，理想汽車已成為新能源車企中的交付領跑者，但其戰略目標遠不止於此。陳偉表示，理想不僅僅是一家車企，更是一家人工智能公司，智能汽車連線了物理世界和數碼世界，他們希望把身處數碼世界的理想同學打造成未來的智能體。發展分為三個階段：首先增強使用者的能力；其次成為使用者的得力助手；最後成為能陪伴使用者的家人。當然，這個三個階段不是涇渭分明，是會相互交叉的。

對於未來，理想設定了一個宏偉的目標：成為全球領先的人工智能企業。他們的智能電動車不僅會成為最早的人工智能機器人，還將構建物理世界中的AI生態系。如今，理想汽車正穩步朝著這一目標邁進。

理想不僅是一家車企，更是一家人工智能企業

Q：外界對理想智能座艙的發展歷程了解不多，你能先介紹下嗎？

陳偉：理想智能座艙的AI互動技術經歷了三代發展。最早，我們主要依賴供應商技術，但三年前開始自主研發，逐步建立了基於視聽融合的多模態互動技術，實作了從語音互動到智能認知的全棧閉環。2023年初，我們啟動了大模型的研發，年底成功將其套用在車載系統中。

在大模型出現前，語音互動主要是命令式或任務型的，行業競爭更多集中在語音辨識的速度、執行的準確性和響應效率上。然而，提升家庭使用者體驗始終是我們的目標。我們專註於「全家人」的用車場景，打造「三維空間互動」的智能座艙。這一座艙不僅是生活和工作之外的「第三空間」，也是一個高效能運算平台，搭載了豐富的傳感器和強大的本地算力，為創新功能奠定了基礎。

例如，我們在座艙中實作了「無音區」技術，不再局限於某個特定區域，而是基於空間座標定位和跟蹤聲源。此外，我們開發了「方言自由說」功能，現已支持9種方言，便於不同使用者群體使用。我們還添加了隔空觸控和手勢辨識，結合語音指令，進一步降低使用者的互動成本。

在研發理想同學的技術時，我們始終專註於讓人機互動更自然、高效，致力於為使用者提供強大而超出預期的智能體驗。

Q：理想在研發自研大模型時主要考慮了哪些因素？

陳偉：在研發大模型之前，車內的套用場景主要集中在車控、媒體、導航等任務型對話，且感知技術趨於成熟，但認知能力仍然不足，尤其在復雜任務理解、知識問答、開放式對話上存在局限，這也制約了理想同學的產品力。

我們在2022年便開始推動預訓練語言模型技術，逐步提升理想同學的自然語言理解能力。而2023年初，隨著ChatGPT的釋出，我們更加堅定大模型是突破認知能力的關鍵。因此，決定啟動Mind GPT的全棧研發，以期推動理想同學的體驗跨越式提升。

當時，開源生態剛剛起步，業界對大模型的理解也較為模糊。為加快進展，我們投入大量資源從大模型基座開始探索大模型「無人區」技術。研發初期，我們專註於車內高頻使用場景，打造理想同學在大模型時代的新角色，包括用車助手、娛樂助手、出行助手和百科老師，力求讓大模型表現出色，並能實作無感知的能力升級，同時與原有的任務型對話無縫融合，從而提升理想同學的智能化水平。

Q：在大模型與傳統對話系統的融合中遇到了哪些挑戰？

在開發Mind GPT時，我們投入大量精力解決了任務型對話系統與大模型能力的融合問題。許多車企的大模型系統需要特定指令才能啟用，導致原有功能失效。而我們的目標是讓理想同學在智能化提升的同時，保留使用者熟悉的互動體驗，讓使用者在自然中感受到功能進步。

此外，隨著大模型的對話能力提升，理想同學在使用者對話中可能會插話幹擾。因此，我們設計了多模態使用者意圖判定演算法，讓理想同學能夠精準辨識是否在與他交流，從而實作「隨叫隨到」卻不打擾使用者的體驗。

大模型在資訊準確性和時效性上存在「幻覺」問題。為此，我們設計Mind GPT具備連線知識庫及互聯網的能力，以確保使用者獲取的資訊準確且及時。這也是我們在最佳化模型體驗時著重突破的方向。透過不斷探索使用者場景，我們在大模型研發的過程中，也在持續擴充套件其套用深度和廣度。

理想Mind GPT的技術架構 | 圖片來源：理想同學

Q：Mind GPT經過了從1.0到3.0的叠代，這個過程中有哪些關鍵技術突破？

陳偉：Mind GPT的演進經歷了三個重要階段：

1.0 大語言模型：聚焦大語言模型能力的打造，在模型效果及推理效率找到最優解，實作理想同學認知能力的躍遷，這個階段重在語言理解、生成、知識問答等能力

2.0 語言智能體：聚焦大語言模型套用能力的打造，核心是構建圍繞Mind GPT的智能體技術及工程體系，理想同學光有一個聰明的大腦是不夠的，他的規劃、記憶、工具、行動的能力都要足夠的好，才能具備自主性，解決更多復雜問題。

3.0 多模態智能體：聚焦多模態的智能體能力打造，核心是構建融合感知和認知的多模態端到端模型的能力，將人機互動感知和認知的級聯系統升級到單一端到端模型，在互動延遲極大降低的同時，多模態數據的融合訓練能夠進一步提升模型的學習質素和效率，實作模型能力顯著提升。

Q：最近，理想汽車連續釋出三篇人工智能頂會論文，能簡單介紹一下這些論文的內容嗎？

陳偉：這三篇論文主要聚焦於提升大模型的感知能力、解決人類-物體互動（HOI）檢測中的長尾問題，以及應對大模型的「幻覺」問題，為理想汽車的多模態、端到端智能體構建提供了重要技術支持。

第一篇論文（文章尾部參考文獻處有詳細介紹）探討了如何有效將多模態資訊與大語言模型（LLM）融合。當前大多數多模態模型將不同模態的內容對齊到語言模型的語意空間，以便利用其強大能力。然而，傳統模態連結器往往無法針對特定任務提取所需的模態資訊。為此，論文提出了Q-MoE（高效的混合專家模態連結器），透過引入文本資訊的監督，使多模態資訊提取更具針對性。Q-MoE采用創新的模型結構和混合專家路由策略，在跨模態多工學習中的效能顯著超過現有連結器。

第二篇論文提出了KG-Adapter，這一技術將知識圖譜（KG）整合進大語言模型，以應對模型「幻覺」問題。盡管大模型在很多工中表現優異，但往往缺乏準確的專業知識和最新資訊。KG-Adapter基於高效微調（PEFT）方法，將知識圖譜的結構資訊直接整合到語言模型中，實作了端到端的知識推理。實驗表明，即使只訓練少量參數，KG-Adapter在多工和多個數據集上超越了之前的模型，顯著提升了知識準確性。

第三篇論文針對HOI檢測的長尾問題，提出了「雙先驗增強解碼網絡」方法。這種雙先驗解碼網絡結合了多模態大模型的互動理解能力和檢測模型的局部特征定位能力，大幅提高了模型在長尾類別上的辨識精度，效能提升超過6個百分點。

Q：理想為什麽要花這麽大的精力自研大模型，很多車企其實利用現有的大模型產品？

陳偉：從戰略上來看，理想公司的目標是成為全球領先的人工智能企業，而大模型技術是AI的核心能力，關系到智能化產品體驗的關鍵。自研大模型能幫助我們在技術創新和使用者體驗上更具主動性和優勢。

從產品的角度看，理想同學旨在超越使用者期望，提供創新和高效的智能體驗。自2022年以來，大模型和智能體技術迅速發展，但也充滿了技術挑戰和不確定性。要在這些前沿領域持續提升產品力，就需要突破技術壁壘，並保持快速叠代的能力。

理想公司從戰略上選擇自研大模型，目的在於打造自主可控的全鏈路技術體系，以更高效、深度的產研協同推動體驗創新。透過自有大模型「Mind GPT」，我們能夠以使用者體驗為中心，實作快速叠代，確保理想同學在智能體驗上的持續領先。

Q：目前理想自研的大模型規模有多大？

陳偉：Mind GPT目前主要分為Ultra、Pro和Nano三個級別，其中Ultra千億級、Pro百億級、Nano十億級，覆蓋了端到雲、簡單到復雜的大模型需求

Q：目前大模型的叠代速度非常快，理想自研的大模型如何跟上這個速度？

陳偉：目前大模型技術叠代的很快，我們也在持續跟進並辨識可行的技術，快速套用到Mind GPT研發中，同時結合我們的業務場景，我們有自己的研發節奏和主線，在模型層面，從Mind GPT 2.0開始我們已經切換到MOE架構，以此進行模型結構的創新和改進，大模型能力會放在多模態、知識增強、邏輯推理上，最近發表的論文也介紹了我們在這些方面的研究進展。

此外，我們認為理想同學智能化水平的提升，除了在大模型能力上持續突破之外，智能體的規劃、記憶、工具、行動等技術的全面升級，才能構建自主性更強的組合智能，這個方向我們也在重點研究，研究進展也會陸續透過產品和論文的方式對外釋出。

汽車的最終形態是智能體

Q：理想同學的終極目標是什麽？

陳偉：我們認為理想同學的前進演化會分為三個階段，增強人的能力，變成使用者的助手，成為使用者的家人。成為使用者的家人會是理想同學的終極目標，對應到研發要做的工作，要實作理想同學多模態智能體的全面突破，可以參考OpenAI對智能的分級標準，需要做到從L1的chatbot到L2 Reasoner，再到L3 Agent的技術演進。

Q：如何具體理解理想同學的三個發展階段？

陳偉：這三個階段體現了我們不斷滿足並超越使用者需求的願景。

第一階段：增強使用者能力在初期，我們希望理想同學幫助使用者更便捷地用車。透過視覺和語音等多模態感知能力，實作自然高效的人機互動。例如，使用者可以自由使用方言或簡單指令，理想同學透過大模型Mind GPT理解和執行車控、導航等任務，提升語音指令執行的準確性。比如，使用者可以簡單說一句「我上車開空調播放音樂，下車都關掉」，理想同學會根據情境自動拆解任務，感知到上車後啟動空調和音樂，下車後自動關閉。這種便捷的功能讓用車體驗更輕松高效。

第二階段：成為使用者的助手在Mind GPT的支持下，理想同學前進演化為使用者的全能助手——包括用車助手、出行助手、娛樂助手和百科老師。作為用車助手，它能回答關於車輛操作、狀態查詢、故障排除等問題；出行助手則可以為家庭旅遊規劃路線，推薦餐飲娛樂，講解沿途文化；娛樂助手能聯網查詢時事熱點、明星動態，播放家庭喜愛的音樂和影視；百科老師則涵蓋廣泛的知識，從兒童的十萬個為什麽，到成人關註的科技資訊，理想同學在持續成長的知識儲備下，為家庭提供全方位的服務。

第三階段：成為使用者的家人隨著理想同學解決問題的能力增強，與使用者的信任關系逐步加深，我們希望進一步建立情感連線，最終成為家庭的數碼成員。這個過程需要從信任到情感，再到身份認同的長期構建。例如，透過聲紋辨識，理想同學已能辨識每位家庭成員；隨著Mind GPT的記憶功能升級，我們不斷加強理想同學的個人化服務能力。在24年的多次OTA更新中，理想同學更能基於對每位家庭成員的理解，主動提供個人化推薦。這是我們堅定發展的方向，希望理想同學獲得更多家庭的認可與喜愛。

Q：目前整個行業，在大模型落地智能座艙方面的進展如何？

陳偉： 2023年我們Mind GPT行業正選之後，2024年行業很多公司都陸續推出了接入大模型的語音助手，行業智能座艙智能化水平整體在快速提升，大模型也成為了重要的賣點。對我們而言，我們唯一關註的是基於Mind GPT的理想同學是否在真正解決使用者問題，是否持續做到超越使用者需求，是否在技術和體驗上是行業引領的，做好自己最重要。

Q：各家車企都在加速大模型的落地，那理想如何打造差異化呢？

陳偉：我們的差異化聚焦於技術創新，這能夠直接推動產品領先。我對差異化的理解分為兩個層面：

第一層面，對於行業內類似的功能，我們的技術和體驗必須顯著超越。現在大模型的套用已經將AI助手從單一領域擴充套件到多元領域，我們的目標是透過技術突破，將體驗從「可用」提升到「好用」。

例如，在推出Mind GPT前，很多公司選擇簡單地將大模型加入現有的任務型對話系統，以快速上線，但這種方式使用時會有割裂感。我們認為使用者應該感受到的是AI助手變得更聰明了，而不是需要操作切換。因此，我們選擇了更難但正確的路線——將大模型融入對話系統，讓「理想同學」一次升級，更加智能。不需要切換操作的情況下，技能從幾十個快速增加到上千個。

第二層面，快速跟進前沿技術並轉化為產品。大模型仍處於快速發展階段。去年大模型釋出後，我們判斷「智能體」將是關鍵技術，因此大力推進相關研發。

隨著Mind GPT 2.0上線，理想同學在大模型和智能體兩方面都得到了升級，Benchmark測試中的理解、生成、知識問答等能力提升了50%以上，而推理成本沒有增加。同時，我們在智能體的規劃、記憶、工具使用和行動方面取得的階段性成果也被迅速轉化為理想同學的功能，這帶來了更強的復雜問題規劃和外部工具連線能力，顯著提升了多輪會話的成功率。

理想同學會成為人機互動的主要入口 | 圖片來源：理想同學

AI時代，語言團隊變化最大

Q：大模型和端到端技術的到來，對組織架構有何影響？

陳偉：大模型時代的到來正在重塑研發模式，導致組織架構發生顯著變化。

在小模型時代，研發組織通常是基於專業技術方向設計的，例如語音、語言和視覺等。不同技術方向的模型選型各異，研發方案往往是多個小模型與業務邏輯相結合的級聯系統，各個方向之間的差異性較大，因此，各個技術方向獨立進行研發、評估和上線。

而在大模型時代，多個研發團隊需要共同支撐Mind GPT這樣單一的大模型的研發和交付。研發方案從級聯系統升級為端到端的系統，研發團隊不再按照技術方向進行組織，而是根據大模型的研發環節來劃分。這包括Mind GPT的大模型預訓練、後訓練、智能體技術、評估和對齊等方向，從而重新設計研發組織架構。

Q：理想同學在車內的比重會越來越大嗎？

陳偉：會越來越大，大模型時代智能座艙的人機互動形態會從觸控式互動走向對話式互動，理想同學會成為人機互動的主要入口，我們已有的車機套用會原子化、平台化，支撐理想同學具備更強的跨套用、高整合度的能力。

Q：多模態智能體目前發展到了哪個階段？未來還有哪些挑戰？

陳偉：我們的多模態智能體正在從Mind GPT 2.0語言智能體向Mind GPT 3.0多模態智能體演進，目前行業研發的重點還是以多模態端到端大模型為主，多模態智能體的研究還較為早期。

我覺得多模態智能體的突破取決於三件事： 1. 大模型邏輯推理能力的突破 2. 多模態特別是語音、視覺和語言的對齊 3. 工具類生態的建設。

Q：最後一個問題，外界對理想最大的誤解是什麽？你們會如何回應？

陳偉：其實談不上誤解，我們更希望透過產品與使用者直接對話。因為關於理想座艙AI和自研技術的對外介紹較少，大家對理想同學的技術進展和現狀可能了解得並不充分。未來，我們會加強與行業和使用者的溝通，增進大家對理想同學技術實力的了解。

在技術研發上，我們始終圍繞「Mind GPT」大模型，致力於打造多模態智能體的全棧自研技術。透過規模化的創新與突破，我們希望理想同學不僅是使用者的助手，更成為陪伴他們成長的家人。這種陪伴和成長，是我們研發團隊最大的成就與自豪。

參考文獻：

1、理想汽車Mind GPT論文【Q-MoE: Connector for MLLMs with Text-Driven Routing】被多媒體領域國際頂級會議ACM MM 2024錄用。

2、理想論文【KG- Adapter:Enabling Knowledge Graph Integration in Large Language Models through Parameter-Efficient Fine-Tuning】，被ACL（計算語言學協會年會，Annual Meeting of the Association for Computational Linguistics） 2024收錄。

3、理想論文【 Dual-prior Augmented Decoding Network for Long Tail Distribution in HOI Detection】，被AAAI （Association for the Advancement of Artificial Intelligence，即人工智能促進協會）收錄。