考拉悠然完成億元B輪融資，如何開啟多模態大模型行業套用新篇章

2024-08-24心靈

進入2024年以來，多模態大模型與垂直大模型逐漸成為未來發展的兩大方向，且垂直大模型往往也同時具有多模態能力。

一般來說，不同模態的基礎模型都是單獨預訓練的，海量的單模態數據並未建立與之匹配的多模態數據。那麽，如何將原本互相獨立的大模型連線以實作協同推理，大模型對單模態數據token化之後的學習如何遷移，如何借助多模態大模型解決更多行業問題？

簡而言之，那就是語言能力如何處理物理世界中的非語言問題？這個反問，正是大模型從"單模態"向"多模態"發展的推動主因。

當前，多模態大模型兩種主流技術路線——其一是原生多模態；其二是將視覺模組以解碼器模型架構作為語言模組額外輸入。從解決問題與落地成本的角度去看，前者理論上解決能力更強但需要更高的成本；而後者更容易在小參數的前提下解決更多細分場景問題，更有利於套用在各行業直接處理物理任務。

技術路線的演化產業界同樣有所反映。西南地區人工智慧鏈主企業考拉悠然近日就宣布完成了1億元B輪融資，並推出悠然遠智全模態AI套用平台。

考拉悠然，正在探索什麽？

從多模態大模型到最新的全模態AI套用平台，考拉悠然的動作對行業意味著什麽？作為一家已形成了工具鏈平台、大模型能力、行業套用與服務三位一體完整體系的AI企業，考拉悠然是如何探索行業落地新方向的？

考拉悠然探索的，正是人工智慧技術如何與具體行業深度融合，如何用更高的效率去解決行業問題。

首先，不同行業的業務邏輯、數據結構和套用場景差異極大，如何將通用的大模型技術客製化地套用於各行各業，實作技術與業務的無縫對接，是當前面臨的一大挑戰。「百模大戰」之所以打得紛紛擾擾，或者說產業化之路不暢，就在於找到成熟的商業模式比訓練出大模型更難。

其次，打破堵點，正需要大模型從單一的文書處理、文字生成，走向多模態的解決能力。 因為現實場景中的很多問題，不是文字，而是影像、視訊、震動、聲音等等。考拉悠然自主研發的全球首款多模態AI作業系統——碼極客，就是基於這種對多模態解決能力的需求以及團隊在視覺智慧、跨媒體智慧、大數據智慧等AI核心領域近20年科研積累，原創1000+種多模態AI演算法，從而才能在應對各類場景多模態需求時遊刃有余。

據了解，考拉悠然以碼極客為基礎，生成了工業檢測、安全生產和城市治理等多類行業大模型並實作落地套用。以工業檢測為例，考拉悠然推出的「高精度、高速度、高準度」的「三高」智慧檢測平台及裝置，檢測精度可達到0.2um，已廣泛套用到國內螢幕顯示及半導體芯片制造巨頭企業，助力客戶生產效率提升10%以上。

第三，大模型產業化的進階之路，必然需要深入到行業套用中去。

早在2018年，在大模型以及多模態大模型技術尚不成熟，甚至不為人知的時代，考拉悠然就意識到，人工智慧將在彼時機器視覺等主流技術基礎上，向多模態智慧互動技術深度發展。

大模型產業化之路，有一個角色其實是被行業所忽視的，那就是系統整合商。據了解，全國註冊有資質的系統整合商就有2萬余家，在大模型賦能各型別傳統企業上，系統整合商是AI企業必須與之合作的夥伴。碼極客，其實就相當於為系統整合商們提供一個底層系統，方便整合商結合自己多年的行業經驗開發針對性的套用。

考拉悠然聯合創始人、CEO沈復民就曾表示， 「考拉悠然是一個技術型團隊，我們所擅長的就是底層技術，讓更多系統整合商輕松打造自己的客製化人工智慧產品。」

進入大模型時代之後，數據和演算法的價值進一步放大。系統整合商和客戶那裏有很多沒有被很好利用的數據，但一些大模型企業卻沒有提供能夠利用好這些行業多模態數據的演算法，百模大戰之下，很多大模型依然在做聊天工具而不是產業賦能工具。

大模型的產業化之路，究竟堵在了哪裏？如何打通感知、認知乃至決策的互動屏障，如何在語音、影像、文本、視訊等之外，促進更多模態關聯，實作結構化和非結構化數據的快速分析與決策？

全模態其實就是基於這些考量，對多模態的一種持續探索。

考拉悠然也將全模態能力分為 全模態互動、全終端互動、全資訊互動、全場景互動四大基礎能力，並基於這些基礎能力進行更加專業的行業套用生成。 基於這四大基礎能力，考拉悠然的「悠然遠智全模態AI套用平台」就具有視訊理解、全模態內容搜尋、知識問答、BI數據分析、結構化文件與數據生成、多模態趨勢預測等更加全面的能力，從而為更多行業提供AI賦能。

從歸國創業到產業龍頭：考拉悠然點亮中西部AI之光

據了解，考拉悠然由歐洲科學院院士、ACM/IEEE/OSA Fellow 申恒濤教授領銜20余位海外名校歸國博士，在2017年創立。從創立之初，考拉悠然就瞄準人工智慧經濟，2018年推出「考拉大腦」AI平台，將電腦視覺辨識和語音互動技術落地雙流機場以及國內部份園區，甚至走出國門在阿聯機場套用。考拉悠然也是在早期視覺、語音等技術的基礎上，逐漸發展了多模態大模型技術。

作為成都大模型產業的鏈主企業，考拉悠然不僅率先在中西部推出第一個多模態產業通用大模型——悠然大模型，更以其強大的資源配置能力和協同創新組織能力，為西部地區的大模型發展鋪設了堅實的基石。

早在2019年，考拉悠然就與四川通訊設計簽訂戰略合作協定，在人工智慧、雲端運算、大數據、物聯網、行動網際網路等領域展開深度合作。當年，考拉悠然還在遂寧成立人工智慧中心，打造川中AI示範基地，放射線帶動周邊乃至成渝經濟區人工智慧發展。

考拉悠然立足四川，對於當地在城市治理、軌域交通等建設上的很多G端需求，一直在貢獻自己的力量。此外，在全國範圍內，考拉悠然也為高端屏顯、煙草生產、半導體等眾多產業提供相關解決方案，據了解，考拉悠然已面向行業套用開發出悠然半導體大模型、悠然煙草大模型、悠然高空視訊大模型、悠然城市治理大模型等多種模型。

比如，煙草行業因為制造裝置復雜，流程繁多，一些車間新老裝置不相容，多套裝置的資訊化系統往往出現孤島化現象，數據難以整合。在過程管控方面，也主要依賴人工感知，連續性生產產線上的斷點和堵點難以及時發現。此外，行業內部沈睡的數據價值尚未得到充分挖掘，缺乏有效的復盤手段，導致整體效率低下，人力管理和維護成本較高等問題。

而考拉悠然的煙草大模型方案，基於多模態大模型技術，從人員管理、作業管控、隱患治理、安全監管、產業聯動等多方入手，支持200+的演算法，可根據實際檢測需求，靈活適配演算法進行檢測，部署方式非常靈活，據了解該方案已經在四川中煙等煙草企業落地，減少人員成本50%以上，實作異常事件全鏈條數據100%自動存證。

人工智慧是今年四川省1號創新工程，四川省以及成都市也極為重視人工智慧產業的發展。今年5月20日召開的成都市新型工業化推進大會，更是明確提出到2026年人工智慧核心產業規模達到1700億元。

作為成都市人工智慧產業鏈鏈主企業、考拉悠然以碼極客為底座，聯合成都本地人工智慧產業鏈上下遊生態，也在將AI模型和演算法技術高效率套用到眾多行業場景中。

比如，針對大型制造生產企業的安全管控需求，推出安全生產大模型。針對電力巡檢、國土保護、河道治理、森林防火等業務場景，推出高空視訊大模型。據了解，考拉悠然新研發的道路智慧化監管系統，正在推動過程中，後續將在四川高速公路上套用。

考拉悠然攜手上下遊企業，在基礎層、技術層、套用層等多個維度展開深度合作，共同推動了成都人工智慧產業鏈上下遊的協同發展，顯著提升了西南區域在人工智慧方面的生產力和競爭力。

考拉悠然以多模態行業通用大模型賦能千行百業

對於行業來說，人工智慧就像蒸汽、電力、互聯網一樣，是產業變革的新能源。但蒸汽機的套用局限於工業生產環境，電力雖然進一步將能源供應擴充套件到了城市鄉村的各個角落，但電力網路的覆蓋仍然受到地理、界限的限制，直到互聯網的出現才使得資訊和知識作為新經濟的「能源動力」跨越國界自由流動。

人工智慧的發展和套用，同樣經歷了從局部到全域、從單一到多元的拓展過程，而且更進一步，滲透進制造業、服務業、醫療、教育、交通等千行百業。但人工智慧不同於蒸汽、電力和互聯網的是，一家電廠可以供給幾乎所有行業，但大模型時代卻不存在一家AI企業，能夠開發出適合所有場景的通用大模型。當然這不是說通用大模型不重要，而是在解決問題層面，要能夠將行業能力發揮出來。

什麽樣的大模型才能更好地解決問題，實作商業化落地，建立起自身的壁壘和門檻？

沈復民曾指出，考拉悠然的核心技術壁壘是「碼極客」——OSMAGIC人工智慧作業系統。該系統能夠相容各種各樣的軟硬體，在傳統產業智慧化改造的過程中，能夠避免因升級而造成的大量裝置浪費。此外，考拉悠然的產業大模型，還會針對行業特點，強化特定模型在某些領域的能力，更聚焦於行業關註的場景計畫，比如悠然半導體大模型、悠然煙草大模型、悠然高空視訊大模型等。

目前最強的開源大模型已經超過了4000億參數（Meta於7月23日釋出的Llama 3.1 405B），但仍未實作通用人工智慧。但4000億參數大模型的訓練成本已經是全球除了少數巨頭，其他企業難以承擔的成本。 從產業化的角度，這種千億級參數通用大模型，會是少數大模型企業彰顯技術實力的方向，但顯然不是產業界大模型套用企業要走的方向。

對產業界來說，大模型未來的發展趨勢是怎樣的呢？

考拉悠然董事長申恒濤

考拉悠然董事長申恒濤在2024世界人工智慧大會上就指出當前AI大模型發展有三個趨勢：

一是大模型從「單模態」向「多模態」；

二是從「通用大模型」到「行業大模型」發展；

三是從人工到工具鏈，未來將自動生產越來越多的AI原生套用。

簡而言之，就是企業級大模型應走垂直化、產業化、行業化的路線，從通用轉向行業細分與客製化解決方案。在這一演進過程中，考拉悠然已經落地了不少案例。

比如，為半導體、螢幕企業提供包括LED支架檢測裝置、功率器件檢測裝置、屏顯檢測裝置、玻璃檢測、膜材檢測等多個系列的智慧化監測裝置，一些產品更是打破了此前國外監測產品的壟斷。

像一些螢幕大廠，生產制造中需要對大幅面玻璃進行切割，不管是用雷射還是刀輪進行切割，切割過程中，都不免會產生裂紋。對於裂紋，生產線上會采用磨邊的形式，將微小裂紋磨掉，但磨邊時候可能磨多了、磨少了，也會產生其他瑕疵問題。

而考拉悠然的玻璃表面及邊緣外觀缺陷AOI裝置，最高達0.16um的光學精度，具備高達65M像素的相機，結合多模態大模型的影像辨識和分析能力，能夠更高效地檢測半導體產品的塌線、膠高、膠偏、劃痕、裂紋、異物、色差等問題。

據了解，考拉悠然自主研發的國內首台玻璃基Micro LED晶圓量檢測裝置已於近日正式完成出貨交付，該裝置是提高Micro LED晶圓生產良率不可或缺的監測裝置。該裝置的成功研發並出貨，也打破了國際壟斷，為中國Micro LED產業提供了國產化解決方案。

再如鐵路養路護路領域，傳統的人工巡查，⽆法全天候監測辨識，⽆法提前感知預警，⽆法⾃動取證固證。而考拉悠然為中國鐵路成都局提供的全天候智慧監測解決方案，運⽤視訊AI智慧分析和⼤模型技術，接⼊鐵路沿線的中⾼空視訊監控點位，並結合各類物聯傳感器，實作多源感知和主動辨識各類違規闖⼊、異物覆蓋、環境異常等安全隱患事件。

考拉悠然面向行業套用的工業檢測大模型、煙草大模型、交通大模型、城市大模型，以其高度的客製化和專業性，為不同行業提供了精準高效的解決方案。 在行業細分場景中尋找大模型賦能的切口，也已經是新一輪大模型投融資的重點。

大模型從最開始的聊天套用，到後來的RAG、Agent，再到多模態的發展趨勢，意味著大模型技術從只能處理單一模態的數據，到能夠主動執行部份任務，整合和處理多種模態的數據，再到能夠對所有可感知資訊進行跨模態互動和理解，這就為人工智慧在更廣泛場景中的套用提供了無限可能。

未來，多模態也將逐漸成為大模型行業的標配。產業界要想在多模態上提供與時俱進的AI解決方案，顯然也需要AI企業主動出擊，不能守株待兔「拿著錘子等釘子」，只有深入千行百業，去探尋和理解客戶的細微差異需求，才能拿出客戶亟需、有針對性的行業解決方案。