自2023年ChatGPT問世讓人工智能(AI)成為全世界關註的熱點以來,美國AI產業規劃的路線圖,就是透過大量堆砌算力,建立多模態通用大模型。同時,其壓制中國AI發展的思路,也是透過限制芯片這一算力的核心而來。
但經過兩年發展,美國限制措施並沒有取得預想中「攔腰斬斷」的效果。據【華爾街日報】日前報道,美國從業者發現中國AI企業追趕美國同行的速度「快得出奇」,推測這是中國開發者們透過采用混合大模型技術,降低了對硬件的要求,從而在硬件被封鎖的情況下實作「彎道超車」。
事實證明,只依靠多模態通用大模型並透過大量堆砌算卡來進行訓練,這種AI的發展思路在對AI的理解上就存在誤區。所謂人工智能,是機器對人類智慧進行模仿,形成機器的智能,從而幫助人類工作。其構成包括智能感應、資訊儲存、資訊傳輸、資訊處理(算力、演算法、大模型)、智能終端多個部份,而並非只是一個大模型,更非多模態通用大模型。因此,真正意義上的人工智能,是需要在多領域全方位提升,才能實作人工智能水平的總體升級。
堆砌算卡、將資源集中在算力上導致的不平衡正在顯現。包括OpenAI在內,多家業內頭部公司已傳出「數據荒」的問題。經過兩年的發展,匯聚了大規模萬卡,甚至十萬卡、五十萬卡規模智算集群的算力,大模型並沒有取得脫胎換骨級別的提升,還因為對抗性機器學習、對訓練產生的冗余數據和幹擾資訊過擬合等原因產生了大量「幻覺」。但這些公司只將其簡單歸結為「數據荒」,而事實很簡單:算力的大規模提升並沒有滿足人們對AI巨大突破的預期,而僅靠先進芯片堆出來的算力無法實作構建出一個強大AI的目標。
即便只是處理資訊的大模型,事實也證明了用大量算力來訓練一個多模態通用大模型的路線越來越艱難。因為通用大模型的思路同樣是用大量算力,訓練出一個懂得各專業領域、能處理一切問題的「神人」。然而結果是,除了海量硬件和巨大能源消耗帶來的高昂成本,通用大模型的效果也並沒有達到預期。
從某種角度看,試圖給一切問題找到「通解」,然後用它來解決未來各種不可預知的困難,本身可以被視為一種思維上的怠惰。就人類而言,並不存在一位「全知全能」的神人,而恰恰相反,人類社會多數情況下是在各專業領域進行分工與專精,這才是普遍現象。
對於AI而言,這種思路其實也更適合現階段將AI的數據處理能力套用於提升產業效能、造福人類中。如醫療大模型、智能駕駛大模型,甚至還有專門分析布面是否有瑕疵的大模型。這些專用大模型由於要處理的資訊較少,資訊相關性和邏輯性也很強,幹擾和冗余數據較少,因此對算力的要求很低,不僅不需要什麽「萬卡集群」,有時一張卡就可以完成訓練和推理工作,輸出的內容也更準確,效果更好。但也要註意,設計和訓練專用大模型依然需要相當專業的知識和經驗,包括高水平的設計者、跨學科合作,並透過高效的演算法持續最佳化模型效能,有較高的人才需求。
前文提到的混合大模型,就是一種將通用大模型和專用大模型相結合,在處理具體工作時主要依靠專用大模型,在面對大眾化需求時才呼叫通用大模型。這樣的混合模式減少了資源開銷和能耗,同時大大提高了效率,在專門領域體驗也更好。
雖然長遠來看,AI技術的不斷發展和新套用場景的不斷拓展會帶來更多的算力需求,但現階段智算能力過剩是世界上主要AI大國共同面對的客觀事實:算力利用率大多介於10%到30%之間,通用算力利用率低,而工業、教育、醫療、能源等領域的大量「AI+」專案給AI專項算力、高效能算力等高端算力帶來了巨大的缺口。因此,指望透過堆算力,打造多模態通用大模型的AI發展思路已然落伍,重視垂直領域需求、實作算力的提質升級才是關鍵。
中國從業者在逆境中找到了發展AI的正確路徑,未來需要繼續「內外兼修」。一方面努力突破硬件算力上的封鎖,同時解決國產算卡的底層硬件異構等問題;另一方面要進一步提高國產AI的算效,既最大限度地釋放國產芯片的算力,同時最佳化國產模型的效能,統籌算力「量的增長」和「質的提升」。這才是AI發展的正確之道。(作者是中關村資訊消費聯盟理事長)