當前位置: 華文星空 > 新聞

這匹中國大模型黑馬,讓朱克伯格破防了!

2025-01-18新聞

DeepSeek用例項給風投們上了一課,不用高薪聘請擁有浮誇頭銜的資深從業者,以免費的AI開源專案為基礎,利用有限資源同樣能夠做出一流的AI大模型。

撰文丨周隆斌

1月13日,美國拜登政府在卸任前最後一周出台了【人工智能擴散暫行最終規則】。

這份規則將全球各國和地區劃分為3個等級,在獲取美國最先進的AI芯片時,分別接受不同級別的限制。 讓人非常不希望看到的是,中國被劃分進了最嚴格的三級管控,數據中心將被全面禁止進口尖端AI芯片。

這項規則是否施行,將在120天的公眾意見征詢期後再行商討。不過,顯而易見的是,美國政府試圖透過行政手段幹擾全球芯片和AI行業正常發展。

AI技術中蘊藏著無限潛力已經被廣泛證實,尖端AI芯片更是訓練模型時必不可少的基礎。在獲取算力資源難度加大的背景下, 國內AI行業的出路究竟在何方?

近期,被稱作「AI界拼多多」的國產AI大模型——DeepSeek(深度求索),用有限的算力資源,給出了一個解決方案。

01

有起錯的名字,沒有叫錯的綽號。去年底剛剛釋出的DeepSeek-V3開源AI大模型,以史無前例的性價比,重新整理了全球AI行業的認知。

先來看看這個AI大模型的效能,DeepSeek在自家公眾號中這麽介紹V3模型:

DeepSeek-V3多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,並在效能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

簡單來講就是,DeepSeek-V3已經成為現在全球最強開源大模型,可以與頭部閉源大模型掰掰手腕。 從測評結果上看,DeepSeek好像並沒有吹牛,在百科知識、程式碼生成等場景中,DeepSeek-V3確實取得了第一梯隊的成績。

不過,行業內的評測是一份公開試卷,完全可以有針對性地對模型進行訓練。就像電腦的跑分測試,未必就那麽客觀。在實際使用體驗上,DeepSeek-V3的數學和編程能力確實非常強,這也是評測的重點方向。不過,它在一些特殊語境或者創造性思維方面還是差點意思。

例如,向DeepSeek-V3詢問,香菇掉到了馬桶中,那它還能被稱作香菇嗎?它只會一本正經地給出回答,GPT-4o則是先點明這是一句幽默的提問,再進行回答。

對於將AI大模型當作搜尋引擎的我來說,DeepSeek-V3是合格的。盡管在一些總結歸納上與GPT-4o略有差距,考慮到後者的使用限制,我還是願意將免費的DeepSeek列為首選AI工具。

令人想不到的是,DeepSeek-V3整個模型的預訓練成本花費為557.6萬美元,僅需GPT-4o的二十分之一。 「低廉」的成本給了DeepSeek砸穿行業底價的勇氣,開發者呼叫DeepSeek-V3的支出只要GPT-4o的十分之一,性價比爆棚。

更加難能可貴的是,DeepSeek-V3在訓練時使用的GPU是輝達的H800,一款在效能上被閹割的特供AI芯片。OpenAI手握上萬塊輝達一流的AI芯片,願意為其融資的投資者絡繹不絕,成本從來都不是他們考慮的第一要素。

後來者大部份以OpenAI為標桿,AI大模型只有砸錢、砸算力才能做出來的觀念在行業中深入人心。正因如此,花小錢辦大事的DeepSeek才讓一眾矽谷大佬們驚呼這是「來自東方的神秘力量」。

朱克伯格在談到DeepSeek時,罕見地表示:「他們的技術真的很不錯,這個模型非常先進。(在AI大模型領域)中國正在全力沖刺,我們當然該支持美國的公司。實際上,這是一場差距很小的競爭。」

02

早在去年5月,DeepSeek釋出DeepSeek-V2模型時,超低的價格就引起了AI大模型降價的血雨腥風。彼時DeepSeek尚未推出面向消費者的套用,大眾知名度遠沒有現在這麽高。

直到去年12月26日,DeepSeek-V3推出網頁版後一夜爆火,月度存取量迅速突破千萬。與大模型一同釋出的,還有一篇53頁的論文,詳細介紹了DeepSeek-V3模型的技術細節,將如何用有限資源進行模型最佳化的策略全部公之於眾。

DeepSeek采用的主要技術總結下來有三點,創新的模型架構、高效的訓練技術以及最佳化資源利用。 我認為,其中MLA(多頭潛在註意力機制)架構最值得稱道。DeepSeek將使用者任務分解為多個子任務,由不同的專家模型分別處理,再將各專家模型的結果匯總輸出結果。

這就意味著,大模型在接到使用者需求時,不用調動全部資源進行處理。提升模型執行效率的同時,顯著降低了執行成本,有種「專人專辦」的感覺。

如果仔細研究DeepSeek的解決方案,會發現DeepSeek更多是在進行「工程創新」。它雖然沒有創造出一套全新的技術,卻改進了業內原有的模型訓練方式。

有人認為業內對於DeepSeek的評價有些過高,它只是對原有技術進行了最佳化。 這樣的看法顯然過度關註技術層面,而忽略了AI行業無限光明前景的背後,是有些陰暗的現實。

過去一年中,全球科技公司幾乎都鉚足了勁在AI專案上發力,全球AI初創公司如雨後春筍般冒出,「用AI重塑所有行業」的口號喊得震天響。然而,擺在所有企業面前的窘境是,AI商業化路徑並沒有被完全打通。

對於傳統企業而言,如果需要AI大模型為業務賦能,選擇開源模型進行微調,客製專屬大模型試錯成本更低。廣大消費者為AI功能付費的意願也不高,大部份使用者都是「白嫖黨」,尚且屬於培養使用者習慣的階段。

就連作為AI行業的領軍企業OpenAI至今都尚未實作盈利,很大一部份原因在於尖端AI模型的訓練耗資驚人,執行成本也十分高昂。據測算,僅維持ChatGPT的營運,每天成本就高達70萬美元。OpenAI行政總裁山姆·柯曼則表示,未來的AI模型成本預計將超過10億美元。

【紐約時報】獲得的融資檔顯示,OpenAI 2024年預計收入達到37億美元,但預計虧損也將達到50億美元,而2026年虧損可能會高達140億美元,這一估算還不包括給員工的股票激勵兌現。

可以說,高度依賴融資的OpenAI在破產的邊緣反復搖擺。 如果明天投資界厭倦了看不到盈利希望的AI行業,OpenAI僅憑自身的造血能力,恐怕難以為繼,其他AI初創企業更是如此。

這樣的擔憂並非電洞來風,知名數據分析機構 CB Insights 釋出的【2024年第三季度全球人工智能投融資報告】顯示,2024年第三季度生成式AI領域的投資額環比下降了29%,10億美元以上的大額融資量環比下降77%。

任何生意的核心都是成本與收入的平衡, DeepSeek為AI行業提供了一種嶄新的思路,既然收入端暫時難以大規模提升,不妨先從成本端發力 。或許DeepSeek在技術上沒有多麽驚天動地的創新,卻讓國內AI行業看到了一絲在夾縫中生存的可能性,也為全球AI行業長久存續提供了新範式。

DeepSeek的成功離不開前輩們技術開源的支持,DeepSeek也願意將自己的成果以開源的方式反哺整個行業。在通往AGI(通用人工智能)的漫漫石階中,DeepSeek刻下了屬於自己的名字。

03

降低成本這件事並不是什麽精妙的點子,更是中國企業最擅長的事情。為什麽從百度、騰訊、阿裏這些互聯網大廠,到月之暗面、智譜AI、零一萬物等號稱中國大模型領域「六小虎」的創業公司,沒有一家能夠提早想到呢?

如果深入了解DeepSeek這家公司後,就會發現這絕非偶然。

DeepSeek在V3模型釋出前相當低調,模型釋出後也沒有如國內同行一樣,鋪天蓋地地打廣告,知名度更多來自於使用者們口口相傳。但如果說到它的全資母公司幻方量化,股民朋友們肯定十分熟悉。

幻方量化,迄今為止國內唯一規模曾經超過千億元大關的量化私募。 根據私募排排網數據顯示,幻方量化的代表產品九章幻方中證500量化多策略1號,從2017年1月19日成立至今(2025年1月10日),累計收益率超過300%,年化收益率達到19%,與巴菲特年化收益率的20%十分相近。

ChatGPT 3.5問世時,業內測算想要做出這種級別的大模型,至少需要1萬張輝達A100芯片。彼時全球算力競賽尚未正式開啟,國內擁有萬卡算力的公司,滿打滿算也就6家,百度、騰訊、字節、阿裏、商湯,還有一位手握入場券的正是幻方量化。

DeepSeek由幻方量化創始人梁文峰一手創辦,雖然公司成立時間是在2023年7月,但DeepSeek專案在幻方內部已經孵化很久。

2021年幻方量化私募規模破千億元時,梁文峰選擇主動降低管理規模,暫停旗下所有產品的申購,並免除所有基金的贖回費用。目前,幻方量化的管理規模已降至200億-300億元。

彼時外界幾乎沒有任何人能理解梁文峰的決定。主動降低管理規模固然有行業監管趨嚴、市場風險等客觀因素,但很少有私募基金會和送上門的錢過不去。以幻方量化當時的體量和名氣,不說業績提成,單是管理費每年都能躺賺數十億元。

現在看來,或許梁文峰早就看到了AI技術爆發的曙光。梁文峰在接受采訪時提到:「我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。中國也要逐步成為貢獻者,而不是一直搭便車。」

04

DeepSeek這家公司的企業文化也十分獨特。其他國內科技企業習慣重金聘請行業大佬,DeepSeek的團隊則十分年輕化。

據梁文峰自己透露:「我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。」就連公司的管理層,也都是一些畢業5年左右的年輕人。當然,這些年輕人沒有很深厚的工作背景,卻也都是國內一流院校的天之驕子。

DeepSeek內部采用扁平化管理模式,每一位員工的想法都會得到充分尊重。 只要有新點子,不論職級,在經過內部討論後,都可以調動公司資源進行專案研究。 DeepSeek-V3的MLA架構,最初正是由一位年輕研究員的個人興趣所誕生。

除此之外,背靠幻方的DeepSeek是業內罕見的不依靠外部融資生存的初創公司。沒有投資人給的壓力,商業化自然也不是DeepSeek的首要任務。所以直到V3模型之前,DeepSeek都沒有選擇上線面向大眾的產品。或許是巧合,OpenAI的ChatGPT也是叠代到3.5版本,才選擇公之於眾。

成員年輕化,組織結構扁平化,不以商業化為首要目標,這一切組合在一起,使得DeepSeek在行業中顯得格格不入。 梁文峰主動跳出私募行業的舒適圈,帶領一群壓根沒有找到自己舒適圈的年輕員工,開辟出了一條未曾設想的道路。

有人說,DeepSeek閃亮登場,用少量算力資源訓練出超強大模型,輝達慌了,芯片要賣不動了。然而,DeepSeek提供的是一種現有大模型訓練的最佳化方案,要想達成AGI光憑現有技術肯定是不夠的,下一代大模型還是要仰仗算力堆砌。

真正應該慌的,是那些AI初創企業們。

正如小米造車前,雷軍計劃5年投入1000億元。沒想到研發、建廠、行銷一系列開支下來,僅花費300億元,第一款車型小米SU7就火爆全國。國內投資圈這才明白過來,那些砸進去大幾百億連年虧損,毛利率轉正都難的造車新勢力們有多無能。

DeepSeek同樣用例項給風投們上了一課,不用高薪聘請擁有浮誇頭銜的資深從業者,以免費的AI開源專案為基礎,利用有限資源同樣能夠做出一流的AI大模型。

沒有對比就沒有傷害,其余AI初創公司的精美PPT中,究竟有多少是高管給投資人畫的大餅,無數輪募資中拿到的錢是不是用在了刀把上?DeepSeek論文釋出後,不知道有多少AI初創公司的高管正在連夜開會,琢磨新的說辭。

在中美AI競賽中,DeepSeek以業界黑馬的形象出現,給矽谷帶來了一點小小的中國震撼。 作為一家以量化交易起家的中國公司,DeepSeek並不被視為技術引領者,但他在有限的算力資源條件下,卻依然能夠做出令整個AI行業為之側目的技術創新。

這也讓世人看到,在這場前途未蔔的AI大競賽當中,中國公司仍然有很大機會,結合自身優勢,在先進AI領域擁有自己的話語權,進而迸發出改變世界的力量。

*本文為冰川思想庫原創文章,未經授權禁止轉載,否則追究相關法律責任