當前位置: 華文星空 > 心靈

張鵬對話無問芯穹夏立雪:中國的Scaling Law是場景優勢,異構算力解決大模型落地難題

2024-04-16心靈

Scaling Law 已成為大模型前進演化的「不二法門」。

參數量越大、數據集規模越大、算力消耗越大,大模型效能就越好。相比較海外的大模型公司,國內的大模型公司會面臨更嚴峻的算力問題,資金、顯卡限購等,以至於有不少人質疑,中國大模型到底有沒有 Scaling Law?

無問芯穹聯合創始人 & CEO 夏立雪認為,「 我認為 Scaling Law 在中國可以有另外一個解讀,也就是套用場景的 Scaling Law。

而他們推出的「MxN」架構,「 解決的是一堆相似的大模型,怎麽能夠在不同的卡上跑起來,最後以一種類似於水、電、煤氣這樣的資源的形式給到開發者使用。

在他看來,「 大模型今年最核心的任務就是落地,而落地的卡點就是價效比 」。

4 月 10 日,在極客公園創始人&總裁張鵬和夏立雪的對話直播裏,關於大模型 Scaling Law、國內的算力難題,以及大模型的落地難題,進行了探討,並嘗試提出了一些非共識的觀點。

01 CUDA 是輝達的壁壘,推理場景是算力未來的重點

張鵬:從你的角度來看,上個月的 GTC 有什麽值得大家註意的東西?

夏立雪 :大概從 2018 年那一屆 GTC 開始,大家的關註重點就都是輝達最新的顯卡是怎麽樣的,包括這次也釋出了最新的 B 系列顯卡(Blackwell B200)。

B 系列在技術上還是有很多提升的,比如視訊記憶體提升了小一倍;使用了新的 PCIe 6.0 的協定;包括整個互聯的頻寬都有非常大的提升。這說明隨著技術的發展,輝達仍然走在時代的最前列,並且可以說是非常堅定地去做更大的系統工程。因為這些升級都是實實在在地面向「搭建一個更大的訓練系統」這件事。

不過有些指標也 確實存在可討論的空間 。比如有些新聞裏面會提到有 30 倍的提升,這個目前還沒有找到特別明確的證據,我們推測這個可能是在一些特定場景上的數據,比如規模大到一定程度,它原有的 H 系列顯卡已經產生飽和損失的時候,這個對比結果可能會實作 30 倍的提升。

我們目前看到的最核心的提升,還是 B 系列實作了兩塊顯卡疊加在一起之後沒有太明顯的效能損失,實作了大概兩倍的效果。

整體上這次釋出會沒有很誇張的那種「black magic」式的提升,但也確實證明了輝達在 Scaling Law 這件事上,紮紮實實做了很強的一些系統層面上的技術升級。

張鵬:前兩天 安克的陽萌就分享了一個觀點 。他認為,長期來看,輝達還是有巨大的挑戰和不確定性的,存算一體才是未來的希望,而這次的釋出會完全看不到這樣對應的打算。這裏面你有沒有一些大家忽視的、非共識的發現?

夏立雪 :其實輝達之所以能夠持續領先,一個核心的原因就是它現在使用者非常多,所以他自己能夠看到未來的方向,然後再把這個方向落實到自己的下一代產品。所以我們可以去分析它的一些新功能點,來看看它在想什麽事情。

這次釋出會我看到的一個點就是 4 位元(FP4)的浮點數被正式加到了 B 系列的功能指標上,這是在之前的 H 系列沒有的。考慮到 H 系列的 8 位元數(比如 FP8)還沒有在訓練中被廣泛使用,這個 4 位元一定不是為了訓練大模型,而是為了大模型最終怎麽推理落地、讓更多的開發者享受輝達顯卡的好處而準備的。所以輝達也在考慮除了幫大家做一個更大規模的模型之外,是不是也能幫助大家去把模型在具體場景上更好地落地。

而且可以結合一下輝達最新的財報,推理這個場景的收入已經占比將近 40%,這件事其實是超過行業對它的預期的。之前華爾街預判訓練和推理的比例是 8:2,但是現在光靠輝達自己就已經是 6:4 了。

所以無論是從輝達已經拿到的實際報酬的角度還是未來戰略規劃的角度,它都會更多地去支持推理場景的使用。

張鵬:傳統也有很多優秀的芯片公司,比如英特爾、AMD;包括現在也有很多新銳的公司出現。為什麽輝達在今天能達到這麽高的高度?

夏立雪 :輝達核心的競爭力,就是它永遠知道下一代芯片做哪些指標,是能夠為下一個時代的任務服務的。

那它為什麽能知道這個?那就要說到它的CUDA 生態了。在 AI 領域,這是輝達最重要的一個壁壘。

每一個硬體都有一個介面,介面就相當於說明書一樣,開發者對著「說明書」來使用它的硬體。輝達在很早的時候就投入了非常大的人力去打造它的 CUDA 開發生態,讓這個說明書非常的易讀,讓所有的開發者都能很容易把輝達的硬體用起來。

所以基本從上一個 AI 時代開始,所有最先進的模型和套用都是在輝達的 CUDA 上先跑起來的。這樣就形成了一個正向的迴圈,大家都會自發在輝達的卡上開發自己的新功能,輝達就享受了這樣的紅利。同時它的競爭對手還得投入額外的人力把這些功能搬運到自己的環境上。相當於輝達什麽都不用幹,競爭對手多做了一倍的工作。這實際上是 輝達最核心的壁壘,也是它能夠在硬體上不產生代際領先的情況下,仍然能夠保持「霸主地位」的核心原因

當然這件事也不是完全不可撼動的,因為大模型出現了。

上一個時代的 AI 模型,針對每一個場景都需要去做一套自己的軟體最佳化,比如摺積神經網路就是用於視覺的模型;遞迴神經網路是用於語言處理的模型……這樣大家必然會趨同於在同一個語言體系中去完成自己的開發。比如我現在用 CUDA 積累出了一套東西,自然也會把裏面一些共性的東西遷移到其他場景。

這件事情實際上構成了輝達 CUDA 生態的厚度,但是 大模型把這個生態打薄了。因為大模型之間的結構差異沒那麽大,我不再需要 100 種大模型了。大家更追求的是賬算下來到底便宜不便宜。

從這個角度來說,其他硬體廠商有了更多的機會。所以這也是為什麽大模型出來之後,像 AMD、英特爾等都非常抓緊地釋出自己的一些核心軟體和產品,就是因為他們也看到了這一點。

02中國的 Scaling Law 是場景優勢

張鵬:視角回到國內,還要面臨一個算力天花板的問題。甚至前段時間有個朋友提出了一個特別悲觀的觀點:Scaling Law 在中國真的存在嗎?因為 Scaling Law 理論上需要無盡的算力支持去通向 AGI,但國內是存在算力天花板的,最後可能沒有辦法真正享受 Scaling Law 這樣的一個技術紅利?你怎麽看這個觀點?

夏立雪 :這個詞走到大眾面前之前,他的源頭是一篇 OpenAI 的論文。那篇論文的核心是說,當我們要去訓練一個模型、做最佳預判的時候,遵循的規則是什麽?裏面提到 影響 Scaling Law 的其實是有兩個因子,不只是算力,還有數據。

關於 Scaling Law 的觀點在 OpenAI 和 Llama 上已經碰撞過一次。OpenAI Scaling Law 的邏輯是用更大的算力和數據可以更有效地獲得一個好的大模型,是純從訓練模型的價效比角度來看的。 Llama 思路是模型最終要落地,所以這個價效比應該考慮到最終模型推理的階段,那麽以推理為目標,在一個「差不多可以了」規模的模型上不斷地疊加數據,最後得到一個數據層面上的 Scaling Law。

這個畫面似曾相識。回顧互聯網時代和行動網際網路時代,部份技術起源於歐美,然後在中國做到了場景的爆發。因為中國首先有最大的使用者量和場景數據,我們也有非常多的企業和開發者能夠把套用場景落地。

所以我認為 Scaling Law 在中國可以有另外一個解讀,也就是套用場景的 Scaling Law 。假設我們先擁有一個達到基本水位的模型,並且把它賦能千行百業。賦能千行百業,是不是就是在每一個行業積累優質的數據?有了新增的優質數據之後,套用到模型裏,就能快速地讓數據飛輪轉起來。

可以說,算力 Scaling Law 提升的是一個產業本身的產值,而場景的 Scaling Law 解決的是滲透率的問題,也就是如何把大模型滲透到各行各業去。這件事情我們是有優勢的,可以有一套自己獨特的 Scaling Law 定義。

張鵬:對於國內的算力市場,你有什麽長期的判斷?

夏立雪 :首先我們已經用腳投票了,就是為什麽我們要做「MxN」這件事,就是因為我們認為算力廠商不只有輝達一個。

當然現在國內算力市場輝達依然占主導地位,但是我們也看到很多廠商,不論是我們合作的 AMD 還是其他的一些芯片廠商,已經逐漸具備了一定的和輝達比較的能力了。

但大家所欠缺的還是所謂的下一個客戶。就是沒有人知道你能用,所以就沒有人會大規模用你,然後更沒有人知道你能用。

那怎麽去解決這個問題?我們也告訴我們的模型夥伴, 不要同時去做兩個很不確定的事 ,模型歸你,把算力的不確定性交給我,你先在我們 Infini-AI 上把業務跑通。我可以向你證明其他的卡,也能讓你把業務又好、又快,還省地跑起來。

我們和這麽多芯片廠商關系都能保持很好,因為大家也需要我們來幫他們證明自己的實力;大家也需要我們的最佳化能力幫他做得更好;以及大家需要我們去做產業鏈的打通。

回到開頭的問題,我認為當前還是以輝達為主導,但是未來非輝達的市場一定是存在的。

張鵬:什麽是多元異構算力?它為什麽重要?

夏立雪 :本質上還是因為國內的特殊生態。如果有足夠多的輝達芯片,那大家都去用輝達就好了,但現在問題是輝達的芯片不夠用。

所以為什麽要做異構?因為國內的生態還是比較分散,大家都有自己的一畝三分地要去耕耘。所以市場會較長期地持續這個狀態:有很多選擇供大家使用,同時這些選擇又相對分散。

大家都不可能擁有足夠多的輝達芯片,所以不管是大模型的廠商還是做套用的廠商,都需要和很多家芯片去做適配。那我們能不能把這些需求統籌起來,最終變成一個好用的服務給大家?相當於把每一個人都要做一遍的事情,我們幫大家做了。原來大家要做 MxN 次開發,但是無問芯穹透過自己的平台,已經對接了 M 種模型、套用和 N 種芯片,那整個生態就只需要做 M+N 次適配就好,不用再形成浪費。

這個實際上也是 中國算力市場特有的情況孕育出來的一個機會

03 推訓一體是未來,Transformer 架構不會很快被顛覆

張鵬:怎麽理解「推理即訓練」這個觀點?

夏立雪 :這是很重要的一個點。我們如何理解人最核心的能力?有人說是會使用工具,但是猴子也會使用工具;有人說是社會分工,但其實螞蟻也有社會分工。所以我理解 人最核心的能力是持續學習,可以把智慧一代代地傳承下去,不斷地叠代,這是一個文明生長出來的基礎

我們現在訓練模型的方式,基於現有的技術限制,是先預訓練一個模型,然後再到對應的場景中使用,返回來的結果又能成為一個新的數據集,讓模型得到叠代。就像軟體升級一樣,今天發了 iOS13,明天升級成 iOS14。

但實際上人不是這樣,上午我考試做錯了一個題,下午我就不會去犯這個錯了。

所以一個理想的情況是訓練和推理是一體的,我們在不斷使用的過程中就能即時地把數據給到系統,然後系統當下就產生一個反饋。這種模式在互聯網上一個時代的產業中已經實際運用起來了,就是廣告投放系統。一旦你不點這個廣告,它下次大機率就不會再給你投類似的廣告了;一旦你點了某個廣告,它就會馬上知道你的喜好。

但是這套系統在當時能夠被快速運用起來,是因為它算得過來賬,整個訓練和推理的成本能夠支持系統 7x24 不斷地學習、執行。

現在大模型就是卡在成本太高了,如果既有訓練又有推理,整個成本是扛不住的。 所以這件事情還停留在一個目標的狀態,但我認為是一個很重要的方向。

張鵬 :某種程度上可以理解成,如果沒有明確目標地修煉通用人工智慧,這就是一個非常高成本的事情;但如果是目標非常明確地強化某個能力上的智慧,可能就有不同的路徑。

其實商業起到的作用就是這樣的,過去只要商業的需求算得過賬,這部份的技術就會快速發展。

所以誰先產生商業閉環,誰的智慧可能就發展得快,這個說法也 make sense,不一定只看算力的絕對值。

張鵬:除了GPU之外,還有哪些芯片解決方案,是你覺得值得看的?

夏立雪 :我覺得首先輝達代表了一種方向,就是 GPU 這種大規模的平行計算,在 Transformer 這個結構下,就是效率最高的一類執行邏輯。

像 AMD、包括國內的一些廠家,也在做自己的類 GPU 的架構。我覺得這肯定是有很好的空間的。大模型依托於 GPU 的架構誕生,反過來 GPU 也因為大模型的增長而快速發展。

Tranformer 結構不會有很快的、本質上的顛覆,它已經吸收了人類絕大部份知識,再造一個新的「神」和它「對抗」是比較勞民傷財的。所以現在沒有人有動力去完整做一個新的架構來顛覆 GPU。

順著這條路來看,除了 GPU 架構之外,也會有人去做一些完全針對 Tranformer 結構的硬體,也是值得期待的。

張鵬:有人提到了 SambaNOVA 這家公司,就是順著你講的思路去針對 Tranformer 做進一步的強化,形成一個完整的體系。你看好這種型別的公司嗎?

夏立雪 :我們還是希望有更多人來探索的,這有利於行業的健康發展。

但這裏面有一個很核心的問題,就是 硬體的發展一定要和場景持續保持結合,不能真的悶聲造核彈。

大家在看硬體未來的發展的時候,一定是要看到它怎麽能夠有一個可規劃的路徑,能夠不斷吸收新的計算的範式,來實作硬體持續的叠代最佳化。

人工智慧為軟硬體的聯合最佳化提供了非常好的基礎。因為在上一個時代,很多工的軟硬體設計是分離的。但是因為人工智慧的模型是可調整的,就可以在設計流程的時候把硬體的結構考慮進去,去設計一個既能滿足任務又能計算效率最高的硬體。

這是人工智慧為軟硬體聯合設計提供的獨特空間,這件事我認為未來會有更大的價值。

04 無問芯穹致力於把算力和大模型變成水電一樣的基礎資源

張鵬:無問芯穹的名字是怎麽來的?感覺很浪漫,不像你們理工科的風格。

夏立雪 :無這個字是清華電子系的縮寫,因為電子系的前身是 80 年代的無線電系,所以電子系又叫無系。無問、無穹都是清華校歌裏的歌詞,和我們公司的理想願景也非常契合,不要問芯片和智慧的極限在哪裏,去探索就可以了。所以就取了這樣一個名字。

張鵬:在芯片領域,無問芯穹看到了怎樣的機會,要解決什麽問題?

夏立雪 :一方面既然大模型統一了模型的結構,實作了一種更通用的任務,就湧現了一種新需求,需要在軟體和硬體的聯合打通做最佳化。

另一方面既然大模型打薄了 CUDA 的生態壁壘,國內硬體和演算法生態又日漸繁榮,這中間就形成了一個缺口,就是模型和硬體之間的連線問題。作為最終客戶來講,他其實不關心模型、算力之類的問題,他關心的是大模型能為我的套用場景帶來什麽。

所以作為無問芯穹來講,我們有兩個核心的任務。

一個就是去做不同模型不同硬體的連線,我們叫做「MxN」,也就是 M 種不同的大模型和 N 種不同的硬體之間,做到統一的部署和聯合的最佳化。相當於把大家團結起來形成一個合力,去為最終的產業客戶提供更好的模型和算力的服務,最後促進大模型在中國這樣一個獨特的套用場景的爆發。

第二個任務就是算賬。不模型不僅僅是匹配上的問題,更核心的是怎麽算賬做到極致的效能。所以在解決前面的易用性之後,更重要的是我們要去做模型到硬體的深度最佳化。

這兩點是我們團隊所積累的基礎能力,使得我們願意在這樣一個時間點出來做這樣一家公司,來把整個產業的發展能夠促進起來。

張鵬:這聽起來和 CUDA 做的事情很類似,你們和 CUDA 的區別是什麽?

夏立雪 :可以這麽理解, CUDA 解決的是一堆不相似模型怎麽在輝達的芯片上跑起來的問題;我們解決的是一堆相似的大模型,怎麽能夠在不同的卡上跑起來,最後以一種類似於水、電、煤氣這樣的資源的形式給到開發者使用 。相當於我們把原本有差異的資源統一了,變成一套服務,給到最終需要算力、需要模型的客戶。

就像你用電的時候不需要關心背後是風力發電還是火力發電,電力本身就是一個統一的資源。這是我們在做的事情。

張鵬:聽起來無問芯穹做的是類似中間層的工作。這個工作今天聽起來很有需求,但是未來會不會被模型或者算力侵蝕掉它的價值?

夏立雪 :這裏面其實有兩個點。

首先是國內整體上算力是一個供不應求的狀態。一方面很多軟體公司找不到好的算力,一方面很多芯片廠商做出來的算力也找不到好的客戶來使用。在這個供需關系下,中間層就有非常大的價值,因為相當於把供應鏈打通了。這是中間層本身存在的產業層的價值。

然後我們團隊最核心的還是想去做最佳化能力的提升,最終為大家提供一個極具價效比的極致的最佳化。我們團隊在聯合模型到硬體的跨層最佳化方面是非常有自信的,是相關領域最強的一個團隊。

我們在這方面積累經驗,就是想和上遊的硬體廠商、下遊的模型廠商一起去解決大模型落地的問題。因為現在很多模型其實已經具備可用性,但就是成本卡住了。

這是我們這個產業共同的使命,在這個使命中我們的極致最佳化能力就非常重要。在達成使命的過程中,已經能夠實作產業價值。

05 大模型今年最核心的任務是落地,卡點是價效比

張鵬:百度、騰訊、智譜都投了無問芯穹,很少看到一家創業公司一上來就被行業裏重要的 player 聯合加持。這個過程中是怎麽聊的?他們是如何對你們形成了這麽明確的共識的?

夏立雪 :首先肯定是因為我們團隊的技術積累對大家來說還是需要的。因為大模型這個時代其實需要的是最後算得過來賬,就涉及到很多價效比方面的最佳化。在這個過程中,包括我們聯合模型到硬體的最佳化能力,把各種各樣的卡幫大家用起來的能力,都是產業所需要的。

這幾家其實也都是偏場景的下遊的廠商,我們就能夠幫助他們提供資源補充,這是產業上的身位。

然後我們核心的最佳化能力是幫助大家把價效比做上來。因為大模型今年最核心的任務就是落地,而落地的卡點就是價效比。這件事情需要我們和模型廠商、硬體廠商共同努力。模型廠商做的是把模型做得更精致;硬體廠商做更好的算力;那我們做的就是怎麽能夠讓這些精致模型和這些硬體結合得更貼切。

這件事情最終轉起來,我們能夠讓大模型落地的成本降幾個數量級,那才能夠把整個產業帶動起來。

張鵬:所以你認為他們最終認可無問芯穹的價值,到底是因為能夠有效地解決多元異構算力的問題,還是長期角度上效能的最佳化?

夏立雪 :我認為這兩者同樣重要,而且這兩者是相互匹配的。

算力持續短缺是因為大家都在做更大的模型。大家一方面面臨算力短缺,一方面也面臨成本非常高。所以這兩個價值都會持續存在。

然後在現在的國際形勢下,做國產化、做異構又是非常明確的一條路。那無問芯穹就堅定地選擇了這條路。

張鵬:像你們這樣的能力,如果加入到一家大模型公司,他們會變得非常有競爭力。當初有過這樣的思考嗎?為什麽最後會成立一家獨立的公司?

夏立雪 :這有點像剛剛討論 Scaling Law 時候的觀點差異了,最終目的都是讓大模型賦能千行百業,但是實作這件事可以有不同的路徑。

我們可以選擇先把智慧的能力堆到極致,準備好最佳的訓練基礎設施,然後再逐漸解決落地的問題。也可以選擇現在就讓各行各業都用上大模型。

無問芯穹為什麽還要做一個獨立的中間層生態?因為我們想做普惠這件事。一方面我們和大模型廠商合作,幫助他們去探索智慧的極限。另一方面我們也希望幫助現有的軟體公司,作為一個數據和場景的持有方,快速把先進的技術用起來。比如前一陣我們釋出了 MaaS(Infini-AI),能夠讓小開發者很輕松地使用這些算力和模型。做這樣普惠的事情能夠讓整個生態快速地賺到錢。

無穹 Infini-AI 體驗地址:http://infini-ai.com

張鵬:無問芯穹的客戶是誰?你是怎麽讓他們理解無問芯穹的價值的?

夏立雪 :我們客戶有很多型別,包括 很多行業的場景客戶

對這些客戶來講,他們目前的核心問題是怎麽把自己的場景和大模型高價效比地結合起來。所以我們提供的最核心的能力,就是我們這裏有足夠好用、足夠有價效比的大模型服務資源。客戶可以直接在我們這裏開箱即用,而且資源非常充沛。原因就是我們這套核心的技術能力和產品能力,讓我們能把各種各樣的卡都能用起來。

但這件事實操起來往往不需要給客戶解釋這麽清楚,他們通常也不太關心。因為不管我們技術怎麽強,最後體現的都是 產品足夠易用、價效比高 ,這是我們能給客戶帶來的最直接的價值。

06 無問芯穹是智算營運商,未來每個公司會有自己的智算資源部

張鵬:「MxN」這件事聽上去應該是一個非常復雜的事情,你們團隊有信心去做這件事,背後的信心來自於哪裏?

夏立雪 :我們的團隊源自清華電子系,包括公司的發起人也是清華電子系的系主任汪玉教授,我本人也是汪玉教授的學生。

我們實驗室實際上從 2008 年開始就一直在做面向各種場景的軟硬體聯合最佳化,其中人工智慧就是非常重要的一個場景。軟體聯合最佳化其實就是解決類似「MxN」的問題,這件事我們已經積累了十幾年。

只不過上一個時代的模型各種各樣,我們更多的還是停留在學術研究的階段。形成了一套方法論,能夠面對每一個不同的小模型,做極致的最佳化。雖然這件事本質上還是要為 100 個模型做 100 次最佳化,但我們可以比較方便地做到這 100 次。

今天,大模型的機遇告訴我們,現在市場需要的不再是為每一個模型做一遍,要針對這個大語言模型去做更深度的最佳化了。我們發現之前積累了十幾年的技術,終於能夠在一個足夠聚焦又足夠大的場景裏發揮能力了。這使得我們可以去成立一家公司來做這個事情,整體上的 ROI 又是非常正向的。

所以在這個時間點,我們有信心去做這件事。

張鵬:很多人把你們做的事情理解成編譯器。你覺得無問芯穹是依托於什麽樣的體系去創造價值的,可以用一句話概括嗎?

夏立雪 :像編譯器這樣的詞匯,更多的是對技術定位的解讀。我們的技術棧不止編譯器,最終呈現也不止是一個軟體。

我覺得我們相當於是 智算領域的營運商。 就是把算力也好、模型也好,像水電煤氣一樣作為一種基礎資源提供給大家。

張鵬:營運商這個概念,可以再展開聊一下嗎?

夏立雪 :最開始大家會認為基礎設施是電力、房子、伺服器這些。後來大家認為算力也是一個基礎設施。然後隨著大模型的又一次爆發,也有人說 token 就是未來的一個基礎資源。

如果說算力是一個基礎資源,那我就相當於是一個營運商,因為我實際上是把各種異構的、跨地域的算力整合起來提供給客戶。如果說最終 token 成為了基礎資源,那我們其實就是這個基礎資源的供應方。

不同的視角下我們的定位會有一些差異,這個可能看每個人之前的行業積累——他習慣於從哪個角度看。

張鵬:我從業界了解到,去年這個時候幫公司部署私有模型,是可以收到上千萬的。但好像在去年年中開始,價格就開始掉到幾百萬、甚至幾十萬了。所以我想了解一下,去為企業訓練和運用模型這兩方面的成本,在過去一年大概是怎樣一個下降趨勢?包括未來它會怎樣,是呈指數級下降嗎?還是線性的?

夏立雪 :去年價格確實有一些變化,但解讀起來,不一定是負面的。

也許是因為客戶需求在變化。可能在最開始的探索階段,想要解決的是一個大客戶的、非常復雜的綜合任務,要投入的成本和對應要實作的功能都是最強化、最復雜的。那相應的價格就會更高。

之後部份客戶發現,我對大模型智力的要求其實沒那麽高,並不需要花那麽貴的價格請一個「專家」過來,我只需要請一個「助理」過來就能夠解決很多問題。

所以 這個價格的變化某種意義上也體現了,大家對大模型在自身場景中可能帶來收益高低的判斷,是定價體系不斷豐富和完整的過程。 只不過從外界看起來就是,原來千萬的東西,現在幾十萬也能買到了。

這件事情最終還是看在落地場景中,大模型能夠解決什麽問題,以及每一個層次對應的能力又需要投入多少。我認為千萬、百萬、十萬都是可能的,就好像在淘寶上有不同的品牌,對應不同的價格一樣。

張鵬:如果把智慧當成一種生產力,未來它在公司這種組織架構中,會以什麽樣的方式存在?比如說類比人力資源部,會有一個智慧資源部存在嗎?

夏立雪 :這個概念非常超前,但也確實符合我們客戶現在碰到的一些實際情況。

大模型剛出來的時候,大家更多的需求是滿足好奇和工具學習。這個時候企業使用大模型,還沒有到客製這一步,更多的是作為一種統一標準的機器來管理。

但是最近我們很多客戶,明顯遇到了這種問題。這些客戶體量並不小,自身的數位化程度也非常好。他們內部有很多業務部門想用大模型,相當於在內部份化出了很多版本。這個時候怎麽協調這些資源分配就成了問題。比如公司內部怎麽去做模型的版本控制,以及這些版本之間能不能互相協調?甚至他們能不能互相培訓?就像人員的輪崗一樣,學習一些基礎知識,再學習一些產品知識,能不能培養成一個產研的負責人?類似模型的職業規劃問題,也是我們客戶面臨的問題。因為如果重頭做,他又要為每一個模型去做 N 份培養方案,這個就和大模型的理念相悖了,同時企業的成本也非常高。

我們已經透過一些技術手段,去讓不同版本的模型能夠形成資訊的互通,以及快速生成一些特定的內部版本。

我覺得以後除了算力是一種資源以外,模型也會成為一種重要的資源。這個資源怎麽能夠產生更大的價值、如何升級叠代?我們也會為它去客製一些培養方案,就像培養一個核心員工一樣。