人工智慧的發展也並不是一帆風順,其中也經歷過多次的高潮和低谷。而每一次的起起伏伏竟然十分相似:科研界突然出現的令人振奮的研究成果會引領一波人工智慧的高潮;接下來,人們就會開始對人工智慧無限憧憬,政府和社會的資金像潮水一樣湧入到這個領域;但是,當人們發現人工智慧的發展並不如想象中的那麽迅速之後,這些資金又會迅速地退潮,只留下一地沙灘。
在 2023 年之前,其實已經有大量的人工智慧(AI)技術成功落地,並且真正地在人們的日常生活中發揮了各種重要的作用。比如,很多同學應該都在每天使用的刷臉支付,這背後所依靠的就是基於深度神經網路的人臉辨識 AI 技術。再比如,大家會發現刷抖音的時候,越刷越合自己的口味,這背後依靠的也是基於一套基於深度學習的智慧推薦 AI 系統。
而我們如今所處的 2023 年究竟在人工智慧潮汐的什麽位置呢?正如,麥肯錫 2023 年所釋出行業研究的標題一樣 [2] —— 生成式 AI 的突破之年。大數據、大算力以及深度學習演算法的持續積累使得內容生成式人工智慧(AIGC,Artificial Intelligence Generated Content)開始了一輪爆發式增長。在若幹年前,人們覺得用於生成文字、圖片、視訊等內容的 AI 還只是一個玩具,但是現在人們發現,它真的可以成為生產力。
比如下面這個配圖就是使用 AIGC 這個關鍵詞在 StableDiffusion(一種目前非常有效的 AIGC 模型)生成的圖片。
歷史給我們的啟示是,人工智慧的發展其實既不如我們想象地那麽快,也不如我們想象的那麽慢;但是其發展(也包括其他領域)其實是很多小方向的研究成果相互促進的結果。比如,目前 AIGC 爆火了,從短期來看,以前做 NLP 大模型的課題組今年應該文章產出就會非常多;而以前專註做具體某個CV 任務的同學可能就會因此失業。但是,從長期來看,有價值的研究總是能夠有它發光的時候,可能早、可能遲。也希望大家在選擇研究方向的時候,能盡可能地關註研究的長期價值。
咱們這裏討論的是,基於 AI 發展的現狀,看看在較為短期的時間內,什麽方向比較有價值。從而盡量幫助到大家對於研究方向的選擇,特別是對於有誌於從事 AI 方向研究,正在進行擇校和選導師的同學,給出一些我個人的建議。
我們前面講到今年 AI 方向的大浪潮是 AIGC,而它背後的技術支持則是 大模型 。根據我個人的理解,在未來的十年內, 大模型 這個範式會繼續為人工智慧領域註入更多的活力,也會成為 AI 裏面最有前景的研究方向之一。
而在科研領域,大模型更多地還是像一個黑盒子,研究人員們對此的研究還是很不充分。比如,我們知道它的能力和潛力都很強大,但是還有很多關於大模型我們搞不清楚的問題。比如大模型能力的邊界在哪裏?大模型為什麽起作用?大模型還能被套用到什麽其他地方?這些都是值得我們未來去研究的內容。
除了大模型相關的演算法之外,大模型背後的兩大支柱也不容忽視—— 大數據 和 大算力 。
我們以引領這一波 AIGC 浪潮的明星產品 OpenAI ChatGPT 為例,它的效果非常好,但是外界沒有人知道它是如何訓練出來的。據說,這樣的大模型擁有 1.8T (10的 9 次方!)個模型參數,並且在擁有 15T 個字元的數據集上進行訓練;它需要在 25,000 塊 A100 GPU 上進行超過三個月。[3]
再比如,開源大語言模型的龍頭老大哥 Meta Llama-2,其模型擁有 70B 個參數,並且在 2T 個字元上進行了預訓練。它的訓練需要消耗 3.3M GPU 小時。[4]
這其實是目前 AI 研究領域的一個普遍現象,即規模效應(scaling law)。人們發現,AI 模型的效果其實是和模型的規模、數據集的規模、計算量的規模成正相關的;而且甚至會產生湧現現象(emergence),即如果大模型的訓練不達到一定的規模,可能有些實驗現象都無法被觀察到。[5]
但是這樣的趨勢給在高校就讀的研究生的科研開展也帶來了一定的麻煩。因為,現在真正的大模型研究,不僅需要企業級的數據和算力,而且更需要業界帶來面向落地套用的視野。
這張圖是由「research university」為prompt生成的,我們可以看出,在影像中繪制文字這一其實比較難的事情,其實大模型也能做得相當不錯了;不過,差距仍然存在,比如這裏的文字還是不夠完整和清晰。
我想,關註這個問題的很多同學,有許多是面臨著研究生擇校問題的同學。從我個人最近對大模型研究的認識來說,我覺得目前高校中傳統的人才培養模式確實已經不再適用於人工智慧專業的同學了。在傳統的研究生教育模式下,很多人工智慧方向的研究生同學都面臨如下一些難題:
- 最開始進入學校的時候,不知道應該關註什麽方向,也不知道該研究什麽問題。
- 後來開始為了發表文章,強行造一些創新點,去強行魔改演算法和模型,以期望能獲得一些效能提升。
- 最後等到高年級的時候,終於能夠差不多抓住人工智慧領域研究的重點了,想要大幹一場的時候,發現學校裏面沒有足夠的數據、算力,或者是落地場景。
- 而對於面向就業的同學來講,可能會發現自身在學校中學習到的知識和企業所需的技能不匹配、學校的地理區位不方便找到實習和工作、學校認可度不高等問題。
而個人認為,選擇有校企聯合培養計畫的學校,或者手裏有具體發展方向公司的導師,可能是解決上述問題的一個不錯的選擇。這是因為,人工智慧其實是一門經驗科學,也是一門面向實際套用的學科。如果脫離了實際的數據和場景,我們對於人工智慧的研究就很容易迷失方向。
比如,我之前在微軟亞洲研究院(MSRA)實習過很長時間,見到這邊有很多中科大和微軟聯合培養的學生,他們從低年級開始就能夠接觸到一線的科研課題,同時,也能夠使用到公司的大數據和算力平台。這對於同學的研究很有幫助。
目前,在人工智慧研究領域,這樣校企合作招生的形式也已經變得越來越普遍。
比如,西交利物浦大學(西浦)與江蘇省產業技術研究院深度感知技術研究所聯合培養的博士生管潤瑋也有類似的經歷。他是做人工智慧深度學習的,他的課題與自動駕駛和智慧交通相關,很多研究成果需要達到落地階段,研究所的產業課題和與產業界的密切聯系給他提供了豐富的產業視角和資源。