編輯:LRS
【新智元導讀】 AI真是助力科研的神器,不光能用大模型提升寫作效率,跟AI技術沾邊的論文中頂刊的機率也會增加,升職速度也會提升;但對於科學界來說,大家都一股腦去研究AI,那些不能用AI的領域受到了冷落,最終導致整體科研多樣性下降。
ChatGPT釋出以來,各種大模型層出不窮,對各行各業的文字、腦力工作者來說絕對是一個效率神器,產出量大大提升。
比如最近的研究成果,清華大學、芝加哥大學、Google的研究人員利用AI工具(模型效能F1值為0.876)分析了六大主要學科的6790萬篇研究論文,結果發現,采用AI工具的科學家發表的論文數量增加了67.37%,獲得的參照次數是未使用AI工具的科學家的3.16倍,並且還能提前4年成為團隊領導者。
論文連結:https://arxiv.org/pdf/2412.07727
但凡事都有代價。
一旦開啟「AI模型」的潘朵拉魔盒,就代表研究人員不再廣泛探索科學領域,而是專註於某個細小的課題,利用AI模型發表的論文大多都是在已有的、數據豐富的領域。
也就是說,大模型不會幫助科研人員創立一個新領域,雖然提高了個人的科研生產力,但卻極大減少了整個科研集體的多樣性和廣泛參與度。
44年,6800萬篇論文
AI工具與知識生產緊密相連,比如 AlphaFold 透過學習已知的蛋白質結構來準確預測尚未探索的結構,避免了傳統結構推斷中的資源消耗和人力成本,並因此獲得了2024年諾貝爾獎。
透過深度強化學習改進的模型已經能夠處理復雜的 核融合反應 ,並行現了新的、針對硬體最佳化的矩陣乘法形式,從而加速了深度學習本身的發展。
此外,大型語言模型可以非常出色地幫助科研人員修訂和提煉論文寫作,促進了發現結果的提煉和傳播。
盡管在科研領域中,AI模型的參與度越來越高,但業界仍然沒有對AI科學影響的大規模實證評估。
所以這篇論文的研究團隊主要提出並回答一個問題:個體科研人員基於自身利益選擇AI模型進行輔助,對整個科學界有何影響?
研究人員進行了一項大規模的定量分析,利用OpenAlex數據集中從1980年到2024年的1.09億篇論文,選擇其中六個學科(生物學、醫學、化學、物理學、材料科學和地質學),涵蓋了主要的自然科學學科,並特意排除掉電腦科學和工程學,以避免混入AI相關從業者的影響,最終得到約6800萬篇論文。
然後利用BERT語言模型根據「標題」和「摘要」內容區分出論文中用到的技術是機器學習、某個深度學習架構,或者是基於Transformer的大模型。
研究人員采用兩階段的微調將預訓練的 BERT模型 適應到論文辨識任務:先分別基於論文的標題和摘要獨立訓練兩個模型,再將兩個最佳化後的個體模型整合起來,以辨識所有選定的論文,無需人工選擇與AI相關的觸發詞。
為了評估BERT模型辨識的準確性,研究人員招募了一個專家團隊來驗證結果,在對六個重點學科中隨機抽樣的論文組進行獨立標註時共識很高,平均Fleiss' Kappa值為0.960,把專家標註數據當作金標準進行評估時,得到的F1分數為0.876,證明了模型的可靠性。
為了提高辨識結果的可解釋性,研究人員對輸入標題和摘要時BERT模型最終層的平均註意力強度進行視覺化,比如在分析一篇AI輔助的化學論文時,模型對「人工智慧」和「深度神經網路」等術語分配了非常高的註意力權重,並且辨識出的 AI論文 基本上都是「人工智慧」和跨學科傳統研究主題的結合,說明了模型如何正確解釋並準確辨識與AI相關的內容。
最終辨識出107萬篇AI輔助論文,大約占論文總數的1.57%,並且可以觀察到所有學科采納AI的趨勢都在上升,AI論文和采納AI的研究人員比例都有顯著增加。
盡管各個學科每年發表的論文數量總體上升,但從1980年到2024年,AI論文的份額在地質學中增長了21.39倍,在材料科學中增長了241.36倍;同樣,采納AI的研究人員比例增長得更快,從地質學的42.36倍增長到物理學的307.40倍。
研究人員將過去幾十年的AI發展劃分為機器學習(ML)、深度學習(DL)和大型語言模型(LLM)時代,三個時代的增長率逐漸加快,可以看出AI在科學中的普及率不斷提高,以及理解AI對科學研究和進步影響的重要性。
AI是職業生涯加速器
從參照統計數據中,研究人員註意到,從發表日期到幾十年後,人工智慧(AI)論文的年參照次數持續高於非AI論文,並且不同時期發表的AI論文受到的總參照次數也更高。
此外,研究人員還檢查了AI輔助論文在不同期刊參照報告(JCR)分位數中的分布,結果發現,在Q1期刊中,AI論文的比例比所有期刊中的非AI論文高出18.60%;在Q2期刊中,AI論文的比例僅高出1.59%,而Q3和Q4期刊中包含AI的論文比例相對較低。
結果表明,AI輔助論文在期刊中的分布不均,且在高影響力期刊中更為普遍。
AI論文逐漸受到重視,AI研究人員的影響力也大幅增加,平均來看,采用AI的研究人員每年發表的論文數量比不使用AI的研究人員多出67.37%,獲得的參照次數則是後者的3.16倍,這一趨勢在各個學科中都有體現。
為了研究采用AI對職業發展的影響,文中將科研人員分為「初級」(尚未領導研究團隊)和「資深」(已經領導過團隊)兩類,並從數據集中提取了351萬條職業軌跡。
分析顯示,AI研究會導致團隊規模的縮小,平均每個研究團隊少了1.5名科研人員,具體來說,初級科研人員的平均人數從非AI團隊的2.31人減少到AI團隊的1.47人(減少了36.45%),而資深科研人員的人數從4.14人減少到3.48人(減少了15.95%)。
在所有學科中,采用AI的初級科學家轉變為資深科學家的機率為49.92%,比不采用AI的同行高出32.01%,表明AI為初級科學家提供了更多領導研究團隊的機會,並降低了離開學術界的機率,從而促使了他們從初級到資深科學家的職業轉變。
為了進一步量化這一效應,研究人員采用生死模型,並根據科學家的職業軌跡擬合模型參數λ,結果發現,采用AI的初級科學家成為資深科學家的預期時間比同行大約縮短了四年;采用AI的初級科學家的轉變時間期望值為6.84年,而不采用AI的為10.90年。
進一步分析顯示,這種縮短升職時間的現象在所有學科中都是普遍存在的,並且在各個學科中,參與AI論文的資深科學家平均年齡比非AI論文的資深科學家年輕。
科學探索範圍收縮
隨著人工智慧(AI)在科學中的加速套用,以及它在推動初級科學家成為資深科學家方面的作用,人們開始關註AI對整個科學領域知識分布的潛在影響。
為了評估AI如何影響整個科學領域研究的前沿,研究人員設計了一種測量方法來描述一組研究論文所代表的「學術關註廣度」。
具體來說,先使用在大量科學文獻預訓練的文本嵌入模型SPECTER 2.0,在給定每個領域中同樣大小的樣本量來計算代表AI和非AI論文的主題覆蓋範圍;與傳統研究相比,AI研究使整個科學的集體知識廣度縮小了4.96%,並且該效應在六個學科中都是一致的。
此外,當將學科細分為200多個子領域時,可以觀察到超過70%的子領域的知識廣度出現了收縮;當比較AI和非AI研究在每個領域知識分布的熵時,結果表明AI研究的知識分布熵明顯更低,表明人們越來越關註特定問題,而不是整個領域。
也就是說,個體和集體之間采用AI的動機存在沖突和矛盾:科研人員獲得了更多的個人影響力,但整個科學領域知識的範圍卻縮小了,只是將註意力集中在最適合AI研究的領域,例如那些數據豐富的領域。
盡管AI可能為科學家個人帶來了好處,但可能也會使科學作為一個整體的探索範圍變得更加狹窄。
AI研究一窩蜂,創新冗余
為了分析AI研究中個體論文和研究者影響力增長與領域知識範圍縮小之間的沖突背後的機制,研究人員考察了參照AI輔助和非AI工作的論文之間的關系。
首先檢查單個論文的「參照家族」(citation families)的知識空間特征,即一篇原創論文及其所有後續參照,結果顯示,與非AI論文相比,單個AI論文的參照家族的知識空間更為多樣性,因此,領域知識空間的縮小並不是由於在AI與非AI研究基礎上構建的論文範圍的縮小所致。
之後,研究人員透過測量後續論文參與度的程度來考察論文之間的關系,即同一原創論文的參照之間相互參照的頻率,結果表明,AI研究產生的後續參與度比非AI研究少了24.40%,表明AI論文更傾向於擴充套件原創論文,而不是在彼此之間形成互動,而互動恰恰是促進新興領域的關鍵要素。
在不同領域中AI論文參照的馬太效應中也發現了這種集中的進一步證據:在AI研究中,少數超級明星論文主導了該領域,大約20%的頂級論文獲得了80%的參照,50%的論文獲得了95%的參照,這種不平等的分布導致了AI研究參照模式的 基尼系數 為0.753,高於非AI論文的0.684,表明認可度的不平等正在增加。
最後,研究人員還檢查了參照同一原始工作的論文對在向量空間中的距離,區分出相互參照的論文,結果發現,科學界的AI更加集中於特定的熱門話題,導致了更多的重復想法和冗余創新,與科學知識範圍和多樣性的縮小有關。