「大模型語料訓練版權挑戰」成年度關鍵詞，AI帶來版權之爭

2025-01-18心靈

全球人工智能技術快速更叠，以ChatGPT為代表的生成式人工智能技術正在改變世界，版權是其中受影響最為明顯的。

人工智能並不能「無中生有」，海量互聯網資訊是其培養沃土。這就意味著，其必然陷入關於知識產權與內容剽竊的爭議。近年來，內容版權與人工智能的沖突頻頻發生。

在剛剛過去的2024年，國內外均有頗具影響力與關註度的相關案例發生。近日中國人民大學國家版權貿易基地釋出的「2024數位版權保護與發展年度關鍵詞」中，「AI大模型語料訓練版權挑戰」位列八大關鍵詞中的第三位。

在保護好創作者權益、激發創作熱情與推動產業創新中尋求平衡，已是當前必須面對的重大課題。

版權保護面臨挑戰

近年來，大模型的發展一浪高過一浪，呈洶湧澎湃之勢。

放眼全球，除ChatGPT外，Midjourney、Stable Diffusion、Sora等AI大模型風靡一時，人工智能產業在科技已開發國家迅猛發展。國內也不遜色，多個互聯網公司紛紛入局，推出文心一言、通義千問、豆包等人工智能大模型。

這些產品的出現，帶來的便利性顯而易見，它們讓文案寫作、資訊檢索、數據處理等變得更加高效，深刻影響著傳統行業秩序與工作習慣。

曉飛是一家公司的文職人員，她告訴【法治日報】記者，她現在有什麽疑難問題經常會求助於上述有關產品，「尤其是要準備一些格式化的文字材料時，把要求盡可能詳細地說給它們聽，一般都會呈現符合要求的內容，省去了我過去搜集材料、了解相關背景知識的大量時間」。

復旦大學管理學院資訊管理與商業智能系教授盧向華也是大模型的積極套用者。在盧向華看來，對於大模型的套用，與過去相比，至少可以節省70%的精力。

人工智能大模型在受到歡迎的同時，也引發爭議。例如，2024年，某網絡小說平台通知簽約作者，要求簽署一份補充協定，允許將他們的簽約作品用於AI模型訓練，引發反對聲音，後又刪除了該條款。但有關質疑並未就此消失。有作者明確表示擔憂，「會因此失去對作品的控制權」，或是「沒有發表的素材被AI吸收後率先輸出相似內容，反倒讓自己成為‘剽竊侵權者’」。

音樂領域也同樣有著類似的擔憂。回顧過去這一年，不少創作者開始熟練用起AI工具制作音樂內容，只要輸入音樂風格、流派等簡單文本提示，幾秒鐘後就能得到一首完整的曲子。

在近日中國人民大學國家版權貿易基地舉辦的2024數位版權保護與發展論壇上，中宣部版權管理局原副局長段玉萍坦言，新技術確實給音樂版權保護帶來新挑戰，並特別提及了AI孫燕姿引發版權爭議的例子。

「在人工智能等新技術的推動下，作品的範圍日益擴充，版權的界限逐漸模糊，傳統的版權保護方式越來越難以應對新技術、新業態、新模式的挑戰。」中國人民大學黨委常委、副校長支曉強說。

訴訟案例涉多領域

內容版權與人工智能的沖突，並不總以「論戰」的形式呈現，訴諸公堂的也有多個案例。

中國人民大學國家版權貿易基地副主任李方麗告訴記者，國內外均有相關司法實踐。就國外而言，自【紐約時報】訴OpenAI和微軟大模型訓練侵權後，出現了多起針對AI大模型訓練數據的訴訟。

記者查詢到，2023年12月27日，【紐約時報】宣布，向紐約南區聯邦法院提起訴訟，指控微軟及OpenAI侵犯版權，濫用該媒體的知識產權。隨後，美國3家數碼新聞媒體The Intercept、Raw Story和AlterNet於2024年2月28日對OpenAI提起版權侵權訴訟。

2024年6月，人工智能初創公司Perplexity相繼遭到【福布斯】以及科技媒體【連線】的內容剽竊指控，聲稱在Perplexity的Pages工具中發現了他們的報道內容。10月21日，媒體大亨魯珀特·默多克旗下新聞集團的子公司道瓊斯和【紐約郵報】對Perplexity提起訴訟，稱其「大量非法復制」他們的版權作品。

音樂領域也不消停。2024年6月，美國唱片業協會起訴了兩家AI音樂公司——Suno和Udio，指控他們在訓練AI工具時，涉嫌侵犯音樂版權。

此外，在加拿大、德國等也有類似的案例。中國人民大學法學院教授金海軍說，他統計了類似的訴訟，大概有十幾起，文字、圖片、音樂等各個領域的著作權作品都受到這個問題困擾。

國內也已有相關案例。2024年2月8日，廣州互聯網法院作出全球首例生成式人工智能平台侵權責任判決，認定被告某AI公司侵犯了原告對柯曼作品的復制權和改編權。

同年4月23日，全國首例AI生成聲音人格權侵權案，在北京互聯網法院判決配音師勝訴，AI開發者使用配音師聲音、開發涉案AI文本轉語音產品未獲得合法授權，構成侵權。

同年6月20日，北京互聯網法院線上開庭審理了四起畫師起訴AI繪畫軟件開發營運者著作權侵權案件，該案為全國首例涉AI繪畫大模型訓練著作權侵權案。

商業使用尤為復雜

目前，中國著作權法在AI生成物保護方面暫無明確規定；AI生成內容的著作權歸屬於AI技術的開發者還是實際使用者尚存在爭議，有待法律和政策層面的明確指引。

民間正在積極行動。2024年12月4日，中國文字著作權協會倡議：生成式人工智能語料庫建設等應確保數據來源合法，人工智能技術的發展既要保護創作者、內容生產者合法權益，又要激發全社會創新創造活力，推動產業高質素發展。

當地時間2024年12月16日，「人工智能創意權利聯盟」在英國正式成立，提出了有關版權與生成式人工智能政策的三項關鍵原則，並呼籲英國政府將這三項原則作為制定人工智能政策的框架。

「上述大模型都需要有足夠的語料去訓練AI模型，而訓練過程中，必然要使用到大量含有版權的作品。這就涉及我們如何使用作品，或者說如何合理使用作品等問題。」李方麗說。

金海軍認為，在健全相關制度方面，要特別關註AI生成內容產生過程中的兩個部份。一是產出的階段，即AI生成的內容到底能不能受著作權保護，即所謂的作品問題和作者資格問題；二是在輸入階段，在使用語料的時候，如果涉及享有著作權的作品，是否構成侵權。如果構成侵權的話，能否以合理使用來抗辯。

「從國際上目前的情況來看，在認定是否構成著作權法意義上的作品這一問題上，整體上是比較嚴格的。在輸入端使用作品的時候，相對來講要求比較寬松。但是有一個條件，在文本挖掘和數據訓練使用的時候是非商業性的。一旦進入商業系統，恐怕也不能夠簡單地說，這就是侵權或者構成合理使用。」金海軍說。

中國版權協會理事長閻曉宏認為，從技術角度來看，使用有版權的作品，在技術條件特許的情況下要公布相關資訊，「讓人家知道你使用了什麽」。原則上應該認為，這些使用是可行的，作品一一得到特許，事實上是做不到的。應當按照2022年12月印發的【中共中央國務院關於構建數據基礎制度更好發揮數據要素作用的意見】中的「淡化所有權、強化使用權」為指導，加快立法，明確使用原則，如果涉及商業使用，則需要支付報酬，如何支付報酬，應當在國家版權局的指導下，由使用者和權利人組織協商解決。

在此前召開的中歐數碼環境下版權保護研討會上，中國國家版權局有關負責人指出，中國以積極的、前瞻性的思維迎接人工智能的到來，研究和監管人工智能，完善制度設計，探索規範人工智能相關版權規則，加強對人工智能生成內容傳播的監測。

來源：法治日報

流程編輯：U022