推動數據標註產業化,不僅夯實了人工智能演算法訓練的基石,也有助於釋放數據要素的價值。新形勢下,促進數據標註產業高質素發展,需要在需求牽引、創新驅動、生態培育等方面找準發力點。
日前,一份名為【關於促進數據標註產業高質素發展的實施意見】的檔,迅速讓「數據標註產業」躍入大眾視野,也引發很多人的好奇:「數據標註」究竟是個什麽樣的產業?國家為何如此重視這個新事物?
對於「數據標註」,專家的解釋很直接:就是給文本、語音、圖片、影片等各種各樣的數據「打標簽」。但別小看這些標簽,正是有了它們,數據才可以更好地被人工智能演算法理解和使用,人工智能系統的效能與準確性才能有效提升。從某種意義上說,沒有高質素的數據標註,就沒有高效能的人工智能系統。
通常情況下,訓練一個領先的大模型,需要數百萬條甚至數千萬條標註數據。遺憾的是,中國雖是全球第二大數據資源國,但還算不上數據資源強國。有機構統計顯示,2023年中國數據資源為32ZB(澤字節),保存數據僅有2.9%,這一數碼遠低於已開發國家平均水平。換句話說,數據質素低、大量數據被浪費等現象,客觀上制約了中國數據資源價值的發揮,而透過推動數據標註產業化,不僅夯實了人工智能演算法訓練的基石,也有助於釋放數據要素的價值。
促進數據標註產業高質素發展,有其必要性。當前,全球主流基礎大模型中,中文語料僅占全部語料的1%,高質素中文數據不足很大程度是中國基礎大模型能力的短板所在。正因如此,全面提升中文語料質素,已成為破解中國大模型發展的關鍵環節之一。打造具有國際影響力的數據標註企業和品牌,將有助於構建完整的人工智能產業鏈,提升中國在全球人工智能領域的市場份額和話語權。
近年來,人工智能技術的叠代升級和套用場景的持續拓展,推動數據標註產業不斷呈現出自動化、專業化和高端化的特點,數據標註產業正逐步從傳統的勞動密集型產業向知識密集型產業轉變,數據標註員作為國家認可的新工種,其專業化要求也在不斷提高。同時,數據標註的套用領域加快拓展深化,除了傳統的語音轉寫、圖片文字辨識等,來自垂直大模型公司的新需求也越來越多,標註的內容也更加豐富多彩。
新形勢下,促進數據標註產業高質素發展,需要在需求牽引、創新驅動、生態培育等方面找準發力點——
在深化需求牽引方面,透過釋放公共數據標註需求和挖掘企業數據標註需求,依法依規有序推動公共數據標註與開發利用。支持跨部門、跨地區、跨層級公共數據融合套用,鼓勵政府部門和企業協同開展政務大模型所需數據的標註和訓練,在現代農業、智能制造、資訊服務等重點領域發掘公共數據標註需求。
在增強創新驅動方面,加強數據標註領域的關鍵技術攻關、標準制定和創新載體建設。支持軟硬一體、自主可控的數據標註領域技術和關鍵器材的研發套用。培育建設數據標註領域重點實驗室、技術創新中心等創新載體。
在培育繁榮生態方面,著力壯大數據標註產業的經營主體,推動其規模化、標準化、集約化發展。積極完善產業生態,暢通數據采集、標註、人工智能套用產業鏈,推動上下遊協同發展,培育一批深耕行業的數據標註瞪羚企業、獨角獸企業。
此外,還要持續最佳化支撐體系,在加大財稅金融支持力度、推動數據標註服務納入政府采購範疇等方面,提升數據標註的公共服務能力。尤其是在人才培養上,要深化產學研融合,鼓勵行業聯盟、高校、科研院所與企業建立長期合作機制,進一步暢通人才發展通道,強化數據標註產業發展的人才支撐。 (作者:顧陽 來源:經濟日報)
來源:經濟日報