當前位置: 華文星空 > 新聞

「法信法律基座大模型」成果釋出,高質素的法律數據預訓練是構建其能力的關鍵

2024-11-16新聞
11月15日,最高人民法院召開新聞釋出會,釋出「法信法律基座大模型」研發成果。 人民法院出版社副總編輯、人民法院電子音像出版社社長林誌農介紹,「法信法律基座大模型」使用最高人民法院「法信」等多個法律大數據平台的全量數據資源,種類全、規模大、來源可信、權威度高,能夠源源不斷為大模型預訓練和機器深度學習提供充足的法律數據語料。
日前,「法信法律基座大模型」已完成在網信部門的生成式人工智能服務備案。據媒體此前報道,全國已有200多個大模型透過網信部門登記備案。
相比於其他大模型,專門的法律大模型有什麽特點?對此,林誌農表示,目前在國家網信部門備案的大模型中,既有通用大模型,也有行業大模型。大模型是一種利用大量數據和算力,透過深度學習技術訓練出來的人工智能模型,它具有理解、生成、處理與規劃各種類別數據的能力,它的規模和能力目前已經達到千億乃至萬億參數的級別,是一種典型的新質生產力,可以套用於各個領域,為人類提供智能化的服務和解決方案。通用大模型雖然具有廣泛套用能力,但它不一定完全匹配每個行業的專業知識和需求,法律行業的特殊性,使得研發建設法律大模型尤為必要。
林誌農從三個方面進行了介紹。
一是法律行業套用大模型,既要同中國法治建設實際相結合,也要同中華優秀傳統法律文化相結合,要堅持正確的政治導向,弘揚社會主義核心價值觀和社會主義法治精神,要確保內容安全。
二是法律行業的專業性、精準性,需要高度標準且及時更新的各種專業法律數據作為訓練語料,以提升大模型對法律理解的準確性和適用性。法律思維本身特有的邏輯性、嚴謹性,也要求大模型具備更為強大的邏輯推理能力和論證能力。
三是法律文本及各種法律文書在套用時有規範性和嚴肅性的要求,因此對大模型生成內容的專業合規、安全可信提出更高的要求。
對於「法信法律基座大模型」名稱中的「基座」二字,林誌農表示,「基座」通常是指建築的基礎底座。「法信法律基座大模型」中「基座」可以從三個方面來認識理解。
一是起基礎支撐作用。高質素的法律數據預訓練是構建法律大模型能力的關鍵。「法信法律基座大模型」使用最高人民法院「法信」等多個法律大數據平台的全量數據資源,種類全、規模大、來源可信、權威度高,能夠源源不斷為大模型預訓練和機器深度學習提供充足的法律數據語料,所以它被定義為法律行業套用法律人工智能提供基礎數據支撐的「基座」。
二是可靠可控。「法信法律基座大模型」在法律行業廣泛套用,一方面其研發和預訓練需要大量合規的法律數據,另一方面其能力也主要是套用到各種法律業務場景,所以大模型的安全可靠、自主可控特別重要。「法信法律基座大模型」在語料來源合法性、標註規範性、輸出合規性、內容安全性上嚴格遵照監管要求,所以它是法律行業套用人工智能安全與合規的「基座」。
三是廣泛套用。「法信法律基座大模型」透過系統化聚集各類數據併集中化預訓練,可以發揮數據資源規模效應、集約效應。也就是透過標準化知識工程、體系性安全評測等,可以降低行業套用大模型的成本。透過開放能力、共享介面、統籌算力,可以促進大模型在法律行業取得更廣泛的套用效果,是體系化支撐法律行業套用人工智能的「基座」。
紅星新聞記者 付垚 實習生 尤麗琴 北京報道
編輯 潘莉 責編 李彬彬
(下載紅星新聞,報料有獎!)