編輯:LRST
【新智元導讀】AutoPatent框架能夠自動化生成高品質的專利文件,大幅提高專利撰寫效率,有望簡化專利申請流程,降低成本,促進創新保護。
在科技日新月異的今天,專利作為保護創新成果的重要法律工具,其撰寫過程卻往往繁瑣且耗時,傳統的專利撰寫工作通常由熟悉專利法律和技術領域的專利代理人完成,這一過程耗時費力,且效率較低。因此,開發一種能夠自動化生成高品質專利文件的方法,對於提高專利撰寫的效率和準確性具有重要意義。
最近,來自中科院深圳先進院和大連理工大學的研究團隊聯合開發了一個名為AutoPatent的自動化的多智慧體專利生成框架,能夠在十分鐘左右的時間依據發明人的專利技術底稿生成一篇完整的專利文件。
論文地址:https://arxiv.org/abs/2412.09796
程式碼連結:https://github.com/QiYao-Wang/AutoPatent
研究背景
一份完整的專利申請檔通常包含標題、摘要、技術背景、詳細描述和權利要求等內容,其平均長度在17,000 Tokens以上。以往的專利申請流程通常為發明人依據發明的具體可實施內容撰寫專利技術底稿委托專利代理人起草專利申請檔。
專利起草是一個復雜的知識密集型任務,需要專利代理人對專利法熟悉並且具備該發明所屬技術領域的知識,從而能夠完成對發明人技術底稿的審查和規範化重寫。
目前這一過程仍然完全由人工手動完成,具有較高的人力成本和時間成本,從技術交底書到正式向專利局送出的時間通常在一個月以上,無法有效保護叠代更新較快的技術領域的相關發明。
專利起草任務Draft2Patent
以往的專利撰寫任務通常關註專利檔內部文本的相互轉化,例如專利的摘要與權利要求之間的相互轉化等。
研究人員透過模擬真實場景中的專利撰寫工作,引入了一項新穎的專利起草任務Draft2Patent,將發明人技術底稿轉化為完整的專利檔,提升專利代理人的專利撰寫效率。
該任務主要有 兩個主要困難:
-
底稿和完整專利的平均長度分別為4,000 Tokens和17,000 Tokens。
-
一份高品質專利需要具有專利性(非顯而易見性、有用性、新穎性以及符合專利法律規範),同時需要滿足專業技術領域和法律的相關規範。
研究人員構建了Draft2Patent任務對應的基準數據集D2P,其中包含1,933條底稿專利文本對和其他後設資料,並將其劃分為包含1,500條數據的訓練集,133條數據的驗證集和300條數據的測試集。
隨著大語言模型的發展,基於大語言模型的智慧體展現了在知識密集型領域的意圖理解、規劃、記憶、重復思考及任務執行的強大能力。
針對Draft2Patent任務,研究人員提出了一個新穎的多智慧體自動化專利起草框架AutoPatent,其中使用寫作、規劃及審查三大類八個智慧體在短元件生成、專利寫作規劃樹構建(PGTree)、參考-審查增強生成(RRAG)三步驟的驅動下完成完整專利的撰寫。
該篇文章的主要貢獻有:
自動化生成,提升專利撰寫效率
透過自動化生成專利文件,文章提出的AutoPatent框架顯著提高了專利撰寫的效率,能夠在十分鐘左右的時間內生成一篇完整的專利文件,減輕了專利代理人和發明者的工作負擔,使他們能夠更專註於創新和專利內容的最佳化。
多智慧體協作,提升專利品質
AutoPatent框架透過多智慧體協作,其中規劃智慧體構建PGTree(Patent Writing Guideline Tree,專利寫作指南樹),專利詳細描述寫作智慧體與審查智慧體基於RRAG(Reference-Review-Augmented Generation,參考審查增強生成)協作撰寫占據專利文本80%以上的詳細描述部份,確保生成的專利文件符合法律和技術標準。這提高了專利的合規性和保護範圍,增加了專利被授權的可能性。
由此及彼,推動智慧財產權服務創新
文章提出的Draft2Patent任務和AutoPatent框架為智慧財產權服務領域帶來了新的思路和方法。這有助於推動智慧財產權服務的創新和發展,提高整個行業的服務水平胡競爭力。
數據集
研究團隊構建了D2P基準數據集,包含1,933個草稿-專利對和其他專利後設資料。
由於專利局僅公開授權專利,而發明人和專利代理人不會公開其發明的底稿。
為此,團隊透過與專業的專利代理人溝通,構建了涵蓋發明所有相關資訊的五個問題
,對於單個專利P,將GPT-4o-mini模擬為發明人,透過詢問五個問題得到對應的回答
,並將其與問題組合為底稿。
為了保證底稿的有效性,研究人員構建了對應問題的審查標準,透過將GPT-4o模擬為專利審查員來評估每個答案是否能夠準確描述該發明,並且透過人工篩選後,獲得了1,933條高品質的專利底稿數據。
D2P數據集中不僅包含底稿專利文本對,還包含底稿與其他專利後設資料文本對,如底稿標題文本對等用於智慧體的微調,同時還構建了底稿-PGTree文本對數據,用於微調規劃智慧體。
對於單個專利P,研究人員將GPT-4o-mini模擬為人工智慧助手總結專利P的詳細描述中每一部份的內容,並將其組織構建為預設的雙層多路專利寫作規劃樹的數據結構。
統計數據集中各部份的文本長度後,可以看到標題、摘要、權利要求、總結及技術背景等內容的長度小於2000 Tokens,而專利的詳細描述部份長度超過了14,000 Tokens,占據完整專利的80%以上,生成高品質專利詳細描述是本基準的一大挑戰。
自動化專利撰寫框架AutoPatent
研究人員提出了一個新穎的多智慧體自動化專利起草框架AutoPatent,其中包含三大類八個智慧體在三大步驟的驅動下完成完整專利的撰寫。
智慧體
在AutoPatent框架中,定義了八個智慧體,並將其分為三類:寫作智慧體、規劃智慧體及審查智慧體。
寫作智慧體: 由於專利的各個部份之間存在著一定的格式及風格差異,如專利的摘要一般較短而權利要求通常為具有編號的結構化文本。將六個寫作智慧體分為兩大類,即短文本寫作者和詳細描述寫作者。
規劃智慧體: 由於專利的詳細描述的平均長度超過14,000 Tokens,為大語言模型一次性生成詳細描述帶來了困難。透過引入雙層多路的專利寫作規劃樹PGTree,指導詳細描述寫作者在RRAG過程中分步生成完整的詳細描述。
審查智慧體: 透過模擬真實場景中的專利撰寫步驟,定義了審查智慧體。其需要依據事先設定的評價規範完成兩類任務,即發明人送出新底稿後的品質審查和與詳細描述寫作者協作評估詳細描述的品質並提供反饋達到最佳化的效果。
工作流程
提供了相應的邏輯框圖和虛擬碼。透過模擬真實場景中的專利撰寫過程將AutoPatent框架的整體工作流程分為三步。
短元件生成: 在Step I中,利用不同的短文本寫作者將專利底稿並列轉化為對應的短文本。之後將這些短文本與專利底稿共同組成參考(Reference, R)。
專利寫作規劃樹構建: 在Step II中,利用規劃智慧體構建該底稿對應的PGTree。PGTree是一個雙層多路樹,將詳細描述的生成任務拆解為雙層級的大綱式多步生成任務。第一層節點提供該部份的整體概述,第二層節點向詳細描述寫作者提供每個子部份的具體指令。
參考-審查增強生成: 在Step III中,詳細描述寫作者首先根據PGTree中二層節點的具體寫作指令從參考R中檢索對該部份寫作有用的資訊,提升內容的一致性和可靠性。詳細描述寫作者之後根據二層節點的具體寫作指令和檢索到的內容生成子部份的內容,審查智慧體將主動介入依據審查標準判斷生成的子部份的品質,並透過與詳細描述寫作者的多輪互動完成子部份的內容最佳化,直至透過審查。
實驗結果
研究人員采用了n-gram基於的BLEU指標和ROUGE-1、ROUGE-2、ROUGE-L指標作為客觀指標,同時提出了一種新的逆重復率(IRR)指標來衡量專利文件中句子的重復程度,從而去除由於重復句子過多對基於n-gram的指標的過度獎勵。
其中真實專利的IRR在t=0.2時為91.33,t=0.4時為98.57,真實專利的文本重復率較低。
其中基於Jaccard相似度和設定的閾值超參數判斷專利文本內部句子的重復,函式f(si, sj)定義為:
同時,實驗邀請了三位熟悉專利法和專利撰寫的人類專家對生成的專利文件進行品質評價。評價標準包括準確性、全面性、邏輯性、解析度、連貫性和一致性等六個維度。
將AutoPatent框架與零樣本提示生成方法和監督微調生成方法進行了對比,以評估AutoPatent框架的效能。
實驗結果顯示,AutoPatent框架在多個維度上均優於基線方法,其中AutoPatent框架使用Qwen2.5-7B作為基座模型時的效能超過了參數量更大和能力更強的模型,生成的專利文件在長度、內容品質、重復率等方面均表現出色。
與此同時,三位人類專家均認為基於AutoPatent框架生成的專利文本品質好於其他方法。
AutoPatent的出現在未來可能對智慧財產權行業產生深遠影響:
-
專利生成流程重塑:傳統的專利申請流程繁瑣,涉及多次人工稽核和修改。AutoPatent透過自動化生成和審查流程,將原本需要數周甚至數月的時間縮短至幾小時或幾天,極大地提高了效率。
-
降低專利書寫難度,促進創新:AutoPatent的出現降低專利撰寫難度,當專利撰寫變得更為便捷和經濟時,更多的創新想法將有機會轉化為專利,從而激發整個社會的創新活力。
-
智慧財產權服務行業變革:隨著AutoPatent等自動化工具的套用,智慧財產權服務機構將不得不探索新的服務內容和模式,如專利數據分析、專利價值評估等增值服務。