論命名實體識别技術在司法大數據中的适用
王燕玲 華南師範大學法學院副教授,華南師範大學人工智能法律應用研究中心主任
本文将發表于《政法論壇》2022年第5期
摘要:法治均等化與可及性建設,需要推動我國社會公平正義的司法體制綜合配套改革。在法治研究與人工智能深度融合的背景下,作為專有名詞識别與自動标識的命名實體識别技術(NER),在适用于法律人工智能的過程中具有積極價值。命名實體識别在司法大數據中應用的法理根基在于文本解讀的主體間性。就法律規範文本而言,命名實體識别技術可通過“法律規範文本數據集—實體标注與識别—深度學習訓練模型”的路徑實現。就裁判文書文本而言,應重點關注文書文本的語義類别與特征、模型選取、實體細粒度标注原則以及數據增強功能,提升法律實證分析、類案檢索的精準性。通過命名實體識别技術的深度應用,為法律人工智能的可及化和均等化提供新的技術工具和輔助參考。
關鍵詞:法律人工智能;命名實體識别;法律實證分析;類案檢索
目錄
引言
一、命名實體識别在法律人工智能中之應用基礎
二、法律規範文本中命名實體識别之實現路徑
三、司法文書文本中命名實體識别的實現路徑
結語
引 言
當前智慧司法的建設仍存在諸多問題,如“重建設,輕應用”的意識、深度學習等人工智能技術在功能開發中應用程度不高、司法大數據資源的效用遠未發揮充分等。然而,破除“重建設,輕應用”的迷障,實現法律人工智能的均等化與可及性,是智慧司法建設過程中應積極面對的。黨的十九屆四中全會提出了“均等化、可及性”作為推進國家治理體系和治理能力現代化的任務之一,體現了黨對于國家建設、政府建設的價值追求。所謂法治的均等化與可及性,是指群衆能獲得大緻均等的法律服務與法治産品,其核心是機會均等、全面普惠。法治均等化、可及性追求的價值取向是公平正義,旨在通過提供優質的法律服務與法治産品,彌補城鄉、區域、不同人群享受法律服務資源上的差距,共同享受法治中國的建設成果。對此,需要積極探索相關人工智能技術如何應用于智慧司法建設的進程中,有效地将人工智能技術與司法大數據資源深度融合,産出高效、可靠的智能法律應用産品。
“大數據與人工智能不僅成為司法信息化、智能化建設中的技術支撐,而且還被賦予提升司法審判體系與審判能力現代化建設的技術力量。”在司法大數據研究領域,理論探索更傾向于宏觀命題和一般性原理,技術實現更傾向事務管理性模式這一路徑。對“人工智能 法律”的研究大抵僅能将人工智能作為一個概念、現象或者社會發展的前景,再進行研究。例如,在中國知網以“人工智能”“法律”為關鍵詞進行檢索,可以發現,其研究範圍大緻為人工智能之法理、法律人工智能之倫理問題與中國經驗及其優化路徑、人工智能之算法風險及其應對,等等。如何将法律與技術進行深度融合,打造出具有法律專家之邏輯推理和決策能力的智能化應用,是法治均等化與可及性建設的現實需求。
人工智能作為計算機科學的一個分支,其包含了機器學習、語言識别、圖像識别、自然語言處理和專家系統等技術。其中,自然語言處理(Natural Language Processing,NLP)作為上述應用的支撐技術之一,又以命名實體識别(Named Entity Recognition,NER)為關鍵性基礎任務。命名實體識别指的是,識别出專有名詞。這不僅是深度學習的關鍵性技術,也是應用于司法大數據智能分析的重要一環。
當前,對于人工智能中的命名實體識别技術如何應用于法律領域,我國的研究主要集中于以下幾個方面:一是構建法律文書的命名實體識别技術;二是對裁判文書中的相應事件設置自動化抽取方法。然而,上述研究主要是以法律文書為樣例,利用相應技術手段構建識别模型,重點在于如何提升命名實體識别的準确度。就命名實體識别應用于司法大數據領域,當前的文獻着墨較少。鑒于命名實體識别技術是應用于司法大數據領域的重要技術,且有利于提升法律文本的智能識别效率,提高類案智能推送、法條關聯推送的精準度,增強案例大數據實證分析的準确性。為此,本文首先闡明命名實體識别技術之基本原理,對其應用于司法大數據領域的可能性與必要性作進一步分析,并以法律規範文本和司法案例文本為主要分析對象,闡明命名實體識别技術在法律領域的實現路徑,以期推動法律人工智能的均等化與可及性。
一、命名實體識别在法律人工智能中之應用基礎
突破法律人工智能研究中“重理論研讨,輕實現路徑”的瓶頸,應首先說明命名實體識别之原理,闡釋其應用于法律人工智能之可能,為命名實體識别技術在法律規範文本與司法裁判文書中的實現路徑奠定基礎。
(一)命名實體識别技術之原理
命名實體識别技術是關系抽取、文本摘要和機器翻譯等自然語言處理中的一項重要任務,其任務目标是給定一段非結構文本後,從句子中尋找、識别和分類相關實體,例如人名、地名和機構名稱。命名實體識别中的核心要素是“實體”,實體是指具有可描述意義的單詞或者短語,一般可以是人名、地名等。在法律領域則表現為專有名詞,如“死刑”“有期徒刑”等。
在上世紀90年代,國外有學者在第7屆IEEE人工智能應用會議上首次發表“抽取和識别公司名稱”的文章,采用啟發式算法和手工編寫規則的方法描述了抽取和識别公司名稱的系統。但“命名實體識别”這個專業術語首次在MUC-6(Message Understanding Conferences)會議上出現,此次會議主要讨論了信息抽取以及命名實體識别任務。此後,命名實體識别對類别的劃分逐漸細緻化,由粗粒度的人名、地名和組織機構名,向國家、城市、政治家、藝術家等細粒度實體類别轉變。中國研究命名實體識别技術雖然起步相對較晚,但其研究主要集中于中文命名實體之中,例如,地名、人名、組織機構名等。随着命名實體識别技術的深度發展,其被廣泛應用于多個領域。
在法律領域的應用主要包括,利用上下文針對法律文本、法律數據集的命名實體識别的研究;細粒度命名實體識别在法律文本中的應用;設置裁判文書中的自動化抽取方法等。這對智能化分析法律規範文本、裁判文書等文本無疑具有正向效用。
命名實體識别的原理即是識别“實體”的邊界與類别,降低人工标注的差誤。其主要功能和作用是将預先定義好的“實體”類型識别出來,它的基本步驟分為“詞實體标注—單個實體識别—複合實體識别”,不同的實體有不同的标注方法。這為法律文本中的人名、組織名等實體的識别創造了底層技術邏輯,大量的實體類别通過技術手段識别,大大降低了人工标注所帶來的偏差。例如,XX律師作為代理人參加某機動車交通事故糾紛案。其中,原告、被告、委托代理人等即為命名實體,這可通過要素挖掘、語義檢索、推理計算等識别出相應法律“實體”。這在法律人工智能應用中對于證據的分析、事件分析、時間分析、法律行為分析等要素的智能化識别具有重要的技術價值。
近年來,通過連續的實值矢量表示和通過非線性處理的語義合成的支持,深度學習已被用于命名實體系統中,從而産生了最先進的性能。基于深度學習的命名實體識别技術可以設計端到端的結構,使設計好的模型能夠從數據中學習到更為複雜的“實體”,從而避免人工的重複标注。
命名實體識别技術通過标注、識别法律“實體”,以可視化的形式展現司法演變軌迹、經驗邏輯等,凸顯出信息技術的科技理性。識别出的法律“實體”數據具有客觀性、真實性,呈現一種司法數據與人工智能技術緊密結合的現狀,反饋并提高了人工智能時代的司法理性。例如,利用大數據技術精準描述裁判文書所體現的司法理性,需要着力解決刑罰數值化表示,以實證确定量刑起點、實證确定量刑因素的作用力大小等反饋司法理性的因子,以數據形式完善對司法理性的精準描述。以“數值化”的形式表示刑罰量,首要的是識别出已有裁判文書中的刑罰量“實體”。這些實體所反饋的司法理性,是法治社會公平、正義的重要屏障。而公平、正義作為司法公正的實質内涵,也要融入法律人工智能的技術理性之中,體現公正,避免技術的固有缺陷所帶來的歧視性問題。
(二)命名實體識别于司法大數據應用之積極價值
“智能系統的論證說理水平直接影響其決定的可接受性。”智能系統正确說理的前提是要識别法律文本中的“實體”,這恰需要命名實體識别技術在司法大數據領域發揮作用。
就命名實體識别技術應用于司法大數據中的必要性而言,在利用技術手段推動中國法學本土化發展之餘,也可作為法治均等化與可及性的道路之一。法律人工智能是通過技術手段推動司法改革的新範式,既能提升司法改革質效,又能推進司法公正,為司法為民和公正司法提供智能化解決方案。其中,命名實體識别技術的司法應用成為當前法學研究之重點内容。
一方面,法學研究的本土化需要結合大量的司法裁判文書展開實證研究。在數以億計裁判文書中所展現的實證問題,恰是中國法律實踐所需要解決的。其解決程度既是司法回應立法的表達,也是民衆對良法善治的企盼。因而,法學研究的本土化,首要的是解決中國法律實踐之問題,這需要結合“類案類判”的原則,深度清洗、分析司法裁判文書等法律文本,融入法教義學基本要義,型塑符合中國國情的學說、理論與法學科學概念。
另一方面,要從大量的裁判文書中找到司法實踐之問題,并非易事。而命名實體識别很大程度上可以解決标注不準、識别不清、效率低下等問題。從法學實證研究範式的角度來說,技術手段的成熟運用,對擺脫當前實證研究中的描述性統計分析、相關性分析也有益處。“法學實證研究範式的科學化需要回歸實證研究的初心,即檢驗和證僞競争性理論假設,實現破壞性理論創新。”這種檢驗與證僞以數據準确性為依歸,以人工标注獲得的“觀測性”數據存在較大的偏誤風險,難以實現上述目标。相反,以命名實體識别為底層技術邏輯所構建的模型,至少可以提升數據的準确性,為理論檢驗奠定基礎。通過人工閱讀、标注大量的文書文本耗時久,且可能出現大量統計錯誤。而基于深度學習的命名實體識别能夠提供精準的深度分析,讓法律服務更加便捷和可行。在法律服務水平不斷提升的背景下,使民衆對法律的感知由抽象到具體、由具體到可視化,例如,對相關類案的智能關聯,讓民衆在類案的裁判中具有可預期性。
就命名實體識别技術應用于司法大數據中的可行性而言,早在2000年時,即有人提出法律文本中人名的自動提取和鍊接的方法。随後,挖掘法律文本以創建訴訟曆史數據庫、使用自然語言處理和機器學習技術從裁判文書中識别相應的實體等方法相繼被提出、運用。在自然語言技術的不斷優化的過程中,較多的命名實體識别方法被應用于司法大數據領域,例如,基于預訓練表征模型(Bidirectional Encoder Representation from Transformers,BERT),将字和詞匹配輸入相應模型中,并對其解碼,所得到的最優标簽序列,對法律文書中的證據名、證實内容等實體邊界進行有效确定。這為命名實體識别技術輔助司法實務,實現法律文本分析智能化提供了底層技術邏輯。
首先,法律領域中的文本通常包含了人名、地名、時間、日期等實體,其可以成為識别的對象。命名實體識别的核心是對文本“實體”進行自動标識,這為法律文本中的大量“實體”提供了識别的技術可能性。當前,大多數的命名實體識别解決方案在生物醫學、新聞媒體等領域中運行。但法律領域的命名實體識别解決機制尚不成熟,因為命名實體識别還不能完全識别法律文本中的特定實體。一方面,法律領域中的文本沒有與“實體”類語義概念相統一的分類,相應地,法律領域的“實體”也沒有統一的注釋準則。另一方面,當前法律領域尚未建立與法律文本相關命名實體識别的數據集。這就需要依托命名實體識别技術建立法律領域的數據集,形成符合法律獨特語言的模型。
其次,在司法實務中,利用命名實體識别進行法律文本智能分析已然踐行。在美國,有論者提出,應首先建立特定州、特定縣的特定法官的數據庫條目,再讨論法律文件(例如美國判例法、陳述書、訴狀和其他審判文件)中的命名實體承認和解決。其中,可以結合命名實體識别技術形成在法律實體中查找,上下文規則和統計模型的三種方法。然後,再描述一個在法律文本中查找命名實體的實際運行系統,并評估其準确性。在德國,則有學者描述了一個為德國聯邦法院判決中的命名實體識别開發的數據集。它由大約67000個句子和200多萬個标記組成。該資源包含54000個人工注釋的實體,映射到19個細粒度的語義類别:人、法官、律師、國家、城市、街道、景觀、組織、公司、機構、法院、品牌、法律、法令、歐洲法律規範、法規、合同、法院判決和法律文獻。這在法律領域提供了免費可用的數據集,為法律文本分析研究提供了文本類型或語義類别。
當然,命名實體識别的逐漸成熟運用,不斷提升了法律文本分析的精準度。比如,針對案例推薦中存在的推薦準确性差、傳統知識圖譜向量化表示精度不高等問題,有論者構建了基于知識圖譜的案件推薦模型。該模型利用文本分類和信息抽取技術構建面向刑事案例的知識圖譜,針對當事人的陳詞供述,利用知識表示學習求解相似的案件,進一步實現法條推薦。可見,當前命名實體識别的發展更多地是在正向層面推動着司法實務的發展。
伴随着命名實體識别技術的優化,其在司法實踐中的應用将改變當前的司法工作,“NER在其他學科上的應用也是未來一個重要的研究方向。将已有的NER方法有效地應用在各種領域的文本上,幫助各種學科獲取其所關注的命名實體,這本就是NER研究的意義和價值所在。”對此,将自然語言處理技術中的命名實體識别應用于司法實踐中,應符合當下的司法改革之方向,最大程度破解“重建設,輕應用”的法律人工智能之發展障礙。
就法律領域而言,當下法律人工智能最具被挖掘潛力之一的乃法律規範文本,目前中國法律體系已然建立并逐漸健全,面對如此海量的法律規範文本,為了避免對法律教義解讀的偏離、适法之不完全與困境等,通過命名實體識别技術提取法律規範文本中的“實體”,尤為必要。其二乃裁判文書文本,海量的裁判文書是當前司法審判實務經驗的彙集,在助力類案類判的過程中,對裁判文書的充分挖掘也能夠推動法律的普及。因此,對兩類法律文本的命名實體識别之應用,将促進法律人工智能的效能,提升法律普及之效度。
(三)命名實體識别于司法大數據應用之法理根基
以往的法學理論強調法律的客觀性。解釋者隻需要服從法律的含義即可。但是,客觀的法律内容往往是不确定的,确定的隻是法律語言的形式表達。以此為指引,命名實體識别隻能被動的在表層的文字表達中提取固定信息,不同的主體在解讀文本的時候往往帶有不同的前思維,因此,他們所預設和期待的文本信息關聯圖譜很可能大相徑庭。例如,在法律規範文本的檢索中,甲和乙同樣是檢索“高空抛物”,但甲可能隻是想知道高空抛物罪的具體條文規定,而乙則希望了解高空抛物涉及的所有罪名。如果文本識别的結果是隻呈現出高空抛物罪的條文規定,顯然不能滿足乙的需求。相反,如果文本識别的結果是包含所有可能與高空抛物相關的罪名以及司法解釋,對于甲來講又是太過龐雜。另外,由于不同主體的認知範圍不同,形式化的文本識别結果對于不同主體來講也有不同程度的信息隔閡。如果要讓文本識别達到可及化和均等化的目标,就必須克服不同主體間的預設與需求差異。
因此,在構建命名實體識别的底層邏輯時,應當重視法律解釋的主體間性。所謂主體間性,是指“主體間或主體際,指的是兩個或兩個以上主體的關系。它超出了主體與客體關系的模式,進入了主體與主體關系的模式。就單純的主體與客體的關系而言,主體所面對的是客體,他人也被視為客體;而在多主體的關系中,他們所面對的既有主體之間的關系,也有主體與客體間的關系。”從主體間性出發,可以推導出主體與文本之間的互動性。不同的主體以其自身的前思維碰撞文本中的信息,從而實現主體與文本距離的拉近。“通過讀者意識這樣一個外部因素的介入,使解釋從純粹的細節和整體之間的循環中解放了出來,從條文細節的粗糙意義到深入意義,這并非簡單的循環與重複,而是經讀者意識修正與細化之後的螺旋式上升。讀者總會根據其從生活世界體驗的案件類型與價值精神來把握條文的整體價值,并以此來支配對條文細節深人的理解。”以此為參照,法律文本識别就要充分考慮到不同主體的可能需求。尤其在司法大數據中,精準地捕捉關鍵信息,是命名實體識别的重要目的。隻有把主體和文本可能産生的主觀互動作為識别邏輯的前提,才能讓紛繁複雜的信息接近主體預設和期待。例如,從主體的預設和期待出發,對高空抛物的相關文本做精準的識别,從而确定關涉特定罪名的文本、還是關涉全部法律規範的文本、抑或關涉非刑事犯罪的文本(如民事法律規範文本和行政法律規範文本)。
除了考慮主體的文本識别需求以外,主體間性還能為法律規範文本和案件事實文本之間架起互通的橋梁。以往的法律适用理論主張法律适用就是從法律規範适用到案件事實的過程。那麼,法律規範文本和案件事實文本之間就是從屬關系。但是,法律的真義必須經過事實的碰撞才能逐漸的揭示。“正如較具體的制定法(法律規範),隻有在與應加規範的可能的生活事實,有所關聯時,才可能由抽象的法律理念(一般的法律原則)産生,具體的法律,亦隻有與現實的生活關系相關聯之下,才可能由制定法(法律規範,法律規則)産生。”根據主體間性理論,立法和司法不是截然割裂的不同區域。立法要向司法無限接近,而司法也要向立法無限接近。隻有這樣,才能讓法律規範成為真正的“活法”,而司法活動也才能成為法律發展的過程。法律規範文本和案件事實文本不是單向的适用和被适用的關系,而是相互不斷拉近的關系。以此為指引,根據案件事實本文識别法律規範文本,或者根據法律規範文本識别案件事實文本,便成為可期待的事情。
二、法律規範文本中命名實體識别之實現路徑
當前法律檢索出現了如下問題:其一,法律規範文本有其特殊的屬性,主要表現為術語的專業性、法律條款的多樣性、法律内容的關聯性等,對相應法律條文進行檢索時,獲取相關信息并不能完整呈現或者獲取的信息需要再整合與關聯;其二,法律規範文本名稱存在重合性,檢索某部法律時,會顯示多部出現檢索關鍵詞的法律規範文本,檢索者還需要人工再檢索、再定位,從中尋找所需要的具體法律條款,大大地增加了檢索者負擔。例如,與未成年人相關的法律、法規、司法解釋、部門規章、地方性法規以及地方政府規章已有上千部,如何在适用過程中避免遺漏、甚至錯誤,需要重視;其三,若按照具體法律條款的内容進行檢索,同樣會出現不相關的法律條文等問題。
上述問題困擾着法治的均等化與可及性,一方面,民衆難以及時公平地獲取大緻均等的法律檢索服務,對法律的認知停留于法律頒布的時間、名稱等,難以有效清晰地了解具體内容,特别是整體法秩序下的相近内容。另一方面,法治的可及性問題還要滿足司法效率的要求,若法律檢索效率低下、檢索不全面,勢必影響法律适用的準度。
而利用命名實體識别技術解決上述法律檢索問題,具有如下優勢,一是該技術通過識别相應的法律專業術語(實體),對識别模型深度學習訓練之後,可以不斷實現精準化的目标;二是人工智能時代中的機器學習逐漸成熟,對資料的收集、儲存、整理、分析等,不僅成本低廉,且能比人類更加卓越。例如,基于ES的檢索計算,可通過多重檢索規則(關鍵詞檢索、正則檢索等)實現檢索目标;三則将命名實體識别應用于法律規範文本之中,旨在以技術促進法律人工智能的均等化與可及性。在法律人工智能發展過程中,宣傳、普及海量的法律規範需要借助技術手段分門别類的呈現不同級别的規範,避免法律文本在适用時的沖突。具體而言,可通過“法律規範文本數據集—實體标注與識别—深度學習訓練模型”之步驟具體化。
(一)法律規範文本數據集的構建
法律規範文本數據集可以表現為法律、行政法規、地方性法規、部門規章、司法解釋之間構成的動态數據庫,同時也可以表現為由司法大數據文書所彙集而成的數據庫。所謂數據集是命名實體識别應用的基礎數據庫,其是将“實體”以某種邏輯形式記錄的集合,在内部呈現變量與數據庫表的對應關系,具有相應的邏輯架構。在這邏輯架構中,法律規範之間以“對應”的方式形成互嵌組合。組建的法律文本數據集包括構建階段、邏輯、方式、文本挖掘、排序以及信息檢索與數據集之間的匹配等内容。
第一,在法律規範文本數據集的構建階段,應将法律語言轉換為自然語言處理。法律以語言為核心,法律與語言之間存在着緊密的聯系,并通過多層次語言進行傳播。在法律領域将法律語言轉換為計算機自然語言處理,更多依憑的是法律專家對法律的分類,而非人工智能技術專家的建模。例如,中國政法大學有學者基于中國裁判文書網已公開的文書,開發了10000篇裁判文書組成的民事裁判數據集,并利用Transformer模型優化數據集,獲得了高效的民事裁判結果分析模型。這一路徑的可取性在于,一則,法律語言的非結構性、法律專業術語(實體)的價值判斷性等,由機器自主學習難以完成信息抽取等任務。需要法律專家創建法律規範文本數據集,以符合法律文本的規範邏輯、法律規範等級等需求,再嵌入深度學習技術中,實現可操作性的要求。二則,法律規範中的命名實體識别、關系鍊接、信息抽取、文本挖掘等應先由法律專家根據法律語言的特殊性手動注釋實體,以滿足精準識别的要求。
為此,法律規範文本數據集的建立分為幾個階段:第一階段是收集、整理我國已發布、正式生效的法律規範性文件,準備好構建數據集的法律數據。第二階段是數據轉換階段,通過深度學習方法将法律規範文本轉換為自然語言。第三階段是改變數據集階段,即通過命名實體識别使數據集的挖掘更加有效。在法律規範文本數據集構建階段,應關注法律規範文本數據集構建中“變量”之間的關系及其邏輯,形成以法律規範為主的數據體系,為人工智能深度學習提供“基礎”。此外,在法律規範文本數據集構建過程中,需要歸納數據挖掘、預測的規則,為法律實體标注奠定基礎。法律判決預測(LJP)的任務旨在賦予機器在閱讀事實描述後預測法律案件判決結果的能力,這需要以法律規範文本為依據。例如,所提取的信息可以将法律推理和論證的人工智能模型與法律文本直接聯系起來,預測和解釋案件結果。其中,法律規範文本數據集的構建,将直接影響法律規範檢索的高效化、裁判結果預測的準确性。
第二,在法律規範文本數據集階段性構建指引下,還需要對法律文本按照一定的規則排序。這一排序規則既要符合法律規範的效力等級,也要反映使用給定學習策略的深度學習系統之技術邏輯。一方面,應按照法律的效力層級對法律規範文本數據集排序。當前我國已經形成了以憲法為核心的法律規範體系,效力層級應當是“根本法、基本法、普通法、行政法規、地方性法規和行政規章”。因此,數據集的分類,應當按照上述效力層級分類表達,其中最為重要的是上述規範性文件之間應做好對應關聯性匹配,避免檢索查詢時遺漏。另一方面,機器深度學習所獲得的實體,原則上不能被完全驗證,這主要是因為法律術語語義的差異性所緻。當然,數據集之中能夠被檢驗的“數據量”暫時是有限的。因此,為了提高檢驗的精度,機器學習時應設定具體的學習目标、确定檢索優先推出“實體”的标準、确定檢索結果的解釋方法與推理規則。根據上述排序邏輯,法律智能檢索系統可按照如下方式進行,以法條為核心按照分階段、分序列的方式系統性、精細化的構建。首先将法律規範分為憲法性法律、刑事法、民商法等,并在各類别下再細分具體領域的法律規範,其次将法律語言轉換成自然語言處理,最後在分類好的法律規範文本基礎上,制定數據挖掘的預測方法,并準備法律文本實體标注。
第三,構建法律規範文本數據集的過程中,還需解決法律文本挖掘問題。法律文本挖掘由信息檢索研究發展而來,是通過對自由文本的自動分析來發現知識的研究領域。由于法律領域的文本信息往往以相對非結構化的文本形式存儲,比如,法規、裁判文書等通常以自由文本文件的形式存儲。這種非結構化的信息增加了檢索的難度。高效信息檢索旨在檢索給定信息查詢相關的内容。典型的法律規範檢索系統應是從數據集中選擇相應文本,以響應用戶的查詢,并根據這些文本與查詢信息的相關性對其進行排序,這就需要将“文本表示”與“查詢表示”進行匹配來實現。法律中文本挖掘的大多數示例涉及信息提取、文本分類、文本聚類或者文本摘要。例如,其中信息提取涉及文本自動識别,對特定領域進行抽取的技術信息來自文本,文本片段被映射到具有明确語義意義的字段或模闆群,以實現在法律文本檢索中獲取所需要查詢的信息。通過這種模式,諸如澳大利亞法律信息研究所(AustLII)、英國和愛爾蘭法律信息研究所(BAILII)、加拿大法律信息研究所(CanLII)、香港法律信息研究所(HKLII)等獨立和非營利性合作機構,即可在接收法律文本後,自動處理并上傳到相關數據庫,以便用戶查詢。
(二)法律規範文本數據集的實體标注
首先,應明确法律領域實體标注的原則。對法律規範文本數據集中的“實體”應注意如下原則:一是,法律規範文本中所使用的類别必須是反映那些典型的決策實體,如法律規範的标題名,以方便民衆檢索時直接查詢到文本标題;二是,對法律規範文本中的分類必須關注決策差異化高度相關的實體,以便查詢時呈現直接相關的内容。這是因為,法律語言的語義結構影響着命名實體識别的精準性。例如,标準法律文本中由長标題、短标題和縮寫組成,這就需要法律規範文件中使用的實體符合法律語言的邏輯構造,既要考慮法律法規被裁判文書引用的事實,又要考慮典型命名實體識别的類别(人名、地名、組織機構名)在法律、行政法規等規範性文件中出現的頻率較低之事實。通過典型性、高度相關性突破法律實體中沒有統一定義這一難題。
其次,應明确法律領域實體标注的方式。我國法律規範文本具有如下特點,在形式上,法律規範具有标題、編、章、節、條、款、項的結構;在法律文本内容上,由于法律條文一般由“前提條件”“行為模式”和“法律後果”三部分構成。一方面,可以通過人工标注,将法律規範文本中的分詞進行實體标注,以避免法律實體中沒有統一定義造成的疏忽。另一方面,可以根據法律規範的結構、特定的格式進行自然标注。為區分相關法律實體,應對法律規範所規定的要件進行解構,并予以标注。例如,刑法規範的構成要件中的犯罪主體、主觀要素等;在文本内容的關聯上,可以采用序列到序列的方式強化實體之間的匹配,在法律規範檢索時呈現文本全貌。序列到序列模型結合了強化學習在決策上的優勢和序列到序列模型在長期記憶方面的優勢,能較好的實現關鍵詞抽取任務。在自然标注的過程中,應考慮實體的多标簽分類,将不同法律規範中的“實體”整合成法學多學科詞庫。
由此,在數據集構建好并在法律文本中的實體标注之後,從數據集中選擇反映查詢的實體之過程大抵如下:識别、分析法律文本中的單個詞—删除與查詢無關的法律實體—尋找到法律文本檢索系統中語義差異較小的詞組—利用統計學方法将詞組(短語)表述為索引術語—将數據集中的實體做“重要性指标”或者“術語權重”比對—匹配檢索之信息與實體。以搜索“搶劫罪”相關的法律規範為例,當在法律規範智能檢索系統中輸入“搶劫”時,可以發現,包含“搶劫”的法律規範文本有法律、行政法規、部門規章、司法解釋等。在比對檢索的法律實體時,可以按照法律、行政法規的效力層級、或者直接點擊民法典、刑法典等具體的法律規範、或者按照中央發布機關、省級發布機關等方式進行,以便求得信息檢索與實體之間的正确匹配。
(三)法律規範文本數據集中深度學習模型訓練
在法律規範文本數據集以及實體标注之後,對于法律規範的檢索并不能達到智能化的程度,為此,尚需深度學習的應用。深度學習(Deep Learning)作為機器學習的分支,是一種以人工神經網絡為架構,對資料進行表征學習的算法。毫無疑問,随着人工智能的深入發展,深度學習将是人工智能可解釋性研究的重要目标,但由于深度學習的不可預測性,其可解釋性研究仍會遭遇瓶頸。在法律領域,如何利用深度學習推動、提高法律“實體”識别的精度,是法律規範文本數據集所需要解決的難題。
首先,應确立法律文本數據集深度學習的方式。就深度學習的方法而言,主要有監督、半監督和無監督方式。監督學習旨在使分類準确性達到最佳,是對輸入對象預先分配經标注過的實體的學習方式。而無監督學習是機器自主學習、自動校正的方式,但存在算法“黑箱”。一方面,算法“黑箱”受人工方面的限制,一定程度上限制着命名實體識别的精準度。另一方面,無監督的深度學習方式需要将價值數據化,也就是說,在法律規範檢索時呈現的結果可能出現沖突,此時需要價值判斷。深度學習為價值數據化提供了技術支持,将價值通過數據的形式實現經驗性的窮盡,并輸入計算機程序系統中,那麼計算機就深度學習了價值的概念層次,并将其植入司法決策當中。将法律規範文本數據集的數據價值化,降低算法“黑箱”所帶來的實體識别模糊化。然而,即便通過訓練深度學習模型優化算法,由于法律文本的實體識别需要最大限度地達到精準性程度,實現檢索中的高效性,無監督學習方式暫不可取。法律領域中缺乏統一的法律用詞、标準的領域本體和專業的叙詞表等資源,使得無監督的識别方法難以有效應用。對此,為了避免傳統機器學習所造成的差誤,機器學習方法經常與各種其它組合以獲得更準确的實體識别,應采取監督和半監督相結合的方式進行,以提高實體識别的精度。
其次,為處理法律規範文本中實體識别,需構建監督與半監督學習方式在實體識别的路徑。具體如下:一是,基于法律語言的非結構性特征,自上而下進行定義,這主要是由法律專家根據法律規範文本的屬性,進行概念的解構;二是,基于法律規範中的結構性語言,如法律規範的章節标題、固定用語等,自下而上進行學習,該種學習方式是出于法律語言的特征,使用(半)自動自然語言處理技術對該概念結構的逐步完善,最大限度地提高所獲知識的完整性和領域特性。這種結構是獨立于法律語言語義的,這需要與數據集中的實體保持一緻,以便可以在機器深度學習時捕獲相似或者互補的知識,同時,需要對法律規範文本的顯性結構進行分析,以便在法律規範之間有針對性的标注,供機器學習。
最後,應訓練和評估具有多重語義的法律命名實體。對法律規範數據集中的實體進行大型語料庫的預訓練,然後在監督下進行訓練,此時可以對語料庫中未識别的實體進行再标注、再學習,然後對最終任務進行培訓。
綜上,命名實體識别的應用,一定程度上豐富了法律規範檢索的智能化程度。能夠幫助廣大民衆在知法懂法守法用法的過程中,輔助檢索、分析法律規範,以作出判斷。通過法律規範文本數據集、法律“實體”标注、深度學習模型訓練等,提升智能法規檢索等的體系性、便捷性、精準性,實現關鍵詞關聯檢索,形成法律規範間的知識圖譜。降低普通民衆檢索法律、使用法律的“門檻”。讓并未受過法學教育的普通民衆也能在法律人工智能的輔助下,得到較為理想的檢索結果,從這一點來看,命名實體識别推動下的智能法規檢索有利于法治的均等化與可及性。
三、司法文書文本中命名實體識别的實現路徑
本文通過命名實體識别結合裁判文書實現智能要素的提取、标注、分析和比對。一方面,裁判文書包含了大量的人名、地名、組織機構名、時間日期以及專有名詞等“實體”,例如,在“當事人信息”一欄中就有人名、地名等大量實體。對文書進行挖掘時,利用命名實體識别所要解決的問題大緻為:一是提取人名地名等特定實體;二是挖掘出裁判文書的其他關鍵實體信息,例如刑事裁判文書中的證據采納、證據分析、證據比對、證據引證等。另一方面,通過命名實體識别技術挖掘案件信息的最終目的是建立裁判文書智能分析系統,提供可視化、高效化的數據分析,并在此基礎上形成對未決案件的證據歸類、分析和比對,形成智能化的類案應用系統。
具體而言,具體的應用場景主要包括:智能輔助實現類案類判、智能實證分析應用、智能類案關聯應用、智能證據分析應用等,鑒于篇幅所限,本文主要探讨智能實證分析應用和智能類案關聯應用。
(一)命名實體識别在司法文書中的實現路徑
在将命名實體識别應用于具體場景之前,應解決其中的共性問題,即命名實體識别在司法文書中的具體實現路徑。
首先,通過對裁判文書進行拆分解構,可以發現其具有如下特征:其一,人名、地名、組織機構名等命名實體較多,基于個人隐私的保護,裁判文書一般對人名會采取隐性處理,這加深了實體識别的難度和模糊性;地名、組織機構名同樣也可能會被隐性處理,但相較于人名而言,頻率較低。其二,專有名詞較多。例如,原告人、被告人、上訴人、辯護人等。其三,與法律規範條文交叉融合,裁判文書中會有大量引用法律條文的現象出現,進而幹擾了對案件的智能分析的準确性。其四,裁判文書中的實體存在融合或嵌入現象,如“江西省南昌市青雲譜區人民法院”,既含有地名(江西省南昌市青雲譜區),也含有組織機構名(江西省南昌市青雲譜區人民法院)。另外,裁判文書中的法律規範、相關司法解釋的名稱通常很長,緻使識别的時間或者法律規範的名稱通常不确定,也就導緻命名實體識别的規則難以确定。
在歸納裁判文書的命名實體的特征之後,可通過“知識樹構建(實體、屬性标簽等)—智能抽取要素(命名實體識别、事件抽取等)—智能生成圖表”三個步驟實現裁判文書的命名實體識别與要素抽取。
其次,應提高識别裁判文書中相應實體的精準度。通過融合多個模型進行裁判文書實體識别。一方面,命名實體識别模型的選取至關重要,關乎裁判文書實體識别的精準度。裁判文書涉及智能輔助實現類案類判、智能實證分析應用、智能類案關聯應用、智能證據分析應用等場景,裁判文書的“實體”呈現多樣性等特征,這為機器深度學習之後的自動标記帶來了難題,需要融合多種實體識别模型,自動擴充裁判文書命名實體識别的标記數據。另一方面,在技術層面,融合多種模型的命名實體識别應用取得了一定的成果。例如,通過多特征的條件随機場(Conditional Random Field,CRF)模型嘗試在裁判文書中的命名實體識别之應用。即在統計法律實體的内外部特征之後,将其中的罪名、刑罰等法律術語應用CRF模型進行識别,獲得的識别效果較好。當然,也有針對法律文本中的非連續實體特征,提出一種基于超圖的非連續法律實體識别方法,在對非連續法律實體的識别上具有比CRF模型較好的效果。例如,小包公實證分析系統很大程度上參照了上述模型,能夠精準地識别出罪名、刑罰等實體,對諸如“自首”“詐騙罪”“具體規範名稱”以及規範條文的具體内容等法律“實體”進行識别。在機器深度學習基礎上的自動識别法律術語等,最終目的是為了解決實體識别的精度問題。
再次,需在标注數據集時做好裁判文書的細粒度命名實體分類,以應對裁判文書的多變性等特征。所謂細粒度命名實體識别是與粗粒度實體類别(人名、位置、組織機構、時間日期等)相對應的,且被包含于粗粒度實體類别中的實體,例如粗粒度實體中的“人”可以包含“原告、被告、辯護人、證人、鑒定人”等細粒度實體。正如前文指出的,由德國法院判決組成的數據集中,有學者使用了19種語義類别進行細粒度實體标注,為裁判文書的細粒度實體識别做了指引。某些法律“實體”的識别存在差異,這主要是因為,法律文本數據集中語料庫的覆蓋範圍、名稱形式的異質性或注釋的多變性以及上下文的語義差異等,使法律實體類别分布不平衡、裁判文書的細節較多。需要對法律“實體”進行細粒度分類,在我國的裁判文書中,以文書中“當事人信息”為例,其細粒度可以分為:當事人的性别、年齡、職業、學曆、民族、籍貫、住址等。
最後,标注、分類法律領域的“實體”後,還需要通過“數據增強”(Data Augmentation)将标注後的實體随機重新組合,再将新組合與數據集中的實體進行比對,并予以替換,提升裁判文書數據集的主動學習能力。一方面,數據增強是深度學習的方法之一,指的是讓有限的數據産生更多的數據,增加訓練法律文本的數量以及多樣性,以應對裁判文書的多變性。另一方面,裁判文書中的數據集較大,如何才能更好地利用深度學習提升命名實體識别的精準度至關重要。法律領域的命名實體種類繁多,例如,“組織名”通常使用非常長的名稱,每個名稱在數據集中僅被提及一次或幾次。另外,與人名、地名或組織機構名稱等實體相比,法律數據集中的名稱、時間、日期等實體的分布範圍更廣,加上裁判文書的語言并不是很規範,可能存在重複使用實體或者沒有統一引用相關實體(如法規名稱、組織機構名等)的情形。這就需要細粒度分類覆蓋類型迥異的法律“實體”,使用數據增強功能來豐富命名實體的訓練數據集,優化和拓展不平衡的實體。
(二)智能實證分析系統應用的實現路徑
通過分析裁判文書等司法文書的特點,以及相關命名實體識别的應用示例,可以發現,以技術手段輔助分析裁判文書文本,具有高效化、精細化、客觀化等優勢。但在法律實證研究仍存在不少問題,例如,在成長中的法律實證研究,一定程度上推動破解中國社會現實問題之同時,也存在理論儲備不足、科際整合有限、獲取資料困難等難題。應用命名實體識别技術等輔助手段獲取到的客觀有效的數據不僅能破解“當下法律實證研究所依賴的數據是普遍不足的”這一重大現實難題,提高數據整體質量與可信度、可采度;還能應對“法律實證研究的具體方法當下尚停留于有限的幾種回歸模型,數據收集依賴于研究者的社會資源,樣本量止步于百千級”等不足。
首先,确定裁判文書中“實體”的邊界。裁判文書中的通用實體,例如辯護人、原告人等遵循實體識别規則極大地提升了識别的效率。但與英文相比,中文命名實體識别的最大區别和難點在于,中文文本沒有像英文文本那樣具有明确的單詞邊界。但正确識别裁判文書中的實體是支撐智慧法院建設的重要基礎,也是構建法律知識圖譜的前提。例如,可通過證據抽取評估案件審判質量,且基于實體的邊界識别與組合的證據抽取模型,可有效提升對識别邊界的識别率。因此,命名實體識别的第一步驟是确定字邊界,也就是分詞。
其次,确定裁判文書中“實體”的匹配,即将複雜的法律案例匹配到相關的法律條文之中。我國法律規範體系已經形成,大規模的法律資源在互聯網和社交媒體的推動下,已為法律工作者帶來了極大地便利。但面對大量的法律文本,如何針對複雜的法律案例找到相關的法律條文仍然是一個很大的挑戰。對此,有人工智能學者提出,自動識别中文法律文本中的法律術語是法律大數據結構化處理的基礎。在條件随機場模型的構建過程中,結合法律領域實體的内外部特征,定義分詞序列、詞性、詞長、是否左邊界詞、是否右邊界詞5種特征進行構建。不斷精确地表征深層的法律語義分布,将裁判文書中所關聯的法條精準地予以識别。
最後,對法律案件進行自動分類匹配。在法律領域,命名實體識别技術促進了信息提取、智能咨詢服務系統等應用的發展。這提升了案件處理的效率,避免了人工操作的不足。例如,可以将一個半監督的法律實體嵌入相應模型中,從有大量裁判文書中的法律語料庫中學習法律詞語的含義,然後利用這些知識對一小部分帶注釋的法律案例進行事實檢測分類器的訓練。這種采用半監督的方法開發了一個語義搜索系統,能夠在大量的法律語料庫中發現事實陳述句與給定查詢相似的法律案例,從而更好地實現案件自動分類匹配的目标。就這種自動分類匹配的具體流程而言,可按照如下方式進行,第一,确定研究範圍,從而明确實體識别的類型、邊界等,例如,确定故意殺人罪的研究課題即是為了确定實體識别的具體範圍。第二,對相關的實體在文書中進行标注,并将相關法律事實與法律規範匹配、分類。第三,則是對同類案件進行自動分類匹配,例如,針對故意殺人罪案件中适用逮捕、監視居住的案件,通過标注之後可以自動分配匹配。這一過程的實現,可通過三種智能抽取方式,即智能檢索、關系抽取、智能可視化方式,對裁判文書進行分解,然後再根據法律規範的結構性語言、上下文特征等進行深度學習,以獲得法律依據标注的完整性,最終可将類案智能标記并推送。
(三)智能類案關聯系統的實現路徑
2020年7月31日施行的《最高人民法院關于統一法律适用加強類案檢索的指導意見(試行)》,明确規定了類案檢索的案件範圍。對此,需要“增強技術與司法的耦合度,優化人工智能對檢索結果供給。”确定類案檢索标準并智能推送是類案檢索的主要要求和技術與法律深度融合的體現。“司法技術化符合現代法治與司法權威的要求”,在此背景下,可通過機器深度學習技術中的高精度預測法以及文本分類法等方法支持命名實體識别在類案推送中的應用。
首先,應明确類案的相似性标準。“判斷類似案件的主要标準是争議點相似和關鍵事實相似;輔助标準是案由和行為後果相似。”也有論者提出了類案智能推送的方法,即通過類比推理這一既适用于案例,又是人工智能的一種基礎算法這一本質上融通的方法,以類比推理為基礎構建案例智能推送。另外,還有人工智能專家設計了相應的模型,即針對裁判文書類案推送任務,基于裁判文書在篇章結構和語言表述方面的特征,從裁判文書案情内容的抽取、案情内容中不同詞性類别詞項的權重分析、案情内容中未登錄詞的識别、案情内容中數量表述的相似度計算等角度展開模型構建。這說明,确定案件相似性的标準應既有法學标準,又要有貼合裁判文書特征的人工智能标準。以回應人民群衆期待量刑公正的日益精細化、精準化、透明化的要求,并借助技術手段妥當解決當前裁判說理性不足、類案不同判的量刑實踐反差等問題,确保類案類判。
其次,應明确類案推送的多模型融合方法。确定案例相似度的方法包括最近鄰法、歸納推理法和基于知識的索引法。例如,歸納推理法提取案例特征,并形成類似于歧視網絡的層次結構,對于特征相互依賴的案例效果更好。基于知識的索引法根據已知知識确定特征的重要性,對于具有一定動态性和方向性的案例比較适用。但不管是哪種方法,确定類案應以案件的争議焦點和關鍵事實為主要标準,輔之以歸納推理、類比推理、遺傳算法等人工智能技術方法,并檢驗其相似性,最終目的是輸出“類案”。例如,利用的最近鄰法、歸納推理法和基于知識的索引法等多模型的融合所構建的類案檢索系統,其中以“裁判結果:故意殺人罪”“刑事案由”為例進行類案檢索,可以直接呈現案件相似的要點,比如,因戀愛、婚姻矛盾激發的故意殺人;犯罪手段殘忍;量刑有坦白、積極賠償等情節,從而被确定為類案。同時,将類案檢索呈現的結果按照權威類案、普通類案以及案件來源、文書性質、審理程序等方式表現出來。
最後,應對類案的相似性進行檢驗。在檢驗相似性時,命名實體識别技術所發揮的作用尤為重要,一則,可以确定相似實體并予以識别;二則,案件在被識别過程中,法律語義的關聯性、相似性等因素應當通過數據增強等深度學習方法予以辨識。
結 語
法治的均等化與可及性旨在彰顯社會公平正義,命名實體識别技術這一新興工具對于法治的建設作用即在于,作為提升識别的精準性、呈現可視化的工具。利用命名實體識别等技術方法将技術與法律深度融合,并應用于司法大數據資源則成為可能。這也是法律人工智能可及化和均等化實現的技術基礎之一,具體可以通過在智能法律法規關聯、智能類案關聯、智能案件分析、智能類案類判等應用中得以實現。當然,對于命名實體識别應用于法律領域還有用戶的隐私風險評估、提高法律實體類别分置以及識别之精度等方面,研究還需深度展開。
來源:《政法論壇》、悄悄法律人公衆号
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!