tft每日頭條

 > 生活

 > 地名匹配方法

地名匹配方法

生活 更新时间:2024-08-22 10:17:37

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)1

江西地名研究

關注我們,獲取更多地名資訊

關注

摘要:針對中文地名數據中存在的“同名異地”“異地同名”等歧義問題,本文提出了一種結合地名知識和位置信息的地名匹配方法。首先基于特征詞的規則匹配模式對地名名稱結構進行了解析。然後結合地名的位置信息實現中文地名匹配;同時,基于地名的行政區劃信息和實體信息關聯多源地名數據,構建地名知識庫。最後以興趣點數據為例,基于名稱相似度和位置相似度匹配地名數據中的地名信息,并以知識圖譜的形式進行存儲和表達。

關鍵詞:地名知識;地名匹配;相似度計算;數據消歧

大數據時代的到來推動了各學科領域的發展,以測繪領域為例,海量的多源異構數據改變了傳統單一學科領域的研究方式,引領了多學科領域間的交叉融合。針對地名解析與匹配方面,有價值的地理信息地名數據不斷增長,但海量地名數據中存在諸如“同名異地”“同地異名”及數據冗餘等歧義問題,嚴重影響地名數據的融合和應用。

實體匹配是從相同或不同數據源中獲取描述同一客觀世界實體數據的過程。針對地理數據匹配融合的研究始于20世紀80年代,目的是集成多源地理數據,豐富數據屬性,提高數據精度。地名數據作為地理信息領域一種重要資源,針對地名數據的匹配研究得到許多學者的關注。從矢量空間數據中提取地名地理實體的幾何特征、拓撲特征和屬性特征,計算地名之間在幾何形态、空間關系和屬性語義上的相似性,以實現地名匹配。對于難以獲取地名幾何特征的興趣點(point of interest,POI)數據,地名匹配研究主要是基于地名名稱和位置信息對其進行相似性計算,進而得到匹配地名。考慮地名名稱的漢語表達,文獻[8]提出了基于字符串的模糊匹配算法,有效提高了地名名稱匹配的效率。通過分析地名語言表達的特點,文獻[9-11]提出了基于通名的地名語義解析方法,并綜合地名專名和通名計算地名名稱的複合相似度。

本文以POI數據作為數據源,針對數據中的地名歧義問題,提出一種結合地名知識和位置信息進行地名匹配的方法。首先,基于通名匹配對地名進行解析,提升地名名稱相似性計算的準确度;同時,基于地名數據中的位置信息描述,計算地名數據在地理位置上的關聯性。然後,結合地名名稱相似度和位置相似度,衡量地名的語義一緻性,并對描述同一實體的地名數據進行關聯融合。最後,以圖譜的形式對匹配後的地名數據進行存儲和表達。

1 基于POI數據的地名匹配研究

POI數據主要描述人們日常生活中用到的地理場所對象,如學校、公司、生活服務産業及交通運輸設施等,是一種與人類活動密切相關的地名數據。針對POI數據中存在的地名歧義問題,多源POI數據的匹配融合主要采用基于名稱信息和位置信息的匹配方法。

地名名稱的相似度計算方法主要有基于字符的名稱匹配、基于中文分詞的名稱匹配和基于相似性的地名模糊匹配。基于字符的名稱匹配是直接比較地名名稱間相同的字符數,進行相似度計算,該方法比較簡單,但忽視了字符在字符串中的位置,準确率不高。基于中文分詞的名稱匹配采用自然語言處理工具對地名名稱進行分詞,用分詞代替字符進行匹配,對分詞結果的相似度計算方法有Levenshtein距離算法、Jaccard相似算法和Jaro-Winkler距離算法。模糊地名匹配是将地名劃分成不同類别或範圍,對同一類别的地名進行詞語相似度計算,得出具有名稱相似性的地名數據。

POI數據中地名的位置信息主要以地理坐标的形式存在,通過地理坐标可以計算地名實體間的距離,進而計算空間位置相似度,進行地名匹配。統一的坐标參照系是進行空間位置相似度計算的前提。不同來源的數據可能存在坐标偏移,會對基于位置信息的匹配結果産生影響。文獻[16]分析了最鄰近方法、概率方法、标準化權重方法等基于空間位置信息進行POI數據匹配和融合的方法。

上述POI數據匹配存在局限性,主要為:①地名名稱匹配未考慮其語義結構和語言特點;②地名名稱相似度計算算法效果不夠理想;③位置相似度計算沒有考慮地名數據中與位置相關的其他信息(行政區劃、郵政編碼等),計算複雜度較高,針對POI數據龐大的數據體量,算法運行效率較低。

2 基于通名匹配的地名名稱相似計算

地名作為一種指稱某一範圍内地理實體的自然語言文本,具備“專名+通名”的獨特結構。其中,通名是描述地名所代表實體類型、性質的特定文本,如省、區等。專名是地名中用來相互區分的文本片段,如河南、二七等。在漢語中,地名的通名通常位于專名之後,如河南省、二七區等。

基于漢語中地名名稱的表達特點,構建通名詞表對地名進行文本匹配,從地名中提取地名類型信息和地名專名信息,進而實現對地名結構的解析。相較于單純基于字符對地名名稱進行相似度計算,基于地名解析進行地名名稱相似度計算更加符合地名的語言結構特點。

2.1 方法流程

地名語義解析的流程如圖1所示,主要包含4個步驟:①從地名數據中提取地名名稱信息;②根據地名類型,選取特定特征詞,構建地名特征詞表;③基于構建的特征詞表,對地名名稱進行匹配,劃分地名通名和地名專名;④基于地名的語義結構分别計算地名的專名相似度和類型相似度,将兩者加權得到地名名稱相似度。

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)2

2.2 基于特征詞的通名匹配

針對地名通名通常位于地名文本末端的特點,設計了基于特征詞的逆向匹配方法,即從後向前進行匹配,當首次返回匹配特征詞時,終止匹配。具體的匹配算法流程如下。

(1)名稱信息提取。通過讀取地名數據,抽取地名名稱信息,作為輸入的待匹配字符串。

(2)地名特征詞表的構建和讀取。根據地名數據的類型信息,統計地名名稱表達特點并抽取通名特征詞,構建特征詞表作為地名通名匹配依據。

(3)根據特征詞構建滑動窗口對地名名稱進行逆向匹配,返回首次匹配結果。

(4)按字符串長度從長到短的順序依次從特征詞表中選取特征詞,将特征詞作為滑動窗口,從地名名稱的末端開始進行匹配。若匹配成功,則終止匹配,并輸出名稱中的通名、專名及附屬信息;若匹配失敗,則修改窗口的起始和結束位置,繼續進行匹配。

(5)當窗口的起始位置小于0,表明窗口已經遍曆輸入的名稱字符串,終止通名匹配。

2.3 地名名稱相似度計算

地名名稱相似度是衡量兩個地名在名稱字符上的相似程度,描述同一實體的不同地名名稱在專名表達上可能具有模糊性,因此需要對地名專名進行字符相似程度計算,并結合地名通名信息,計算地名名稱的相似度。

專名相似度計算借鑒KMP(Knuth-Morris-Pratt)算法思想,計算專名字符串之間在字符表達上的相似程度。地名專名

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)3

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)4

,其中,

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)5

分别表示專名A、B中的中文字符,m和n分别為專名A和B的字符長度。專名字符串相似性匹配方法如下:

(1)比較兩個字符串長度,将字符串長度較短的專名分割成單個字符組成目标集,假設專名B字符串較短,分割構成的字符集合為

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)6

(2)按從前向後的順序從B集合取字符

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)7

,并在專名A中從正向查找匹配字符。若存在匹配字符

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)8

,則跳至處對專名A進行切分,取後的字符組成專名A的子字符串作為後續匹配過程的輸入字符串,并進入下一個字符進行匹配;若找不到匹配字符,則跳至B集合中下一個字符進行匹配,直至B集合中每個字符完成匹配過程。記錄專名A與B匹配的字符個數為k,則專名A和B之間的相似度

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)9

的計算公式為

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)10

根據地名通名信息分析地名類型的相似性,并在計算地名名稱相似度時賦予相應的權重。若兩個地名通名完全相等,則地名類型相似度權重為1;若地名通名不等,根據地名分類屬性的差異對地名類型相似度進行賦值。若地名分類的小類相同,則地名類型相似度取0.8;若地名分類的小類不同中類相同,則地名類型相似度取0.6;若地名分類的中類不同,則地名類型相似度取0.4。将專名相似度與地名類型相似度結合,得到地名名稱的相似度S(A,B)為

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)11

式中,

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)12

為地名名稱通名相似度。

結合名稱信息和位置信息的地名匹配

地名匹配的目的是查找描述同一實體的地名數據,并進行關聯融合。本文分别從地名名稱和位置信息考慮地名數據之間的關聯性,基于地名名稱解析計算地名名稱相似度,基于位置信息計算地名位置相似度,結合地名名稱相似度和位置相似度對地名數據進行匹配關聯。

3.1 方法流程

地名具備空間位置和語言表達兩大特性。在POI數據中,地名的位置特性主要體現在坐标信息、行政區劃信息及郵政編碼等與空間位置相關的信息,地名的語言表達特性主要體現在地名名稱和地址信息中獨特的語言表達方式。

結合地名知識和位置信息的地名匹配流程如圖2所示。

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)13

3.2 地名相似性計算

3.2.1空間位置相似性計算

在POI數據中,地名位置信息主要通過地理坐标和行政區劃信息進行表達。地理坐标記錄了地名所描述實體(地名實體)的精确地理位置,精度較高;行政區劃信息記錄地名所在地域範圍,位置精度較低。雖然地理坐标描述位置更加精确,但是在數據采集、整理時易産生誤差導緻坐标發生偏移。而行政區劃信息準确度較高,不易産生較大偏差。因此,在計算位置相似度時,首先考慮地名是否在同一行政區劃内。若處于不同行政區劃,那麼地名在位置上一定無法匹配;若處于同一行政區劃,再根據地名坐标信息計算地名在空間位置上的相似程度。

基于地理坐标的地名位置相似度是基于地名間的球面距離進行計算的,最簡單有效的方法是将距離的倒數作為位置相似度結果,當這個相似度大于某一阈值時,則認為兩個地名是相互匹配的。為了将計算結果的阈值控制在0~1之間,計算地名位置相似度的公式為

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)14

式中,dis(A,B)為兩個地名之間距離;和

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)15

為兩個地名的緯度;和

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)16

為兩個地名的經度;

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)17

為兩個地名的位置相似度。

3.2.2地名名稱相似性計算

地名名稱相似性計算采用2.3節提出的基于語義解析的地名名稱相似度計算方法。通過語義解析提取地名名稱中的專名和通名,分别計算專名和通名的相似性,通過加權計算得到地名名稱相似度。

3.3 地名匹配

根據地名相似度計算和地名位置相似度計算結果可以将地名數據分為4大類:①地名名稱相似,描述的空間位置相近;②地名名稱相似,描述的空間位置不同;③地名名稱不相似,描述的空間位置相同;④地名名稱不相似,描述的空間位置相近。

第①類地名數據是相似程度最高的地名數據,可以直接進行匹配;第②類地名數據在名稱上具備關聯性,可能包含了同一實體分布在不同地理位置的組成部分(如同一所大學的不同校區),可以根據實體名稱對地名數據進行關聯;第③類地名數據在空間上具備關聯性,可能包含同一實體不同名稱的表述或同一實體不同組成部分(如在POI數據中,一些學校教學樓省略了學校名稱),這些地名可能在名稱上沒有記錄數據間的關聯性,但在描述的空間位置上體現出地名間的關聯性;第④類地名數據則是在名稱和空間都不相關的數據,對于這些地名不進行匹配關聯。

3.4 地名數據關聯

地名數據中除了描述地名本身屬性、特征外,還蘊含着豐富的實體間關系(如同一實體關聯不同地名數據,處于相同行政區劃的不同地名數據)。通過從數據中抽取地名關系,建立地名數據之間的關聯,顯式表達地名數據之間的聯系。POI數據中的地名關聯主要分為實體關聯性(描述相同實體)和位置關聯性(處于同一空間範圍)。指向同一實體的地名數據可以通過地名匹配獲取,讀取數據中的行政區劃信息,将處于同一行政區劃(空間區域)的數據進行關聯。最終,基于地名數據中的實體關聯性和空間關聯性進行關系構建,通過地名關系将原本零散的數據組織成具有實體特征或空間特征的集合,并基于知識圖譜的形式進行地名數據的存儲管理和可視化。

試驗與分析

試驗數據為北京市的POI數據(見表1),包含科教文化服務、公共設施、醫療保健服務等多個生活領域内的地名信息。數據内容包括地名名稱、分類信息、行政區劃信息、地址和空間坐标(WGS⁃84大地坐标系)等。

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)18

4.1 地名語義解析試驗

以科教文化類地名數據為例,對數據中出現的地名特征詞進行統計分析(如圖3所示),分析每個特征詞在數據中出現的頻率,選取出現頻率較高的特征詞構建地名特征詞表。

在實際數據中存在多特征詞共現的問題,如“北京師範大學密雲實驗中學”。基于構建的特征詞表采用逆向匹配的方法對地名通名進行匹配,對地名名稱的語義進行解析。分析召回的地名通名結果(見表1),與特征詞出現頻數比較發現,通名匹配的召回數略低,分析其主要原因是地名特征詞重疊和地名附屬信息幹擾。POI數據中一些地名數據存在附屬信息,會對通名匹配結果造成影響。這種附屬信息的出現有兩種形式:①以括号内容出現在地名後部,常用來說明地名位置信息,如“培基雙語幼兒園(甘露園2号院北)”;②直接與地名相連,常用來說明地名實體關系信息,如“北京市第二幼兒園分院”。

針對上述問題,提取地名名稱中的附屬信息是提高通名匹配準确度和召回率的有效途徑。以括号形式出現的附屬信息可直接通過規則匹配提取;沒有以括号形式出現的附屬信息,可依據關鍵詞信息或語義關系準确識别地名通名,如統計一些常見附屬信息的表達,提取附屬信息。其中,提取以括号形式出現的附屬信息後,再進行地名通名匹配的結果見表2。由表2可知,提取地名的附屬信息對提高地名通名匹配的準确度有一定影響。

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)19

4.2 地名匹配試驗

基于地名名稱相似度和位置相似度進行匹配計算,得到在名稱和位置上都具有相似性的地名數據,結果見表3。

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)20

從試驗結果可以看出,具有名稱相似特性的地名數據比最終地名匹配數據要多,其主要原因為:存在位于不同位置描述相似實體的地名數據(如同一所學校的不同校區在地理位置上并不相鄰);地名名稱中的附屬信息會幹擾通名匹配結果,影響地名名稱相似度計算,如“某研究院昌平區分院”識别的通名為“院”,對名稱相似度計算的準确度會産生影響。

4.3 地名數據關聯與可視化

POI數據之間關聯方式分為實體關聯和位置關聯。根據地名數據描述的實體信息,将描述同一實體的地名進行關聯;根據地名數據中的位置信息,将位于同一空間範圍的地名數據關聯。根據地名匹配結果,對描述同一實體的地名和位于同一行政區劃(區縣)内的地名進行抽取,構建對應關系,并以知識圖譜的形式進行知識的存儲和管理。以北京大學為例,依據行政區劃對地名數據進行組織,描述不同校區内的同名數據,如圖4所示。地名數據不僅與描述的地理實體進行關聯,而且可以根據地名的位置信息對同名數據進行區别。

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)21

結語

本文主要針對地名數據中存在的歧義問題,基于特征詞匹配提取地名通名,提升地名名稱匹配效果,在地名名稱匹配的基礎上,結合地名的位置信息對地名進行了匹配,得到描述同一實體、同一位置的地名數據,并對數據進行了關聯。試驗表明,結合地名的名稱信息和位置信息進行地名匹配,可提高POI數據中語義一緻性。本文采用的通名提取算法在處理特征詞重疊和地名附屬信息上有待改進,在今後研究中可以考慮引入自然語言處理方法對地名語義結構進行劃分,提升地名語義解析的準确度。

文章作者:姜松言、宋國民、賈奮勵、陳令羽、張藍天

文章來源:《測繪通報》2022年第5期

選稿:耿瞳

編輯:計夢菲

校對:黎淑琪

審訂:汪依婷

責任編輯:黃舒馨

(由于版面有限,文章注釋内容請參照原文)

地名匹配方法(結合地名知識和位置信息的中文地名匹配方法)22

歡迎來稿!歡迎交流!

轉載請注明來源:“江西地名研究”微信公衆号

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved