摘 要
本文介紹了目前國内外科技資源學科交叉信息檢索查詢的研究進展,重點對科技資源跨媒體信息挖掘與演進規律,以及科技資源跨媒體信息檢索查詢與可視化進行了梳理和分析,并對未來工作進行了展望。
關鍵字
科技大數據;學科交叉;檢索查詢
0 引 言
科技資源信息檢索是科研工作者了解不同研究領域學術進展的重要途徑之一。科學技術的不斷發展促使科技資源信息檢索系統日臻完善,目前已經搭建了各種類型的科技資源庫,如中國知網、萬方、維普等,但科研工作者在檢索查詢時,還是需要自己判斷資源類型,再做對應查詢,而多個平台的查詢結果時常出現冗餘的情況,這需要用戶進一步分析判斷,在一定程度上消耗了精力,降低了效率。科技資源信息有着不同于其他大數據的特征,例如從論文數據、基金項目數據和資訊數據可以發現關鍵詞和學科之間的對應關系,也可以發現論文和基金項目對應的關系。越來越多的科研工作不再隻局限于單一的學科,科研工作呈現出交叉融合的趨勢,不同學科的交叉延伸出更多的研究熱點和研究方向,這些研究熱點從出現到發展成熟,再到延伸出新的研究主題,整個生命周期對于科研工作者進行學術研究有很大的參考價值,這也是體現科技資源特性的一種方式。
對于一個系統平台來說,數據存儲和高效檢索是必要的能力,科技資源信息的存儲和搜索不同于傳統的存儲和搜索,多源異構的學者數據可能存在局部稀疏性、數據冗餘、歧義等問題。目前在結構化科技文本數據的檢索查詢方面取得了較為成熟的結果,這是因為結構化文本數據的特征抽取相對來說比較便利,而通過爬蟲獲取的半結構化數據,例如論文中的摘要信息、學者主頁的個人簡介等,則需要運用一些信息抽取方法來獲得特征,這類文本一般會使用向量空間模型、文檔主題生成模型,或是基于深度學習的表示方法。在真實場景中,面對大規模文本數據,尤其是在學科交叉等複雜的背景下,還需要優化模型進行語義分析或趨勢分析。此外,爬蟲獲取的數據既有結構化數據也有非結構化數據,這就對數據庫有所要求。常見的NoSQL數據庫MongoDB、Elasticsearch和CassandraDB 等, 其中Elasticsearch可以提供分布式搜索的能力。此外,科技資源中還包含着科研工作者的研究熱點,這也代表着學科及研究主題的熱點。目前大多數的研究都是關于用戶興趣挖掘。用戶興趣挖掘和科研工作者研究興趣有相似之處,都是嘗試從用戶相關文檔中構建畫像信息。目前的工作提取研究興趣的方法是從學者本人發表的論文著作中提取信息,采用概略話題模型獲得結果。近年來的研究拓展了許多方向,例如,Twitter中有一些信息可以用來發現用戶興趣,基于上下文特征和行為特征,可以分析政黨候選人在社交媒體的信息,建立模型之後再去預測用戶的政治偏好。
1 科技資源跨媒體信息挖掘與演進規律分析對科技資源跨媒體大數據的信息挖掘是基于科技大數據已經提取到的特征進行的,而在分析特征過程中,可以明顯發現關鍵詞、學科、研究主題之間複雜且較為緊密的關系,對于發現科技資源之間的學科交叉關系具有重要參考意義。在爬取到的科技資源信息中,許多屬性信息可見。例如,論文數據包含了論文标題、論文作者、論文發表的機構、關鍵詞、摘要、論文發表的會議或期刊、論文發表的時間、基金信息、論文所屬的學科類别和論文被引量等;基金項目數據包含了基金項目編号、标題、基金項目負責人、機構、基金項目獲得的資助金額、基金項目類型、基金項目開始時間和結束時間等;科技資訊數據包含了标題、資訊編輯者、發布時間、資訊的原文鍊接、正文、資訊圖片、關鍵詞等。因此一條科技資源在理論上可以對應到各個學科下的多個研究主題,當然,數據集合中存在某些專注于單一領域或研究主題的文獻,在傳統的搜索查詢系統中,對于這部分的文獻檢索服務已能夠較好實現,因而可以研究多領域或研究主題的文獻查詢,即交叉學科下資源的查詢和分析。
1.1 科技資源信息中學科交叉關系的發現
針對獲取的數據,利用分詞和特征提取等技術獲得權重較高的關鍵詞,通過觀察關鍵詞和學科之間的對應關系,可以發現某一關鍵詞可能對應多個學科,學科又包含研究主題,這些學科下的研究主題之間存在某種交叉關系,以此作為查詢檢索的出發點,可以進一步研究基于學科交叉關系的檢索查詢。在數據處理階段,對于文本數據分别獲得了論文、基金項目、資訊的信息,因為需要了解完整的學科和研究主題的關系,需要對結果進行融合,達到從不同的資源維度評估學科和研究主題的目的。對于學科類别的判斷,主要參考現有知識庫的學科分類方法,以及中國圖書館分類法中的圖書分類号,将學科分類号作為學科的唯一标識。系統數據庫中學科分類号的存儲标識示例,如表1所示。
表1 數據庫中學科分類号示例
1.2 科技資源學科及研究主題的演進預測
為了研究交叉學科及研究主題的演進規律,可以針對科技資源的學科及研究主題演進預測(TPTF),利用LSTM網絡處理時序數據的優勢,引入卷積神經網絡的卷積層和池化層提取研究領域成果相關數據的信息,将冗餘數據更少的特征信息作為LSTM網絡的輸入數據,獲得研究主題下數據序列的關系,進而得到研究主題演進的預測結果。
對于卷積層,在處理圖像數據時,卷積層一般會用二維卷積核;而對于時序數據來說,卷積層可以利用一維卷積核學習序列中的特征,這個卷積核就是起到訓練中濾波器的作用。在很多用到卷積神經網絡的架構中,層級深度大,也就是濾波器很多,這樣每個卷積之後都會以池化層來減少序列長度。在一維卷積核中,通過設置卷積核的大小和其在序列上移動的步長來完成在時序數據上的卷積運算。池化層完成降采樣,實現減小特征尺寸的目的,然後将特征轉化為接下來網絡的輸入。TPTF模型的網絡結構圖如圖1所示。
圖1 TPTF模型的網絡結構圖
通過構建上述針對科技資源的學科及研究主題演進預測算法網絡結構,結合 LSTM網絡,引入卷積層,每個LSTM層的前一個LSTM層需返回序列。這裡需要将return_sequences調整為True。為提高準确率,加入Dropout損失,卷積池化,搭建更為複雜的神經網絡。經過這幾個步驟,最終得到輸出結果。該預測結果,将作為學科及研究主題在檢索排序時的因子,影響系統最終返回的結果。
2 科技資源跨媒體信息檢索查詢與可視化科技資源跨媒體信息檢索查詢系統通常具備以下4個功能。
(1)數據采集功能。實現對論文、基金項目和資訊等多源異構數據的抓取,對于采集到的數據,應進行預處理,做去重等操作,解析出有價值的字段,保存至數據庫中。這些數據是其他模塊所提供服務的基礎。
(2)學科關系分析功能。實現對科技大數據文本信息和圖像信息的特征提取,通過構建學科和研究主題的整體體系,實現分析和判斷學科交叉關系的功能。
(3)演進規律分析功能。結合科技大數據中各學科、科研主題的成果熱度,計算各項指标,推演近幾年的變化情況,幫助科研工作者了解交叉學科的熱點和發展方向。
(4)檢索與可視化功能。實現對已經獲取的科技大數據進行展示的功能。展示内容除了文本數據,還有圖像數據;除了對于既有信息的展示,還有歸納彙總的信息。通過友好的可視化界面,讓用戶高效獲取信息。
如圖2所示,科技資源跨媒體信息檢索查詢系統主要包括科技資源跨媒體信息特征提取模塊、科技資源跨媒體信息挖掘與演進規律分析模塊、科技資源跨媒體信息檢索查詢與可視化模塊三個功能模塊。
圖2 科技資源跨媒體信息的分布式檢索查詢系統架構
為了實現對文本數據和圖像數據等科技資源跨媒體信息的檢索查詢,可以利用分布式索引技術,結合Elasticsearch提供的持久化存儲、統計和實時搜索等特性,設計并實現面向服務的分布式檢索系統框架。各功能模塊松耦合,有效地拆分各個場景下的應用功能,實現敏捷開發和部署。這樣的設計可以将各子模塊更為内聚,即它們的依賴耦合減弱;同時将科技資源之間與學科分類和研究主題相關的關聯關系應用到數據檢索服務中,實現海量數據的快速搜索。在查詢結果可視化方面,梳理各個場景下用戶的使用邏輯,有針對性地設計系統界面,考慮異常情況,為用戶提供清晰友好的可視化界面。
2.1 基于學科關系及影響力的科技資源跨媒體信息檢索查詢
為了實現有效查詢交叉學科成果的目的,在查詢論文、基金、資訊等科技資源信息的過程中,系統根據輸入的關鍵詞,判斷其可能所屬的學科。由于交叉學科成果的查詢需要選擇兩個學科,即還需要再選擇一次想要的交叉學科。因此,可以通過引入研究主題影響力指數的概念,為影響力指數賦予權重,并作為查詢的依據,從而根據趨勢預測結果和影響力指數返回得分排名前五位的學科。基于學科關系及影響力的檢索查詢流程,如圖3所示。
圖3 基于學科關系及影響力的檢索查詢
研究主題影響力指數的創新思想來自于赫芬達爾· 赫希曼指數(簡稱為赫芬達爾指數),該指數通常用于計算産業集中度,是一種政府管理部門使用比較多的綜合指數。它的計算方式是計算在某一個行業中,各競争主體在市場中所占資産百分比的平方和,用來查看市場份額的變化。一般來說,如果某個市場中企業數過多,則赫芬達爾指數計算方式是選取這一行業前50家企業,對每家企業的市場占有率作平方,再全部加和。赫芬達爾指數的計算步驟分為三步,首先取得各主體的市場占有率;然後将這些數值做平方計算;最後将這些平方值彙總。科技資源跨媒體信息數據量龐大,傳統的數據庫雖然可以自定義索引等,但在系統投入使用時,仍會給用戶帶來速度較慢的感覺。為了提高查詢檢索的效率,采用Elasticsearch進行分布式檢索。在分布式方面,Elasticsearch避免了分布式的複雜性,文檔在不同的分片中儲存,這些分片被分到一個或多個節點,并且分片是按照集群中的節點均衡地分配的,因此系統在檢索過程中可以達到負載均衡。系統充分考慮數據丢失問題,複制分片産生副本分片,在不造成過度數據冗餘的前提下,盡量避免數據丢失,并且系統還可以實現擴容。
在Elasticsearch集群中,當客戶端發起請求後,這個請求可以被發送至集群的任何一個節點,并且每個節點都知道任意文檔所在的位置,因此收到請求的節點可以轉發該請求,在對應的位置收集到數據,然後将數據返回給客戶端,這個處理客戶端發來請求的節點成為協調節點。傳統的結構化數據庫,例如Mysql,在查詢數據庫中的數據是否匹配時,隻能返回是或否的結果,Elasticsearch全文搜索引擎不僅能夠匹配數據,還能實現相關度的排序,這個排序的實現方式就是評分,每個文檔都有對應的評分,分數越高代表相關度越高。Elasticsearch查詢後返回的評分是_score,它是一個正浮點數,用于衡量數據和查詢的匹配程度。
2.2 科技資源跨媒體信息檢索查詢結果可視化
可視化組件是科技資源檢索查詢系統的重要組成部分,有效合理的交互可以使用戶更好地使用系統,一般來說,通常采用可視化技術将檢索查詢返回的科技資源數據轉化為直觀的圖形圖像信息。對查詢結果的可視化操作包含交叉學科分析和演進規律的可視化,在展示學科和研究主題的趨勢時,以時間為衡量單位呈現給用戶,使用戶能夠直接進行觀察和分析。在某些場景下,靜态的界面不足以展示信息,交互性不強也會給用戶帶來系統刻闆的印象,因此在開發科技資源檢索查詢系統時需要充分考慮交互性。
交叉學科是科技資源信息數據的重要組成部分,現在的研究領域越來越看重不同學科領域的融合,在這個融合過程中,新的研究主題也會不斷出現。針對某一學科來說,與其交叉的學科可能有數十個,如果隻對學科下的信息做列表式展示會顯得單調,同時無法提取重點,因此增加動态可交互的學科交叉占比組件,進行信息的展示。在分析交叉學科占比的可視化組件中,當用戶通過鼠标點擊某一學科時,該學科在餅圖中的部分将突出顯示,示意用戶當前查看的是哪一個學科,以直觀的方法呈現其占比情況,可視化組件的展示效果如圖4所示。在不同的應用場景下,用戶的使用邏輯有差異,需要細化各流程,針對某些出現頻率較高的情況做出細節處理。例如,在分析交叉學科趨勢的可視化組件中,當鼠标在圖中滑動時,系統會根據鼠标停留的時間區間以量化的方式展示各個交叉學科下的資源。對于學科交叉趨勢分析,需要同時實現學科交叉趨勢圖和研究主題趨勢圖的聯動。
圖4 交叉學科占比交互示意圖
針對交叉學科的可視化問題,不僅考慮學科交叉關系,還加入影響力指數和趨勢預測結果作為因子,最終得到能夠有效表達科技資源學科發展情況的結果。因此,在實現過程中需要把握前端設計的諸多細節,增強界面的交互性,使系統不僅能夠快速檢索,還能通過友好的交互生動形象地為用戶展示清晰的結果。
3 結束語随着科技資源呈現出交叉融合的趨勢,學科交叉成為一個熱點,不同學科的交叉延伸出更多的研究熱點和研究方向,科技資源學科交叉信息的檢索查詢也成為了系統開發關注的重要方向。目前雖然已經初步形成了學科交叉技術檢索查詢系統的架構,但是仍需要叠代優化,細分異常場景,補全異常情況時的邏輯或增加交互以提升用戶體驗。此外,在可視化方面,一些交互的邏輯有待優化,在界面的細節處理方面還可以進行優化。
(參考文獻略)
選自《中國人工智能學會通訊》
2021年第11卷第4期
科技大數據理論和技術專輯
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!