編輯導語:知識圖譜技術算法研究被人們廣泛應用在人工智能和大數據等領域。基于知識圖譜的技術架構、傳統數據可視化的方法和交互設計的工作流程,本文分享了一種在工作中易于操作的知識圖譜可視化方法。希望能給您帶來幫助。
知識圖譜作為語義網絡,其技術算法研究被廣泛應用在人工智能和大數據等領域。
通常,知識圖譜的運轉過程是由數據模型完成,用戶可見的隻是計算後的結果,其數據的可視化也僅停留在對結果的可讀性展示上。
但其實,圖譜之間的關系、數據計算的過程,也具備分析價值和潛在的機會信息。将知識圖譜轉化為可視化信息圖,能幫助用戶更好的理解和利用數據及其關系,但對于沒有技術背景的界面設計師來講,從技術架構、計算函數等技術視角去理解知識圖譜概念和應用相對困難。
本文分享一種設計思路,幫助大家在實際工作中,完成知識圖譜向可視化交互界面的轉化。
一、什麼是知識圖譜1. 基本概念
2012年,Google公司為實現更智能的搜索引擎,提出知識圖譜的概念,2013年後在行業内和學術界開始普及。
知識圖譜的定義:是結構化的語義知識庫,本質上是一個語義網絡(Semantic Network),用于描述物理世界中的概念及其相互關系。
在技術層面,通過對錯綜複雜數據的有效加工、處理、整合,轉化為數據關系來聚合大量知識,從而實現知識的快速響應和推理;在可視化的應用中,知識圖譜表現為多關系圖(Multi-relational Graph),在圖形化界面中可讓用戶查看和互動。
2. 知識圖譜的特點:
其特點主要包含以下兩方面内容:
(1)它是由“節點”和“邊”構成的三元組
三元組是知識圖譜的基本單位, 由節點和邊構成。
其中節點代表實體,是指具有區别性且獨立存在的客觀事物,如:圖1中的馬雲、華誼兄弟傳媒有限公司,圖3中的美國、平方公裡數等;邊代表兩個實體間的關系,是指客觀存在或推理得到的實體間的聯系,如圖1中的董事、監視、投資,圖3中的面積、人口、首都等。
(2)它的數據以知識的角度呈現
知識是一種人類對于客觀世界的認知,包括事實、信息描述或教育實踐中獲得的結果的綜合。
三元組也被稱為“一條語句”,或知識圖譜中的一條知識。在圖4的國家信息關系三元組中,我們就可以讀出一條語句(或是知識)為:“中國的土地面積有9,634,057平方公理”。
知識圖譜可以集成Web上大量的數據及數據關系,通過有效的加工、整合和處理,将其轉化為易于計算和理解的語義知識庫,可用于描述客觀世界中的概念及相互關系。
3. 知識圖譜的作用
- 信息篩選,精确檢索範圍。
- 信息拓展,提供更豐富的信息内容。
- 信息連接,構建有深度和廣度的知識系統。
4. 為什麼需要對知識圖譜進行可視化
知識圖譜的技術架構-側重在數據關系模型和機器學習,普通用戶很難讀取和理解。
知識圖譜的核心技術邏輯,是由整體的“數據輸入-數據處理-知識圖譜生成”三個大環節構成。
數據輸入環節包含“結構化數據、半結構化數據、非結構化數據”;數據構建環節包含“信息抽取、知識融合、知識加工”;知識圖譜系統的生成環節,是整個技術架構往複叠代、不斷更新和積累,慢慢形成的結果。數據輸入是對數據源的挖掘,數據構建是底層的模型算法應用,知識圖譜生成是數據處理結果的呈現。
這個過程在底層數據模型中運轉,對用戶可見的往往是最終的結果。比如:搜索引擎中,用戶看不到搜索過程,但可得到最匹配的搜索結果;在音樂平台中,看不到内容匹配邏輯,但可以被推薦感興趣的歌曲。如果想利用過程數據為用戶提供服務,就需要進行可視化處理。
傳統的信息可視化-側重在數據結果的展示和篩選,較少涉及數據關系的幹預。
傳統信息可視化的方法,在設計側更多強調數據信息與圖像、色彩的信息傳達上。其方法通常集中在“如何對已經确定的數據進行圖形映射”和“如何處理信息層級”的視覺表現上,較少參與設計數據關系或影響數據結構。
然而,這讓用戶知道數據“是什麼”,卻不能呈現數據“為什麼”。知識圖譜的可視化,可以讓數據處理過程被用戶可見、可用,從而更好的分析和使用數據。
知識圖譜的可視化-側重在數據關系構建和處理過程的可視化。
知識圖譜技術廣泛應用在情報學、檢索引擎、自動問答、金融反欺詐等領域。
目前已擴展到智能醫療、證券投資、大數據風控、聊天機器人、個性化推薦系統等更多方向。
這種關系語義網絡也逐漸從技術底層應用向可視化用戶界面上發展,各行各業也在探索如何時其在終端界面中被用戶可讀和可用。
比如:在文化研究領域,圖譜呈現更有助于用戶對于文化知識的理解和再創造;在商品市場領域,視覺化的圖譜可讓商家洞察更多“人-貨-場”之間的内在聯系。
對知識圖譜信息的可視化,重心落在數據信息的提取和關系構建上,将數據信息的編譯過程呈現給用戶。知識圖譜信息可視化和傳統信息可視化方法之間的關系,如圖6。
二、知識圖譜的可視化設計方法
知識圖譜在底層算法和數據模型上提供有效的技術邏輯,進而構建豐富龐大的語義網絡,但如果要在具體應用場景中給用戶可見的模式,則需要圖形化界面的呈現。
在實際工作中,設計側的核心任務是“多關系圖”的信息可視化。結合知識圖譜的特征、技術原理和傳統信息可視化方法,可以将知識圖譜可視化的過程,歸納為“确定知識主題(主題層)-處理與分析數據(數據層)-構建數據三元組(關系層)-進行可視化映射(可視層)”四個步驟。
1. 【主題層】确定知識主題/可視化目标
确定主題的過程,也是定義核心概念或目标的過程,這一環節是是知識圖譜可視化的出發點和落腳點。傳統可視化為了可視而可視,隻是讓用戶更好的讀取數據,而較少考慮讀到後有什麼用,怎麼用。
沒有主題的數據是無意義的,任何一類知識的描述,都需要圍繞某一特定主題展開。
在項目實踐角度,也可以将其視為梳理業務核心訴求或定義設計目标的過程,如确定要闡述什麼類型的知識、最終的可視化效果對目标用戶有什麼價值、業務要利用數據達到什麼目的,所有數據的設計都将圍繞着主題展開。
确定主題的方法有很多,包括傳統的用戶需求分析方法、文獻綜述、行業研究等,可根據不同的項目訴求,選擇合适的方法和工具。
如,要做電商行業的知識圖譜,通過行業研究、對用戶特征和行為動機的分析,發現電商領域用戶最關心人貨場的知識,人和貨特征及其關系就是核心要表達的主題。
再如,老師想了解網絡時代的大學生都具備怎樣的社交特征,通過對學生學習、娛樂、社交等不同生活要素分類調研,選擇“學生使用社交軟件的行為特征”作為主題。
同時,主題要清晰明确,避免模糊和過于宏大。以文化領域為例,如想呈現京劇之美,這個概念就大而泛,很難去組織數據,就有創作者将其主題拆分為:曆史之美、劇目之美、舞台意向之美、傳承之美等幾個主題。然後再逐一分析每個主題的數據。
2. 【數據層】對數據進行提取與加工
在未經處理前,與主題相關的可用數據是多樣且龐雜的。由知識圖譜的技術框架可知,技術模型經過信息提取、知識融合和知識加工後,才使原始數據變得有用和有效,同樣在可視化的過程中,也離不開信息提取與數據加工。
(1)數據提取-圍繞知識主題進行數據信息的提取
信息提取,也就是先羅列可能有用的相關數據類型。每個主題都是一大類目的知識領域,需要經過收集、歸納、拆解後再能夠清晰的進行解釋和傳播。
如,圍繞“學生使用社交軟件的行為特征”這一主題,可歸納出“好友關系、互動行為、在線狀态、信息發布”等特征。
進一步,好友關系又可拆分為:好友量、關注量、粉絲量;互動行為又可拆分為:聊天次數/頻率、點贊數、評論數等。
數據收集一般通過桌面研究的手工收集、數據爬蟲兩種方式。歸納和拆解數據可以使用卡片分類、思維導圖的方式。
(2)數據加工-進行知識語義加工
數據加工的過程,就是将羅列出的數據進行分類和篩選,确定最能夠表現知識主題的描述緯度或數據類型。
通過分析影響因素的關聯程度,選擇具備直接影響因素的數據,或劃定數據範圍後,再進行細分。
可以利用卡諾模型、波士頓矩陣等方法找到數據對主題影響程度的優先級,具體的挑選方法無定式,隻要能整理出适合的數據類型。
(3)數據清洗-進行數據篩選和最終确認
定義出有用的數據類型後,并不是所有數據都能完美符合我們的訴求,比如數據挖掘能力限制,不能挖到更精準的數據或有數據缺失;比如數據解析能力不足,數據類型混雜,或有錯誤數據等。
排除不足量、精準度差、錯誤率高等不可用的數據,盤點出能夠被應用于可視化的最終數據。
在實際工作中,需要跟團隊的數據挖掘工程師、或業務産品負責人明确數據能力和質量。
例如,“京劇傳承之美”的數據選擇過程中,作者對京劇藝術傳承上存在的“流派師承、藝學家傳、科班教育等”多種方式進行進行分類和篩選,最終提取了京劇51個流派的創始人數據、師徒數據、家族成員數據。
3. 【關系層】構建數據關系三元組
在知識圖譜的技術架構中,這一環節體現在本體構建上,本體是個專業概念,本體構建也有多種可用的成熟模型,屬于技術側内容,本文不展開論述,僅闡述設計層面的思路。技術是讓數據更精準,而面向用戶的設計是讓數據更有用和好用。
設計數據的關系層,也就是給不同數據類型建立關系的過程,通過确定節點和邊的内容來構建能夠解釋主題和符合其邏輯關系的三元組。
數據關系的建立一般主要圍繞兩個層面,一是能夠闡述知識主題,二是通過關系三元組可推理得到更多的知識内容。
比如,在“學生使用社交軟件的行為特征”這個主題中,可定義“學生(實體)-網絡社交特征(屬性)-具體行為(屬性值)“是一組關系結構,體現在數據為“張三-在線時長-5小時/天”,描述成知識語意為:張三同學社交軟件每天會在線亮起5個小時;
又如,圍繞“商品銷售信息”這一主題,“産品(實體)-集合(關系)-商品(實體)”是一組關系結構,體現在具體數據為“手機-包含-華為手機”,描述成知識語義為:華為手機是衆多手機中的一種。
當我們定義了這種數據關系,獨立的數據就變成了可描述的知識語意,當這些語義聯系在一起,用戶通過一段段知識洞察到不同的現象,或解讀出不同的結論。
這種知識語義的可視化,或者說這種數據關系結構的可視化,能夠幫助用戶了解業務現象,或産品底層看不到但卻有用的信息。
比如京劇文化中師承的演變,可以通過不同人物之間的關系脈絡,構建出“師承關系、家族關系、聯姻關系”幾種三元組模式,從相同節點中解讀到某個京劇演員擅長某個角色的師承因素。
再比如,将某班級每個學生的聊天頻率、好友數量、QQ在線時長等網絡社交行為關系一一對應,就會勾畫出集中在某個學生身上的不同特征,把這些學生再放在一起,就呈現出一個班級學生在網絡世界的不同社交特點。
4. 【可視層】可視化圖形語義轉換/可視化映射
當關系構建好以後,簡單的三元組是容易讀取的,但衆多三元組集成在一起,也會涉及到信息讀取效率的問題,就需要将關系結構圖形化,這一步驟也是傳統信息可視化方法中的必然環節。
根據已經構建好的數據關系結構,可通過“圖表映射”和“視圖設計”兩種方式,進行可視化的語義轉換。
(1)可視化圖表映射
可視化圖表,是指具備通用性的标準化圖表。總體分為統計類圖表和關系類圖表,本文主要闡述關系類圖表。關系類圖表又可分為網狀關系和層次關系。
網狀關系圖包括:關系圖、弦圖、弧長鍊接圖等;層次關系圖包括:樹圖、旭日圖、矩形樹圖等。詳細的标準化圖表,可以借助E-chart、Tableau Public、Smartbi等軟件進行參考選擇(如圖9)。
如果數據關系比較清晰簡單,能夠被這兩類标準化圖表所覆蓋,則可以直接選擇把節點和關系直接映射其中。如果你的數據關系比較複雜,或個性化,則可對标準化圖标進行組合或變化,或設計個性化視圖。
例如,在北京郵電大學彭國雁的論文《面向京劇知識圖譜的信息可視化研究與設計》的案例中,“京劇傳承之美”這一主題,“師承關系、家族關系、聯姻關系”的三元組關系較複雜,如果直接用可視化圖表映射來展示,會産生易讀性差和頁面布局難以控制的問題。
于是論文作者采用不同圖表相結合的方式,并将圖形的視覺元素進行改造:
- 主體采用和弦圖,人物點構成和弦圖的圓,人物關系類别采用不同顔色線條進行連接。
- 根據人物出生時間的向性特點,将人物按照某一方向進行排列,即可隐喻師徒或者親屬關系的有向性。
- 采用樹形圖形式的線條表達主次人物的關系。
- 将幾種基礎關系做好映射後,再把相關節點整合在一起,就表達了整體的師承關系結構圖,最終形成“傳承之美”整體的可視化知識圖譜。
(2)可視化視圖設計
本文所述的可視化視圖,是指能表達标準化圖表以外的,不同類型數據特征的語義圖形,由設計師根據與主題相關的數據類型進行構思,并關聯其不同類型數據間的關系語境,最終形成的信息圖。
清華大學副教授向帆老師在對“學生互聯網社交行為”這一主題的研究中,作者選擇QQ使用狀态的相關數據,将每個學生用QQ企鵝的輪廓圖形表示,在線時長為企鵝形狀大小、聊天次數為圓形嘴巴、好友數量為頭發多少,呈現出“學生-網絡社交特征-具體行為”的可視化關系圖,在最終的視圖中,可直觀的看到完全不同的每個人。
這類自定義的可視化視圖具有獨特性和意向性的特征。獨特性是指圖形針對具體的主題和數據關系,而不能夠廣泛的為其他主題複用;意向性是指一個視圖内的圖形有一定的意向概念傳達,比如圓形代表聊天次數,也是象征嘴巴,嘴巴跟聊天相關(盡管網絡聊天用文字,但卻表達出了這種交流意向)。
同時個性化圖形元素相關聯來表達數據關系,也可以直觀、高效的洞察出用單純的标準化圖表看不到的現象,比如三個學生,一個在線時間很長但聊天很少、好友也很少;一個在線時間很短,但好友和交流時間卻很多;另一個基本不說話,但是卻有很多好朋友。這樣的現象更容易觸發同理心,從而啟發老師在教學中因材施教。
經過以上四個步驟,就完成了對知識圖譜數據進行可視化。它不是單純的以視覺效果展示數據信息,而是從數據關系提取到關系呈現為一體的設計過程。
三、結語綜上所述,基于知識圖譜的技術架構、傳統數據可視化的方法和交互設計的工作流程,本文分享了一種可在工作中易于操作的知識圖譜可視化方法。
與傳統數據信息可視化相比,知識圖譜可視化更傾向于數據之間三元組關系的視覺表達,所謂“整體大于局部之和”,有了關系的建立,則更能夠發現單一數據之外的延展信息和潛在機會。希望能夠通過設計的力量,讓普通用戶也能更好的使用數據和洞察數據。
作者:騰訊CDC,騰訊CDC體驗設計
本文由 @騰訊CDC體驗設計 原創發布于人人都是産品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!