tft每日頭條

 > 科技

 > 社交軟件裡的你是真實的嗎

社交軟件裡的你是真實的嗎

科技 更新时间:2024-07-22 07:17:50

​​​​​此賬号為華為雲開發者社區官方運營賬号,提供全面深入的雲計算前景分析、豐富的技術幹貨、程序樣例,分享華為雲前沿資訊動态

社交軟件裡的你是真實的嗎(你可能認識的人)1

衆裡尋他千百度,蓦然回首,那人卻在推薦名單處。

社交軟件最牛的地方之一,一定是用戶關系的深度挖掘。明明你已經拉黑了某些人的電話、微信、以及所有社交賬号,但TA還是毫不例外地出現在頁面上“你可能認識的人”裡。這些人包括你老死不相往來的EX,早已記不起相貌的初中同學、前同事、甚至你最不想見到的人——你的BOSS。

社交軟件裡的你是真實的嗎(你可能認識的人)2

▲抖音-發現朋友

那麼,這些人是怎麼出現在你的名單裡的呢?

這其中關鍵技術便是:知識庫的鍊接預測,又稱為知識圖譜補全

一圖理解什麼是知識圖譜?

知識圖譜是一種将知識寫成結構化三元組的多關系圖,包含了實體、概念和關系。

實體指的是現實世界中的事物比如人名、地名、機構等。概念指的是具有同種特性的實體構成的集合,如下圖中的“運動員”、“金球獎”等。關系則用來表達不同實體之間的某種聯系。

知識圖譜用實體和關系組成圖譜,為真實世界的各個場景直觀建模。構建知識圖譜的過程本質是建立認知、理解世界的過程。

社交軟件裡的你是真實的嗎(你可能認識的人)3

如何進行知識圖譜補全

以小明為例,小明就職于位于五道口的新浪,系統可以推測出小明在北京工作。并将同樣在北京新浪工作的小王推薦給了他。在下圖中,藍色的箭頭表示表示已存在的關系,紅色箭頭為知識圖譜補全後的關系。

社交軟件裡的你是真實的嗎(你可能認識的人)4

知識圖譜與知識表示學習的關系

知識圖譜是由實體和關系組成,通常采用三元組的形式表示——head(頭實體),relation(實體的關系),tail(尾實體),簡寫為(h,r,t)。知識表示學習任務就是學習h,r,t的分布式表示(也被叫做知識圖譜的嵌入表示(embedding))。可以這麼說,有了知識圖譜的Embedding,AI式的知識圖譜應用才成為可能。

如何理解嵌入表示Embedding?

簡單來說,embedding是對一個對象(詞、字、句子、文章…)在多個維度上的描述,相當于通過數據建模的方法來描述一個對象。

舉個例子,我們經常用到的Photoshop裡關于顔色的RGB表示法就屬于一種非典型的embedding。在這裡顔色被拆成三個特征緯度,R(紅色強度,取值範圍0-255),G(綠色強度,取值範圍0-255),B(藍色強度,取值範圍0-255)。RGB(0,0,0)就是黑色。RGB(41,36,33)就是象牙黑。通過這樣的方法,我們可以通過數字來描述顔色。

社交軟件裡的你是真實的嗎(你可能認識的人)5

一、知識表示學習都有哪些方法

知識表示學習的關鍵是設計合理的得分函數,在給定事實三元組為真的情況下我們希望最大化得分函數。它從實現形式上可分為以下兩類:

  • 基于結構的方法

該類模型的基本思想是從三元組的結構出發學習知識圖譜的實體和聯系的表示,其中最為經典的算法是TransE模型。該方法的基本想法是頭向量表示h與關系向量表示r之和與尾向量表示t越接近越好,即h r≈t。這裡的“接近”可以使用L1或L2範數進行衡量。原理圖如下:

社交軟件裡的你是真實的嗎(你可能認識的人)6

該類知識表示學習模型還有:TransH, TransR, TransD,TransA等。

  • 基于語義的方法

這類模型是從文本語義角度出發學習KG的實體和關系的表示。這類表示方法主要有LFM, DistMult, ComplEx, ANALOGY, ConvE等。

二、知識表示學習的應用

由于基于表示學習,可以将知識圖譜的實體和關系進行向量化表示,方便後續下遊任務的計算,典型應用有以下幾種:

1)相似度計算:利用實體的分布式表示,我們可以快速計算實體間的語義相似度,這對于自然語言處理和信息檢索的很多任務具有重要意義。

如何進行相似度計算呢?舉個例子。

假設"李白"這個詞的embedding一共是5維,其值為[0.3,0.5, 0.7, 0.03, 0.02],其中每個維度代表和某個事物的相關性,這五個數值分别代表[詩人,作家, 文學家,自由職業者,俠士]的含義。

而"王維"=[0.3,0.55, 0.7, 0.03, 0.02],"牛頓"=[0.01,0.02, 0.06, 0.4, 0.01],我們可以用餘弦距離(幾何中,夾角餘弦可用來衡量兩個向量方向的差異;機器學習中,借用這一概念來衡量樣本向量之間的差異。)來計算這幾個詞的距離,顯而易見李白和王維的距離更近,和牛頓的距離更遠。由此可以判斷“李白” 和“王維”更為相似。

2)知識圖譜補全。構建大規模知識圖譜,需要不斷補充實體間的關系。利用知識表示學習模型,可以預測2個實體的關系,這一般稱為知識庫的鍊接預測,又稱為知識圖譜補全。上文中“五道口小明”的例子可以很好的解釋。

3)其他應用。知識表示學習已被廣泛用于關系抽取、自動問答、實體鍊接等任務,展現出巨大的應用潛力。

自動問答是與知識表示學習深度結合的一大應用。對于智能問答産品來說,後台設計時,一般分為3層,輸入層、表示層、輸出層。輸入層簡而言之就是問題庫,這裡集合了所有用戶可能會問到的問題。再經過表示層的知識抽取,最終返回結果。

社交軟件裡的你是真實的嗎(你可能認識的人)7

典型的智能問答産品有蘋果Siri、微軟小冰、百度、阿裡小蜜等。這些問答産品的一大特色是,可以使搜索結果更精準,而不是返回一堆相似的頁面讓你自己去篩選,達到“所答即所問”。比如,搜索“王思聰的身價多少”,返回來的結果就是具體的數字。

社交軟件裡的你是真實的嗎(你可能認識的人)8

三、總結

簡而言之,社交産品基于知識圖譜知識補全技術,通過實體和關系的表示對缺失三元組進行預測,在已知頭實體以及頭實體間的關系,預測其尾實體。也就是說,它們是根據用戶畫像來進行朋友推薦的,如果你不想那些“老熟人”出現在你的推薦名單裡,最好的方法是,關掉社交産品上的地理定位、盡可能少地透露個人信息。

參考資料

1、劉知遠,孫茂松,林衍凱,謝若冰《知識表示學習研究進展》

點擊關注,第一時間了解華為雲新鮮技術~

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved