本篇文章為大家介紹了什麼是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜在推薦中的應用、圖譜推薦的原理、圖譜推薦的難點,并附上實際例子幫助大家進一步了解。
随着互聯網進入了下半場,精益化發展成為了主旋律,為了實現同樣的獲客成本下收益最大化,各家對推薦系統的需求日益強烈。
本文通俗的講述通過幾個段落簡單講述什麼是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜推薦的原理、圖譜推薦的難點,供大家參考了解。
推薦系統,正如它的字面信息一樣,就是通過推薦内容滿足用戶個性化的需求,解決信息過載的問題的系統。
推薦系統根據形式的差異接入了不同的場景,在大家的日常生活中就無時不刻都在享受這它的便利。
當你一大早打開淘寶,掃一眼“猜您喜歡”,發現一個自己喜歡的寶貝,直接添加進購物車;打開今日頭條,看了下自己感興趣的新聞,中間看到一個自己不了解的内容,打開百度輸入後,輸入框下面展示了幾個相關内容……
根據推薦的形式能不能清晰地影響用戶的操作可以把推薦劃分為隐形推薦和顯性推薦。
隐形推薦不會對用戶預期的操作産生影響,如:新聞排序,搜索結果排序等在用戶不知不覺中給用戶展現;顯性推薦會改變用戶預期的操作,如:輸入聯想、推薦問句等用戶可以根據推薦的内容選擇自己期望的内容。 另外,根據推薦的階段不同,也可以将推薦分為相關性推薦、預測式推薦、生成式推薦。
相關性推薦根據用戶當前信息,召回相似度較高的内容作為推薦的内容;預測式推薦為根據用戶曆史信息,可以是用戶信息、操作記錄、購買記錄等,預測用戶可能感興趣的内容,作為推薦的内容;根據用戶的信息推薦,不管是相關性還是預測式的都會導緻推薦的内容随用戶使用時長增加,變得内容單一,降低用戶的新鮮感,因此還需要生成一些無關的内容作為推薦的補充,以滿足用戶的新鮮感,這就是生成式推薦。
推薦的過程可以簡單理解為三個步驟:召回、過濾、排序。
首先系統根據獲取到的信息,召回适合推薦内容,獲取的信息可以是用戶的搜索記錄、購買記錄、評論等。召回的内容中有的是這個用戶不關注的,可能是他已經買過了的寶貝或者已經看過了的内容,這會兒就需要根據過濾的條件,将不需要的内容進行過濾。經過過濾産生的推薦集還需要根據内容的相關度進行排序,最後系統根據相關度的排序,将内容分配到對應的模塊,這樣用戶就能看到自己感興趣的内容了。
有的系統也會将過濾放在第一步,先根據條件過濾一些輸入信息,然後喂給推薦系統。
這樣能夠減少推薦系統的計算量,縮短推薦系統處理時間,提高推薦系統的即時性,但是這麼做也會存在一些問題:減少輸入導緻類别特征的内容丢失,影響推薦系統的内容數量與質量。
知識圖譜就是實體的屬性關系網,能夠很好的表達實體之間的關系,這個關系可以是具有同樣屬性的實體,也可以是上下位的實體關系。
對于推薦系統來說,這個圖譜中的實體不僅僅是推薦的内容,還包含了用戶的信息,或者是标簽,所以知識圖譜很好的提供了一個推薦對象的關系網。
通過知識圖譜,推薦系統可以很好給你推薦關聯内容,例如,你購買了手機,那麼它就可以給你推薦充電寶、保護套、鋼化膜等,因為在它的腦子中知道這些産品是手機的附件。
也可以通過用戶搜索的藍牙耳機,給他推薦同樣具有藍牙功能的耳機。
我們通過一個簡單的商品圖譜和大家講解圖譜推薦的遍曆邏輯。這是一個數碼垂類下的耳機的簡化商品圖譜。
下位關系是相關性最強的關系,通常包含的含義是下一步操作、必要條件,例如:買了手機就會買手機殼、買了汽車就會買玻璃水等。
不過也不是所有的下位關系都是能放置在推薦序列的前列中的,例如:筆記本貼紙與筆記本相關,但是不是大家都會貼筆記本貼紙,所以下位關系也存在低概率的情況,這部分就會被其他高概率的遍曆邏輯給擠到較後的排列中。
在圖譜中有的實體由多個相同的父實體連接,這種實體之間通常具有強相關性,就好比是你同父母的親兄弟,這種推薦也是應用的最多的。
在下面這個實例中就可以理解該用戶為bose的忠實用戶,計劃購買它的耳機,那麼我們根據用戶搜索QC30的記錄,推薦QC35、QC25等結果,這樣就既能夠提高成交的可能性,也能夠實現更高的客單價,實現商家、平台的雙赢。
除了上面兩種相關性較強的遍曆邏輯之外,相同父實體的子實體也具有相關性,但是我們需要注意當一個實體具有多個父實體的情況下,不是所有的父實體都适合被往下遍曆。
例如:用戶咨詢QC30,那麼我們給它推薦bose的家庭音響解決方案就不合适,因為用戶本質需求隻是購買耳機。
二元實體遍曆适合同類父實體的場景,同類的父實體通常表示這兩個産品是一個互補或者相似的含義。
例如:用戶咨詢QC30,那麼他可能需要一個MP4來搭配他的耳機,同樣的情況還有鼠标-鍵盤、短袖-短褲等。
優于圖譜中實體之間的關系是網狀的,所以在遍曆時存在兩個實體之間可以通過多種遍曆邏輯推理得到。
那麼我們就需要采取一種方式來對比那種遍曆邏輯的結果才是我們應該采用的。
一般會根據邊的權重計算得到兩個實體的相關度。
根據推薦系統生成的推薦序列過濾推薦結果,這個根據不同業務方的需要會有很大的差别,這裡就簡單說明一些通用的實例:
期望操作是指用戶使用産品時,我們期望用戶最終實現的行為,可能是點擊、購買等。
如果用戶已經對推薦的内容發生了期望操作,那麼繼續推薦這個内容,無疑會浪費有效面積,導緻客單量降低。
為了避免這種情況,推薦系統會針對不同的推薦内容設置一個時間區間,在這個時間區間内已經産生過期望操作的就不再進行推薦,例如,服飾可以設置為1個月,快消品則可以設置更短的時間限制。
一千個讀者就有一千個哈姆雷特,面對一千個用戶,推薦系統的結果肯定不可能都是一千個都是滿意的,所以當推薦的内容用戶沒有産生期望操作時,系統可以認為該推薦結果對于這個用戶是弱關聯性推薦或者說是無效推薦,那麼系統在再次生成推薦序列是就可以将其過濾,讓其他用戶可能感興趣的結果補充進行展示。
當生成的推薦序列中已經存在很多的同類産品時,我們也需要進行過濾。
同類的結果,用戶隻會對其中的幾個結果産生操作,如果過多地展示同類的内容,就會導緻推薦的内容豐富度不夠。
一般同類的結果,推薦系統隻會保留其中相關度最高的幾個,并且在展示上會将同類結果控制放置間隔,避免一起出現。
圖譜更新前都需要評估相對的效果,隻有相對效果優與原先的結果,圖譜才能上線。
評估相對結果的指标可以分為服務指标和業務指标。
服務指标是反映圖譜服務效果的指标,都是一些客觀數據;業務指标是與業務相關聯的,反映的是服務上線後的服務效果的指标。
實體識别準确率=實體解析正确數/用戶問句總數;
實體識别召回率=實體解析正确數/相關實體總數;
内容相關度=用戶評分/推薦數量。
展現點擊比=用戶點擊數/展現數量;
轉化率=用戶産生期望操作數/展現數量。
知識圖譜雖然在推薦系統中應用存在優勢,但是在實際應用中會因為它的種種難點被限制應用,下面和大家一起講講圖譜應用的困難。
在推薦系統中應用的圖譜都是大規模的圖譜,實體都是在萬級的,像阿裡的商品圖譜甚至達到了十億級。那麼大的圖譜完全由人工運營維護肯定是不現實的,實際上這些圖譜也的确由系統自動進行維護,人工隻是輔助進行運營。
系統通過現成的表結構數據、機器閱讀理解抽取的實體與關系自動構建知識圖譜。
例如:阿裡的商品圖譜部分數據來源就是寶貝下面的商品詳情:
但是目前的技術還不能做到100%的自動構建準确,因此構建後如何篩選出有問題的關系就需要人工借助工具進行調整了,常見的需要人工糾正的有:
同寶貝在不同商家出現不同詳情的情況,需要人工二次确認;寶貝詳情變化後,需要人工更新。
圖譜的量級達到了一定,如何快速的萬級億級的實體和屬性中找到對應的數據,對于模型來說是一個十分艱巨的工作。
另外大規模的圖譜,實體之間的關系密切,如果做到的二元遍曆,那麼延伸出的實體也是指數量級的,無法直接拿來做推薦。
所以圖譜推薦的時效性較差,不适合應用于需要實時返回推薦結果的場景,所以圖譜推薦往往應用在用戶使用的間隙生成推薦的内容。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!