推薦系統的召回策略-tft每日頭條

推薦系統的召回策略

科技更新时间:2025-08-17 02:33:06

前面幾篇介紹了基于規則的召回和基于協同過濾思想的召回，本篇文章給大家詳細介紹基于向量的召回。這也是目前實際工業界落地時應用最多的召回方法。

一、什麼是向量召回
1. 向量

具有大小和方向的量。向量召回的核心思想就是将用戶特征和物料特征全部用向量來表示，然後基于向量來計算用戶與物料的相似度、用戶與用戶的相似度、物料與物料的相似度。
2. Embedding

何為Embedding？大家應該經常聽到這個詞，那麼到底什麼是Embedding了？Embedding翻譯：“嵌入”& “向量映射”，是一種用一個數值向量“表示”一個對象（Object）的方法。Embedding可以理解為是一種編碼方式，把相關字符類值比如“安徽”通過編碼的方式轉化為可以供計算機使用的數字。

下面我們用一個例子來先看一下基于向量的表達。

上圖中一個用戶有六個特征，分别是【年齡、性别、年薪、愛好、戶籍、學曆】，很多特征都是文本特征，計算機無法直接基于文本特征來計算兩個用戶之間的相似度，需要先把文本轉化為向量，計算機最後基于向量計算出兩個用戶之間的相似度了。
二、隐語義模型
向量召回中最經典的應用也就是隐語義模型了，或者叫做隐向量模型，或者叫做矩陣分解模型。我們之前介紹了協同過濾思想，協同過濾思想有什麼不好的地方了，隐語義模型對比協同過濾有什麼先進之處了。
2.1 案例引入

首先我們通過一個生動的例子來回顧一下協同過濾的思想。某天吃貨路飛走進了一家飯店進行點餐，服務員小薇上來服務：

1）Item-CF思想點餐

基于路飛之前吃過的菜，為其推薦相似的菜品。

2）User-CF思想點餐

基于和路飛口味相同的人，為其推薦口味相同的人愛吃的菜。

3）隐語義思想點餐

隐語義模型的思想是先确認User的興趣偏好分類，然後将User的興趣偏好分類和Item的分類對齊。各位讀者也可以明顯看得出來隐語義思想是一種更加貼近于我們實際生活，更加先進的思想。

我們用這麼一張概括圖片，大家就能夠非常清晰地明白協調過濾思想和隐語義模型思想之間的差異了：

協同過濾是将物料和用戶之間建立更多的鍊接，而隐語義模型的思想是将用戶和物料歸到相同的特征維度上，最後在相同的特征維度上進行相似度比較。

User-CF：首先找到和目标用戶吃同樣菜的其他用戶，然後為目标用戶推薦其他用戶喜歡吃的菜；Item-CF：首先明确目标用戶曆史喜歡吃的菜，然後找到和曆史喜歡吃的菜比較相似的新菜；

隐語義模型：首先明确目标用戶的興趣愛好，比如喜歡什麼類型的菜，将用戶的興趣分類和菜的分類對齊，最後為其匹配符合其偏好的菜品；下面一個例子就是基于原始的用戶對于物料的評分表，将用戶和物料進行矩陣分解Embedding在相同的特征維度上。

通過路飛和沙拉在相同維度下的匹配度，最後計算出路飛對于沙拉的偏好為0。
2.2 隐語義模型概述

我們對隐語義模型進行一個概述，日常我們經常聽到的隐向量模型或者矩陣分解模型，它們的其實含義是一樣的。

隐語義模型 or 隐向量模型 or 矩陣分解模型：通過用戶的行為數據，挖掘出隐含的特征（Latent Factor），最終将用戶與物料Embedding在相同維度的特征上，在相同維度下進行相似度計算。使用更稠密的隐向量表示用戶和物品，挖掘用戶和物品的隐含興趣和隐含特征。大家經常會看到Embedding這個詞，翻譯成中文叫做“嵌入”或者“向量映射”，實際就是将用戶和物料的特征映射到某個特征空間用向量來表達的一種方法。

隐語義模型的核心就是如何将一個共現矩陣（用戶和物料的交互矩陣）分解成兩個小矩陣，也就是分解成一個用戶矩陣和一個物料矩陣，其中兩個小矩陣必須分解在相同的隐向量維度上，也就是下圖中的K，兩個小矩陣相乘可以變回原本的共現矩陣。

當我們将一個大矩陣分解成兩個小矩陣時，面臨兩個核心問題，第一個核心問題是兩個小矩陣公用的這個隐向量維度K怎麼設置？K的維度設置為多少比較合适？

隐向量K維度的設置：

第一點：K代表的含義是什麼？

K本身代表的隐向量維度不具有現實世界中的實際語義含義，不可解釋。Part2.1裡面的點餐案例用了一些大家都能夠熟悉的語義進行舉例，但實際在隐語義模型裡隐向量都是不可解釋的，也不具備實際的語義含義。

第二點：K是不是越大越好？

K本身并不是越大越好，K越大雖然表示的信息維度就會越多，但是泛化能力也會越差，K越大對于系統性能的要求以及算力要求也會越高；K越小表示的信息維度就會越少，但是泛化能力也會越強。最終K的取值是在模型效果和系統性能之間進行權衡利弊後做出的選擇。

第三點：用戶U對于物料I的偏好度如何計算？

用戶U對于物料I的偏好度最終的計算其實就是将用戶在第K個隐向量上的分數和物料在第K個隐向量上的分數進行相乘，最終将所有K維度的分數累加在一起。
2.3 矩陣分解

矩陣分解的第二個核心問題就是通過什麼方法将一個大矩陣拆分成兩個小矩陣，其實這本質是一個數學問題。目前有三種比較常見的方法。

方法一：特征值分解

隻能作用于N * N的方矩陣，而實際User和Item的矩陣均不是方矩陣，所以不具有适用性；

方法二：奇異值分解

适用于所有M * N矩陣，但是對矩陣的稠密度要求高，現實中的矩陣都是稀疏的，如果需要使用必須把缺失的值通過近似值進行補全，一般通過平均值等方式；計算複雜度極高Ο(m∗n^2)。具體的數學計算邏輯較複雜，這裡我們也不進行詳細數學計算過程的展開了。因為奇異值分解方式對于計算資源要求極高而且要求矩陣必須是稠密的，所以實際在互聯網場景中我們也不使用奇異值分解的方式。

方法三：梯度下降法

梯度下降法，2006年網飛舉辦的電影預測評分大賽上一位叫做 Simon Funk的選手提出一種新的方法叫做Funk SVD，後來又被稱為LFM。梯度下降法矩陣分解引入了用戶向量和物品向量，用q_{u}表示用戶u的向量，p_{i}表示物品i的向量，利用用戶向量與物品向量的内積q_{u}^{T}p_{i}來拟合用戶對物品的評分r_{u,i}，利用梯度下降的方法來逐步叠代更新參數。目前工業界都使用方法三來進行矩陣分解。
三、隐語義模型的優缺點
對比上一篇文章裡面介紹的協同過濾思想下的召回方法，隐語義模型具有哪些優缺點了。
3.1 優點
泛化能力強：隐語義模型同樣需要依賴于數據，但是一定程度上可以緩解矩陣稀疏的問題；
計算空間複雜度低：矩陣分解最終生成的是用戶向量、物品向量，其複雜度為(m n)*k，而協同過濾所需維護的用戶或物品相似度矩陣的複雜度為m*m或n*n，遠遠高于矩陣分解的複雜度；
更好的靈活性和擴展性：矩陣分解生成的用戶向量、物品向量可以很好的與其他特征組合或拼接，也可以和深度學習神經網絡相結合。
3.2 缺點

僅考慮了用戶與物料各自的特征，不方便加入用戶、物料與上下文的特征以及其他的一些交互特征，模型本身仍然具有一定局限性。

本文由 @King James 原創發布于人人都是産品經理。未經許可，禁止轉載。

題圖來自 Pexels，基于 CC0 協議

該文觀點僅代表作者本人，人人都是産品經理平台僅提供信息存儲空間服務。
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技甯波華數電視怎麼點播
随着三網融合的不斷推進和深入，電信的IPTV以及互聯網技術架構的OTT機頂盒不斷流入老百姓家中，憑借其技術新穎、價格低廉、内容豐富等優勢，不斷的累計用戶數。原來由廣電主導的有線電視業務正不斷的被蠶食，每年有大量的廣電有線電視用戶流失。為了鞏... 2022-11-15
科技聯想拯救者y700平闆新玩法
目前，聯想拯救者正式宣布，2022拯救者生态春季新品發布會定檔2月28日19:00。現有的消息顯示，其可能會推出全新的智能手機、平闆電腦、遊戲本等産品。現在，随着新品發布時間的逐漸接近，聯想拯救者官方也正式公布了這些新品的具體參數信息。官方... 2022-11-18
科技磁盤陣列後數據恢複
服務器Raid磁盤離線故障：服務器中有一組或多組Mdisk，其中一組Mdisk中有一塊硬盤故障離線，熱備盤啟動并且開始同步數據，如果同組Mdisk中的另一塊硬盤也因為故障離線就會導緻熱備盤同步失敗，該組Mdisk失效，從而導緻整個卷無法使用... 2022-11-04
科技微信打開文件時總是默認用QQ打開,怎...
微信打開文件時總是默認用QQ打開,怎麼辦?打開手機，找到并打開設備的“設置”應用，進入設置界面，下面我們就來聊聊關于微信打開文件時總是默認用QQ打開,怎麼辦?接下來我們就一起去了解一下吧!微信打開文件時總是默認用QQ打開,怎麼辦打開手機，找... 2022-06-11
科技 55寸液晶電視挂裝教程
在技術的發展和人們的需求不斷催化的前提下，電視也發生着重大的改變。體積、尺寸、功能、類型，設置擺放位置，百年的電視發展史标志的不隻是人類對于顯示技術的提升，更是人類生活方式的一種改變和進步。現在人們的消費觀，大屏逐漸成為新的潮流風向，而大屏... 2022-11-05
科技 oppor11是不是王俊凱代言的
OPPO在前段時間推出了不少的限量版手機，比如紅藍撞色的OPPOR11巴薩限量版以及OPPOR11TFBOYS限量版都在市場上産生了非常不錯的反響。今天上午的時候，OPPOR11TFBOYS限量版終于正式開售，總共3000台的限量版也是讓用... 2022-10-23
科技 iphone有鎖更換電信卡
老是被批評，心情太糟糕，于是剛好今天的新聞資訊幾乎都是壞消息屠榜，據傳言下一代iPhone要取消耳機接口了，樂視的賈布斯笑了“勞資走在了蘋果前列”;原本叫好的網站自助換SIM卡業務，被工信部說停就停了，隻見下面哀嚎一片，具體詳情盡在本期科技... 2022-11-09
科技影響人工智能漢字識别率的因素
南方科技大學文化遺産研究中心唐際根教授開發的3D打印甲骨文。博愛門将成為巴黎十三區的象征與地标。李永群攝随着新技術的叠代升級，我們像坐在飛速奔馳的時代列車上，雖然看不真切，卻也能明顯感受到窗外已經不是昨天的風景了。時代節奏這麼快，漢字會怎麼... 2022-12-16
科技别克英朗防盜燈不閃爍
别克英朗防盜燈不閃爍?别克英朗防盜燈常亮是持續亮的，需要進行防盜系統的解除，解除防盜可以進行以下方法嘗試：關閉點火開關，重新嘗試啟動，下面我們就來說一說關于别克英朗防盜燈不閃爍?我們一起去了解并探讨一下這個問題吧!别克英朗防盜燈不閃爍别克英... 2022-06-22
科技怎麼進入到安全模式
昨天發文介紹了中病毒的電腦可以進安全模式殺毒，但是由于篇幅受限，沒有介紹進安全模式的方法，今天來給大家詳細講解進安全模式的方法Xp、win7都是開機狂按f8，以win7為例，如圖所示：然後就可以進入了選擇啟動的界面：用鍵盤上下鍵，選擇安全模... 2022-12-09
科技用手機微信語音怎麼錄音
用手機微信語音怎麼錄音?微信語音、視頻通話可以錄音嗎？怎麼實現雙方錄音呢？随着微信的普及很多人使用其來與處在外地的親朋好友進行日常交流，也有企業使用微信與客戶進行一對一服務，那麼想要錄制雙方通話的聲音進行保存該怎麼操作呢？下面就一起來看看教... 2022-10-08
科技藍龍德卡組
藍龍德卡組?新年臨近，各處都洋溢着節日前的期待與喜悅，而在爐石酒館中，忙碌的酒店老闆也在閑暇之餘準備好了豐厚的禮品，來贈送給一起歡度冬幕節的客人們12月22日爐石冬幕節正式開啟，除了可以獲得6包卡牌包的傳說任務線，這次冬幕節暴雪還為衆多玩家... 2022-10-08
科技免費追劇網站入口
嗨，大家好，今天給大家分享的是在線追劇網站，之前春節的時候也給大家分享過。現在很多大學，中學可能都開始或者已經在上網課了，追劇的時間可能比較少，但是小e還是分享出來吧，想要在課餘放松一下的可以打開康康。神站：開局一把西瓜刀，呸，走錯片場了。... 2022-11-12
科技 dnf勇士回歸攻略
“地下城與勇士之小狐狸君愛談遊戲電競”第五百四十一期《DNF10月勇士對決BUG：閃退匹配連接失敗，小霸王服務器，逼退玩家》，随着國服最新首發副本——5V5勇士對決的上線，國服的服務器再次受到摧殘！由于mobe模式是PVE和PVP的綜合版本... 2022-12-08
科技 oppo手機設定亮屏時間
很多朋友在使用OPPO手機查看時間的時候，都是拿出手機按下電源鍵之後手機亮屏，查看完時間之後再按電源鍵滅屏的，但是接下來要說的功能就不需要讓手機亮屏也能看到時間日期。這裡要說的就是OPPO手機裡面的"息屏時鐘"功能，首先要說的就是，該功能之... 2022-11-15
科技蘋果手機怎麼登陸路由器設置
蘋果手機怎麼登陸路由器設置?點擊打開手機上面的設置進入設置頁面，我來為大家科普一下關于蘋果手機怎麼登陸路由器設置?以下内容希望對你有幫助!蘋果手機怎麼登陸路由器設置點擊打開手機上面的設置進入設置頁面。在設置頁面點擊進入頁面的無線局域網。在無... 2022-07-25
科技海康威視網絡硬盤錄像機恢複出廠按鈕在...
海康威視網絡硬盤錄像機恢複出廠按鈕在哪?第一種方法:1.在系統中登錄用戶名和密碼2.登錄成功後，進入系統設置菜單(齒輪标志)中找到恢複出廠的系統設置，有提示後點擊确認後系統将自動重啟，恢複出廠成功，我來為大家科普一下關于海康威視網絡硬盤錄像... 2022-06-25
科技寶馬3系四驅xdrive
今年受各種的波動影響，能留給車企施展新車的機會真是屈指可數...........沒有曝光的熱度，其不就耽擱了新車的影響力嗎！終于！等了這麼久，總算是等來了今年第一個大型車展，不少實力超群的新車也在這次的成都車展開啟首秀之旅。而教授也去到了車... 2022-11-10
科技如何去做好seo優化
由于網站營銷的快速發展，趨勢越來越成熟。SEO優化也開始了迅猛的發展，不過很多優化人員可能已經忘記了做SEO最初的目的。SEO優化的最初目的是改善用戶體驗，而不僅僅是了解網站建設的優化，這隻是徒勞的。所以在網站上SEO在優化過程中，我們應該... 2022-11-16
科技 oppo老機型全部型号
oppo老機型全部型号?Reno系列機型型号，我來為大家科普一下關于oppo老機型全部型号?下面希望有你要的答案，我們一起來看看吧!oppo老機型全部型号Reno系列機型型号Reno45GPDPM00&PDPT00Reno4Pro5GPDN... 2022-10-19
科技聯合國讨論美國禁用華為
2015年5月26日，安信中保資産管理股份有限公司在北京揭牌，來自海内外一百多名嘉賓及合作夥伴參加了公司慶典。近日，聯合國維和部隊安全顧問RalphKader先生,美國海軍榮譽上将蔣一成先生，菲律賓空軍原司令員Gen.defensor先生，... 2022-10-29
科技在手機上也能不能注銷手機号碼
【注銷手機号碼，這些賬戶也記得解除】①銀行卡：與發卡行聯系，可通過網銀專業版或前往銀行櫃台解除綁定；②淘寶：進入我的淘寶、賬号與安全、手機号、修改手機号；③進入“我”、設置、賬号與安全、手機号、更換手機号；④支付寶：進入“我的”、支付寶賬戶... 2022-11-20
科技新手怎樣做剪輯
新手怎樣做剪輯?首先打開視頻制作軟件，新建項目，選擇視頻比例，下面我們就來聊聊關于新手怎樣做剪輯?接下來我們就一起去了解一下吧!新手怎樣做剪輯首先打開視頻制作軟件，新建項目，選擇視頻比例。點擊導入媒體文件，選擇導入的視頻，拖動到素材庫中，可... 2022-07-08
科技小米手機和榮耀哪個拍照更真實
最近，Dxomark對于手機的拍照評測做了調整，将變焦單獨分出來，成為畫質、變焦、視頻三者之中的一部分。而經過調整後，前五名基本已被安卓霸榜，前三名則是小米和華為的天下。蘋果排不上前五并不意外，之前老版就已經被擠出了前十，而現在隻是列出前五... 2022-11-15
科技微信沒網其他應用有網是怎麼回事
微信沒網其他應用有網是怎麼回事?打開網絡後，檢查其他的軟件當前網絡可用，如果其他應用正常上網，隻有微信不能訪問，那可能是設置了安全軟件對系統聯網進行了限制如果是安全軟件，進入流量監控-應用聯網管理，關閉相關的限制，我來為大家講解一下關于微信... 2022-06-26
科技開源風服裝
DoNews3月9日消息（記者向密）牧羊人發布AR服裝設計軟件Hologarment。根據介紹，Hologarment是開發在微軟Hololens基礎上的一款服裝設計軟件，結合了混合現實、人工智能、大數據和雲計算等多種技術。牧羊人創意及市場... 2022-11-17
科技 iphone7運行内存多少
iphone7運行内存多少?iPhone7的手機運行内存為2G拓展資料:iPhone7擁有金色、銀色、玫瑰金、黑色、亮黑色五款顔色,Home鍵全新設計,添加了振動反饋支持防水防塵功能,雙攝像頭,防抖功能,新增了速度更快的處理器，今天小編就來... 2022-05-31
科技 win10啟用遠程連接設置
對windows操作系統比較熟悉的朋友都知道windows自帶有遠程功能，其實您可以通過遠程命令來使用windows自帶的遠程連接功能，下面小編教你windows10系統電腦遠程連接命令的使用技巧。遠程連接方便用戶連接到另外一台計算機進行操... 2022-10-23
科技行程碼的星号消失時間怎麼算
行程碼的星号消失時間怎麼算?數據給你一雙看透本質的眼睛，這裡是《數據分析思維課》，下面我們就來聊聊關于行程碼的星号消失時間怎麼算?接下來我們就一起去了解一下吧!行程碼的星号消失時間怎麼算數據給你一雙看透本質的眼睛，這裡是《數據分析思維課》。... 2022-10-19
科技我的世界電腦版怎麼簡單獲得披風
我的世界電腦版怎麼簡單獲得披風?首先打開浏覽器,進入披風素材網址，下面我們就來說一說關于我的世界電腦版怎麼簡單獲得披風?我們一起去了解并探讨一下這個問題吧!我的世界電腦版怎麼簡單獲得披風首先打開浏覽器,進入披風素材網址。進入網站以後,可以看... 2022-07-16

tft每日頭條

> 科技

> 推薦系統的召回策略

推薦系統的召回策略

1. 向量

2. Embedding

2.1 案例引入

2.2 隐語義模型概述

2.3 矩陣分解

3.1 優點

3.2 缺點

相关科技资讯推荐

热门科技资讯推荐

网友关注