推薦系統實踐的本質-tft每日頭條

推薦系統實踐的本質

科技更新时间:2026-08-02 12:47:00

編輯導語：推薦系統是如何做到向用戶推薦他感興趣的物料的，這個取決于我們的推薦系統架構。作者對推薦系統的架構進行了詳細的闡析，總結了7大搭建架構環節，希望對你有所幫助。

上一篇為大家介紹了作為一個推薦策略産品必須了解的行業裡發生的大事以及行業整體未來的趨勢，本篇就為大家詳細介紹推薦系統的架構，推薦系統是如何把我們感興趣的物料推薦到我們面前的。
一、整體架構

将推薦系統架構裡面主要的部分整體如上圖，用戶打開APP看到為自己推薦的物料，正常都是需要經過5-6個環節。常見的流程從建立物料索引，再到召回、粗排、精排、重排到過濾層，最終展示在了APP前段，為用戶推薦了感興趣的物料。
二、物料索引
APP裡有哪些物料是可以推薦給用戶，會有一個總的物料池，物料池本身存儲在數據庫中。同時為了查詢時更加方便快捷，我們需要提前構建好物料索引。尤其是很多召回路是基于一些标簽進行召回的，更加需要提前構建好倒排索引。物料的清洗和索引的構建是推薦系統的第一步基礎工作。
三、召回層
構建完物料索引後，推薦系統是如何挑選出用戶感興趣的物料了。推薦算法發展到現在，我們可以稱之為4.0時代。4.0時代的推薦算法都是以預估用戶的點擊率（CTR）為核心，基于用戶對于每個物料的預估點擊率（Predicted-CTR）來進行排序，按照Predicted-CTR值進行倒排。以上介紹的是最理想的方式，但是實際卻無法執行也沒必要。
原因一：無法實現

物料庫的量級太大，比如像淘寶這種平台物料幾十億商品，如果用戶的每次請求都去預估幾十億商品的Predicted-CTR，需要大量的機器資源，同時時延會非常高。大家打開淘寶首頁可能需要幾十個小時，且不一定能加載出來。
原因二：沒有必要

幾十億的商品，有很多商品是非常冷門商品，99%以上的商品和用戶毫無關聯，完全沒有必要如此精細化去預估用戶對于幾十億商品的興趣度。

所以推薦系統演變成先通過召回層初步篩選出用戶可能感興趣的一些物料，比如800個。然後再進入粗排和精排，其他幾十億的物料直接在召回階段就被過濾了。這樣的架構設計大大降低了推薦系統的計算壓力，同時也不影響推薦系統的整體效果。

而召回階段，市面上最先進的模式就是針對不同的用戶進行分層，然後不同層級的用戶使用的召回路數不一樣，核心都是多路召回，每一路召回返回的物料個數以及對應的權重都是和用戶本身的分層有很大關系，實現非常精細化的用戶和召回路數的管理。

常見的召回方法有基于熱銷商品的召回、基于曆史高點擊商品的召回、用戶曆史看過商品的召回，還有一些常見的協同過濾算法比如Item-CF、User-CF。關于召回階段常用的策略和算法後面會有專門的文章進行講解。
四、粗排層
大家可以看到召回階段會有非常多的召回策略，那我們如何将這些各路召回的商品彙總在一起進行一個統一排序了。比如熱銷路的召回，召回了Top 100的商品；曆史高點擊的召回，同樣召回Top 100的商品。這兩路召回的商品可能還會有重疊的。

在召回層裡，每一路的召回都需要将物料的分數進行歸一化。比如說熱銷路的召回，如何召回Top 100的商品，首先需要計算每一個商品的熱銷分數，然後取Top 100的商品。曆史高點擊的召回路也是一樣，并且每一路的分數都需要歸到【0，1】之間，這樣各個路之間才能比較。

同時不同場景下每一路召回的重要性也完全不一樣，可以再設置一個對應的系數。比如熱銷路召回為0.5，曆史高點擊路召回為0.7，假設商品A在熱銷路召回分數為0.8，曆史高點擊路召回分數為0.3，那麼最終這個商品的總召回分數為：0.5 X 0.8 0.7 X 0.3 = 0.61。粗排層就需要将每一個召回的商品進行上述計算方式進行處理後，彙總得到一個總的List，然後選擇Top K的商品給到精排層。
五、精排層
精排層的核心任務就是預估用戶對于召回層返回的Top K商品的Predicted-CTR。召回和粗排隻是選擇出了用戶可能感興趣的物料，但是每一個物料具體的預估CTR是多少并不知道。

精排層就需要基于用戶曆史點擊過的物料作為正樣本，曝光未點擊的物料作為負樣本，然後構建CTR預估模型，預估用戶對于每一個物料的Predicted-CTR。在精排層核心要做的幾件事情：數據清洗構建正負樣本，選擇合适的排序算法，構建特征工程、模型訓練與效果評估。

最終基于精排模型預估出的CTR對于召回的物料再重新進行一次排序。精排模型的預估是整個推薦系統中耗時最多的，因為特征十分複雜，特征維度很多。如果針對幾十億物料全部進行CTR預估，系統直接崩潰，這也是需要先進行召回的原因。
六、重排層
那是不是精排過的物料，直接按照精排後的順序直接展示在了APP前端了。很多時候推薦系統仍然有一些其他業務規則進行幹預。比如在電商推薦系統裡面，就會有以下的一些策略：
1. 類目打散

對于給用戶推薦的商品如果類目集中度過高，會進行一定程度的打散。比如精排模型給用戶返回的前10個商品全部都是鞋子，可能該用戶偏好鞋子，但前10個商品全部是鞋子此種集中度還是過高了，重排層就會将後面其他類目的商品插入到這10個商品中。具體按照類目打散的規則每家不一樣，核心是基于業務場景。打散不是目的，目的是為了提升推薦系統的點擊率。
2. 不同類型物料混合

比如淘寶，淘寶推薦場景裡面有的内容類型有：店鋪、活動、直播、商品、視頻等等。那這些不同類型内容之間如何進行混合。能否可以出現連續4個全部都是直播，或者4個全部都是視頻。為了降低用戶的審美疲勞，很多時候針對不同類型的内容推薦系統也會進行重新打散。但同樣打散不是目的，目的是為了提升推薦系統的點擊率。

3. 全局最優

重排層還有一個核心的邏輯就是實現全局最優。精排層是預估用戶對于單個物料的CTR，這是一種局部最優的思想。但是用戶在浏覽時正常都會一次性浏覽多個，怎麼樣的物料組合可以實現全局最優而不是局部最優。同樣4個坑位，有可能精排排序在1，3，5，7的四個物料組合比精排排序在1，2，3，4的四個物料組合整體CTR更高。

總的來說重排層是推薦系統最後一道策略和模型的調整了。
七、過濾層
重排層調整完的物料順序還會再進行一些業務規則和策略的幹預，比如電商領域會進行以下的過濾：
1. 未上架過濾

當前已經上架的商品不展示在APP前端。
2. 缺貨過濾

當前已經缺貨的商品不展示在APP前端。

包括還有同圖過濾等等策略。過濾層很多時候我們會做在了粗排和精排之間，确保進入到精排的物料後續都是能夠直接在APP前端展示的，這樣後續的精排和重排層的價值才更高。原本重排挑選出的最優組合，結果全部在過濾層被過濾了，那麼整體推薦系統的效果就會大打折扣。
八、APP前端
經過過濾層的物料順序是不會再發生變化，但還是有最後一步工作要做，而很多推薦系統的文章都沒有介紹。就是内容樣式和創意。比如電商平台裡面同樣都是店鋪的内容，到底應該展示哪一種樣式。大家打開淘寶首頁經常會覺得花裡胡哨，就是因為内容的樣式太多了。

APP前端選擇最合适的一種内容樣式進行展示，具體關于内容樣式和創意的選擇後續也會有專門文章進行介紹。

經過7個大的環節，推薦系統也就在APP推薦場景為用戶推薦了他可能感興趣的物料。以上就是關于推薦系統架構的一個完整介紹。下一期為大家詳細介紹推薦系統的召回策略，歡迎大家持續關注。

本文由 @King James 原創發布于人人都是産品經理。未經許可，禁止轉載。

題圖來自 Unsplash，基于 CC0 協議
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技老電腦升級配置表
人一旦解決了溫飽，往往就會開始追求精神層面的刺激，也就是俗話說的，吃飽了撐的。所以今天，Yo哥就随便聊聊舊電腦升級配置，應該動哪裡？升級哪四個地方，對性能提升立竿見影？家裡有舊電腦的小夥伴，一定要認真看完！點贊了嗎？關注了嗎？謝謝！升級舊電... 2022-10-22
科技 excel怎麼按條件篩選彙總結果
表格條件篩選功能大家一定也經常用到吧，但是在處理數據時使用了篩選功能後想要對篩選後的數據求和彙總卻總是容易出錯，有些小夥伴可能會重新将篩選的數據複制出來再計算，其實并不用這麼麻煩，隻需要加一個公式就可以按條件篩選數據查看彙總結果哦！首先打開... 2022-10-25
科技 python3.8.5中如何保存文件
python3.8.5中如何保存文件?python中内置了文件（File）對象，可以使用文件對象的open()、write()方法寫入，close()方法關閉文件等今天整理了下python中對文件等讀取和寫入操作方法以及os模塊的使用，我來... 2022-10-15
科技電腦鍵盤用不了怎麼處理
電腦鍵盤用不了怎麼處理?建議重新安裝操作系統detectingIDEdrivers，今天小編就來說說關于電腦鍵盤用不了怎麼處理?下面更多詳細答案一起來看看吧!電腦鍵盤用不了怎麼處理建議重新安裝操作系統detectingIDEdrivers就... 2022-11-26
科技 vivo設置字體大小
vivo設置字體大小?找到設置，打開設置找到壁紙與字體，打開，下面我們就來說一說關于vivo設置字體大小?我們一起去了解并探讨一下這個問題吧!vivo設置字體大小找到設置，打開設置。找到壁紙與字體，打開。找到下方的字體，打開字體。選擇自己喜... 2022-06-18
科技筆記本電腦休眠打開後黑屏
電腦的休眠和睡眠這兩個功能大家都可能用過，估計大多都是被動的使用。比如筆記本電腦在使用的過程中突然有了急事，來不及關機直接合上蓋子後就去辦事去了。對正在使用台式電腦的用戶，有别的事需要離開電腦一會兒，回來後發現電腦黑屏了。以上情況一般都是電... 2022-11-07
科技蘋果如何單獨打開小程序
每經編輯：王曉波北京時間6月23日淩晨，蘋果公司通過線上形式召開WWDC年度開發者大會，這是多年來該會議首次因疫情未能舉辦線下活動而完全在線上舉辦。蘋果公司推出了iOS14、iPadOS、以及支持睡眠監測的手表系統等。對于最新的移動操作系統... 2023-01-17
科技手機拍照掃描的文件打印出來
手機拍照掃描的文件打印出來?很多朋友在拍完證件照之後都會叫照相館的人給個電子照，預防下次需要用到就不用再去重新拍，為了防止在清理時丢失，今天教大家一招不限時間，場景随時可以打印的方法，今天小編就來聊一聊關于手機拍照掃描的文件打印出來?接下來... 2022-10-17
科技全國青少年科技創新大賽中小學生
全國青少年科技創新大賽回應“神童”獎項的官方聲明。官網截圖全國青少年科技創新大賽回應“神童”獎項的官方聲明。官網截圖中新網北京7月15日電(記者孫自法)針對近期引發社會廣泛關注與質疑的“神童”獎項——中小學生完成起碼有碩士、甚至博士級别難度... 2022-11-08
科技微軟windows10重大版
IT之家訊雖然Win10正式上市日期還未定，不過在微軟官方商城中我們已經可以看到Windows10的影子，顯然微軟已經開始為大力宣傳Win10做準備了。微軟稱，大家期待已久的Win10即将登場，它将是迄今為止最佳的Windows版本。微軟為... 2022-12-11
科技華為手機三年後卡頓怎麼解決
新買的華為手機，用起來很順手，運行速度也很快，可是用一段時間以後，變得又慢又卡，有時候想把它摔了，可是，貧窮限制了我的行動，隻能一個勁兒清理手機裡的垃圾，可是這樣治标不治本，那麼如何徹底解決華為手機卡頓的問題？1.關閉微信中照片、視頻和文件... 2022-11-21
科技凱立德地圖數據怎麼更新
近日，凱立德發布了2017夏季版版導航電子地圖版本，本次凱立德對全國地圖數據進行全面的更細，極大提高了地圖數據的準确性與現勢性，讓用戶體驗到電子地圖與現實世界的一緻。并且凱立德從該版本開始，将逐步用高精度地圖數據制作方式重制原版本的實景路口... 2022-10-22
科技微信怎麼發文件
微信怎麼發文件?打開手機的微信進入後，點擊主界面下方的通訊錄選項，我來為大家科普一下關于微信怎麼發文件?下面希望有你要的答案，我們一起來看看吧!微信怎麼發文件打開手機的微信進入後，點擊主界面下方的通訊錄選項。點擊後在通訊錄内，點擊需要發送文... 2022-08-18
科技如何制作u盤啟動系統盤
你好，我是老蓋，首先感謝你觀看本文，本篇文章我做的有視頻，視頻講述的比較詳細，也可以看我發布的視頻。以前我也發過其它u盤制作的軟件，今天我們介紹這個制作優盤啟動盤的軟件，U啟動，想看其他軟件的介紹，可以看一下我以前發布的文章和視頻。我們首先... 2022-11-05
科技進圈怎麼下載
進圈怎麼下載?打開自帶浏覽器點擊搜索框進入搜索界面，接下來我們就來聊聊關于進圈怎麼下載?以下内容大家不妨參考一二希望能幫到您!進圈怎麼下載打開自帶浏覽器。點擊搜索框進入搜索界面。輸入進圈APP并進行搜索。找到第一個搜索選項進入。找到下載按鈕... 2022-06-06
科技大數據定義和特點
大數據（bigdata），IT行業術語，是指無法在一定時間範圍内用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資産。大數據分析通俗的講就是将海量混雜... 2022-10-28
科技推薦剪切軟件
如何進行視頻的剪切處理？在我們的生活中以及工作中都需要的快速掌握的技巧，可以讓用戶們根據自己的需求，把不同的視頻内容進行編輯，然後得到自己滿意的視頻片段，以及也讓工作者可以很好的提升自己的辦事效率，下面就由小編進行各種軟件的介紹，方便有需要... 2022-11-02
科技戰争雷霆萌新服務器拒絕該操作怎麼解決...
戰争雷霆萌新服務器拒絕該操作怎麼解決?找到“代理服務器”選項，選擇“不使用代理服務器”，下面我們就來說一說關于戰争雷霆萌新服務器拒絕該操作怎麼解決?我們一起去了解并探讨一下這個問題吧!戰争雷霆萌新服務器拒絕該操作怎麼解決找到“代理服務器”選... 2022-06-18
科技打印機掃描文件到電腦怎麼操作
打印機掃描文件到電腦怎麼操作?首先将文件要掃描的那一面朝下放置在打印機的玻璃面闆上，然後蓋上打印機的蓋子，下面我們就來說一說關于打印機掃描文件到電腦怎麼操作?我們一起去了解并探讨一下這個問題吧!打印機掃描文件到電腦怎麼操作首先将文件要掃描的... 2022-07-11
科技安徽衛視我的小姨第三十一集
由童蕾主演的現代情感劇《我的小姨》将于3月16日起登陸東方影視頻道。該劇講述發生在上世紀60年代初的故事，二十歲出頭的秋虹（童蕾飾）是深受觀衆喜愛的京劇名角，與青梅竹馬的師兄孫兆龍（朱泳騰飾）處于熱戀之中。正在生活一帆風順的時刻，秋虹的姐姐... 2022-10-30
科技英特爾筆記本電腦正常關機操作
英特爾筆記本電腦正常關機操作?來源：快科技相信很多人在日常使用筆記本的過程中都會遇到這樣的問題，筆記本電池充滿電之後是拔掉電源還是一直充？不少網友擔心一直充會對電池壽命産生影響，我來為大家科普一下關于英特爾筆記本電腦正常關機操作?以下内容希... 2022-12-26
科技自己如何做噴灌系統
自己如何做噴灌系統?現在噴灌b系統一般有地埋式噴灌和支架噴灌兩種，今天小編就來說說關于自己如何做噴灌系統?下面更多詳細答案一起來看看吧!自己如何做噴灌系統現在噴灌b系統一般有地埋式噴灌和支架噴灌兩種。放樣畫線根據圖紙，确定管帶的實際位置，用... 2022-08-01
科技夏普aquosr6手機如何
開學換新可是件大事！健身、美白、置換新衣、變個發型，不少女生都想利用暑假時間讓自己煥然一新，開學後馬上搖身一變跻身一線女神，讓男生們驚歎不已。不過光是外表改變似乎還有些不足，一款讓人眼前一亮的手機可能更是錦上添花的尤物。開學前夕，夏普放了大... 2022-12-12
科技華為手機怎麼用按鍵錄屏
華為手機怎麼用按鍵錄屏?有時候，我們需要用到手機的錄屏功能，比如：手機上看到一段很好看的視頻，想下載下來，方便以後回看，可是對方禁止下載，這個時候，我們就可以通過手機的錄屏功能，把它錄制成一個新視頻，保存到手機上那麼，怎樣打開手機的錄屏功能... 2022-10-15
科技發動機溫度過高是不是容易熄火
我們以往的文章，介紹過一些發動機轉速不穩、容易熄火的案例。出現發動機自行熄火的問題，常見的原因包括噴油異常、點火異常、氣缸壓力低等。然而，随着渦輪增壓發動機的增多，可能導緻發動機熄火的原因又增加了。下面，我們來講解一例由進氣冷卻系統故障引起... 2022-11-02
科技大數據行程卡停留多久有記錄
大數據行程卡出錯了後怎麼辦以我前幾天剛剛經曆的事情為例，明明什麼地方也沒去，行程碼上卻突然出現了其他城市。那麼出錯後該怎麼辦？首先，别着急。“心急吃不了熱豆腐”，沒用。其次，你沒去過就是沒去過，實事求是。（那既然沒出過門，怎麼讓自己的行程碼... 2022-11-28
科技運輸調度管理系統tdms
本文總結分享了客戶下單到司機攬件的全流程。物流/快遞/貨運公司是一個非常傳統的行業，其中零擔行業CR10（行業集中度）僅有4%左右。同時零擔物流相比快遞行業而言準入門檻較低，因此産生大量小、散、弱企業，而這些企業很多處于人工記賬的階段，所以... 2022-11-30
科技筆記本哪個鍵是設置
筆記本哪個鍵是設置?Fn鍵，意即Function（功能鍵），單獨按Fn鍵是沒有功效的，這是一個組合鍵，今天小編就來說說關于筆記本哪個鍵是設置?下面更多詳細答案一起來看看吧!筆記本哪個鍵是設置Fn鍵，意即Function（功能鍵），單獨按Fn... 2022-06-18
科技電腦怎麼轉變為音頻
我們在觀看視頻網站的過程中，有時會在視頻中聽到好聽的背景音樂，但是我們不知道這首歌曲的名稱，無法進行搜索。這時候就需要使用一些軟件，将視頻轉為音頻。那大家知道電腦怎麼視頻轉音頻嗎？下面就給大家分享兩個小妙招，不知道如何轉換的小夥伴趕緊收藏起... 2022-10-31
科技孩子從小就玩手機會有哪些危害
【孩子長時間玩手機對心理健康有害】長時間玩手機，既有損孩子視力等軀體健康，也不利于孩子的心理健康，容易造成以下心理方面的危害：1.厭學情緒突出：沉迷于手機中的虛拟世界，不願上學，不願做功課。2.滋生孤獨感和自卑感：很多孩子一心撲在手機上，寸... 2022-12-01

tft每日頭條

> 科技

> 推薦系統實踐的本質

推薦系統實踐的本質

原因一：無法實現

原因二：沒有必要

1. 類目打散

2. 不同類型物料混合

3. 全局最優

1. 未上架過濾

2. 缺貨過濾

相关科技资讯推荐

热门科技资讯推荐

网友关注