如何建立一個推薦系統-tft每日頭條

如何建立一個推薦系統

科技更新时间:2025-12-27 15:46:05

老規矩，開始正文前：微信搜索并關注公衆号“智能推薦系統”，更多幹貨等着你。

本文總結了推薦系統常用的術語及知識清單，供大家參考。

1、推薦系統

推薦系統相當于信息的“過濾器”，它旨在解決信息過載的問題，幫助人們更好地作出決策。它的主要原理是根據用戶過去的行為（比如購買、評分、點擊等）來建立用戶興趣模型，之後利用一定的推薦算法，把用戶最可能感興趣的内容推薦給用戶，如下圖：

如何建立一個推薦系統（推薦系統常用術語大全）1

2.1、召回

從海量（數千萬）item中粗選出幾百或者上千的候選集的過程，可以理解為向用戶粗選一批待推薦的商品。相當

2.2、排序

從召回的上千候選集中，預測出用戶的點擊概率，以此排序，給出最終向用戶推薦的結果集。

2、數據

為了完成上面的計算，我們需要三部分數據：

2.1、用戶數據（User）

指用來建立用戶模型的數據，這些數據根據不同的推薦算法而不同，典型的數據包括用戶興趣點、用戶profile、用戶的社交好友關系等；

2.2、内容數據（Item）

指用來描述一個被推薦内容主要屬性的數據，這些屬性主要都是跟具體的内容相關的，如一部電影的導演、演員、類型和風格等；

2.3、用戶-内容數據

用戶-内容交互是指反映用戶與内容内在聯系的數據，分為隐式和顯式兩種；顯式主要是指評價、打分、購買等能明顯反映用戶對内容興趣的交互數據，隐式指的是用戶的點擊、搜索記錄等間接反映用戶對内容興趣的交互數據。

3、算法

當前主流的推薦算法可以分為以下幾類：

3.1、基于内容的推薦（Content-based）

根據用戶過去喜歡的内容而推薦相似的内容；

3.2、基于協同過濾的推薦(Collaborative Filtering，CF)

根據與當前用戶相似的用戶的興趣點，給當前用戶推薦相似的内容

3.3、基于人口統計學的推薦(Demographic-based)

根據用戶共同的年齡、地域等人口統計學信息進行共同的推薦

3.4、基于知識的推薦(Knowledge-based)

根據對用戶和内容的特定領域知識，給特定的用戶推薦特定的内容

3.5、基于團體的推薦(Community-based)

根據用戶的社交好友關系，給用戶推薦其好友感興趣的内容

3.6、混合推薦(Hybrid Recommender System)

以上各種推薦算法的特定組合

4、數據預處理

推薦系統相關的數據預處理技術除了通常的歸一化、變量替換等以外，最主要的是相似度計算、抽樣和維度約減。

4.1、相似度計算

相似度通常有兩種衡量方式，一是直接計算相似度，二是計算距離，距離是本質上是相異程度的度量，距離越小，相似度越高。

4.1.1、相似度度量

4.1.1.1、餘弦相似度

相似度計算最常見的方式是餘弦相似度，對于n維空間的兩個向量，通過以下公式計算相似度。其幾何意義就是兩個向量的空間夾角的餘弦值，取值範圍在-1到1之間。取值為-1表示完全相反，取值為1表示完全相同，其餘值表示介于二者之間。

4.1.1.2、皮爾遜相關系數

相似度計算的另一種常見方式時皮爾遜相關系數。皮爾遜相關系數的實際意義是兩個随機變量x和y之間的線性相關性，取值範圍在-1和1之間。-1表示負線性相關，1表示正線性相關，其餘值表示介于二者之間。

4.1.1.3、Jaccard相關系數（Jaccard Coefficient）

Jaccard用于集合相似度的一種方式。

4.1.2、距離度量

4.1.2.1、歐幾裡得距離（Euclidean Distance）

距離度量最常見的是歐幾裡得距離，計算多位空間中兩個點之間的絕對距離。

如何建立一個推薦系統（推薦系統常用術語大全）2

4.1.2.2、曼哈頓距離（Manhattan Distance）

曼哈頓距離也稱為城市塊距離，是将多個維度的直線距離求和後的結果。

4.1.2.3、切比雪夫距離（Chebyshev Distance）

4.1.2.4、闵可夫斯基距離（Minkowski Distance）

Minkowski距離是歐氏距離(p=2)、曼哈頓距離(p=1)和切比雪夫距離(p=無窮)的推廣。

4.1.2.5、标準化歐氏距離（Standardized Euclidean Distance）

标準化歐氏距離是為了解決以上四種距離的一個重要不足而産生的，即以上四種距離把不同維度指标的差異視為相同的。标準歐式距離則通過每一維的标準差，對該維度進行一個标準化後再進行計算。

如何建立一個推薦系統（推薦系統常用術語大全）3

4.1.2.6、馬哈拉諾比斯距離（Mahalanobis Distance）

Mahalanobis距離是标準化歐氏距離的推廣，在協方差矩陣是對角陣時，Mahalanobis距離就變成了标準化歐氏距離。

4.2、抽樣

抽樣技術在數據挖掘中主要用在兩個地方：一是在數據預處理和後處理階段，為了避免計算規模過大，進行抽樣計算；二是在數據挖掘階段，通常會對訓練出來的模型進行交叉驗證，需要抽樣将所有樣本劃分為訓練集和測試集。

通常所說的抽樣都是随機抽樣(random sampling)，主要用于所有樣本點都可以認為沒有區分時适用。還有一種分層抽樣(striated sampling)，在樣本需要顯著的分為不同的子集時，針對每個子集分别進行抽樣。

4.3、維度約減(Dimensionality Reduction)

在統計學習理論中，當樣本的維度增加的時候，待學習的模型的複雜性是随着維度呈指數增長的，這種現象通常稱為“維數災難(curse of dimensionality)”。這也就意味着，如果我們想在高維空間中學到和在低維空間中精度一樣高的模型，所需要的樣本數是呈指數增長的。

維度約減通常是用來處理維災難問題的。通常維度約減有兩種思路，一是從高維數據中選出最能表達數據的一些維度，并用這些維度來代表數據，稱為特征選擇(feature selection)；另一種是将高維數據通過某種trick變換映射到低維空間，稱為特征構造(feature extraction)。

主成分分析（Principal Component Analysis, PCA）是最主要的一種特征選擇方式。它通過特征分解能夠得到每一個維度對于整個數據的最小均方差的貢獻程度，從而定量判斷每一維對于數據所包含信息的貢獻度。然後保留最主要的一些維度，抛棄一些不顯著的維度，對數據進行降維。

奇異值分解（Singular Value Decomposition, SVD）是主要的特征構造方式。它通過矩陣分解的方式，将數據從高維空間映射到低維空間，對數據進行降維。

5、數據挖掘-分類

分類是數據挖掘的主要内容，方法衆多，各自都有不同數據假設和理論支持。下面簡單列舉最有代表性的一些算法。

5.1、KNN(K-nearest Neighbor)

KNN是最容易理解的分類器，它不訓練任何模型。當有一個未知樣本需要預測時，它從已知樣本中找到與這個未知樣本距離最近的K個點，根據這K個點的類别來預測未知樣本的類别。

它最主要的不足在于它需要的樣本量非常大，同時因為它沒有任何訓練的模型，每一次預測都要計算k次距離，計算量非常大。

5.2、決策樹(Decision Tree)

決策樹将分類過程抽象為一顆樹，它通過最大化信息增益的方式對樹的分支進行劃分，最終通過設置不純度的阈值來停止樹的劃分，形成最終的決策樹。

它的主要優點在于模型的訓練和預測都非常快，不足在于模型的精度有時會低于其它分類器。不過，通過集群學習(ensemble learning)的方式能夠極大的克服這一點，如采用bagging思想的random forest和采用boosting思想的GBDT，都是決策樹的延伸，它們綜合多棵決策樹的分類結果來組合出更精确的分類器。

5.3、基于規則的分類器(Rule-based Classifier)

基于規則的分類器通常都是利用“如果…則…”一類的規則來進行分類。其适用性有限，且要獲得靠譜的規則比較困難，一般用的較少。

5.4、貝葉斯分類器（Bayes classifier）

貝葉斯分類器其實是一類分類器，主要是利用貝葉斯公式，通過估計先驗概率和似然概率，并利用一部分先驗信息，來計算給定樣本的各維度數據值的情況下，樣本屬于某個類别的概率。

5.5、人工神經網絡（Artificial Neural Network，ANN ）

神經網絡是一種運算模型，由大量的節點（或稱神經元）之間相互聯接構成。每個節點代表一種特定的輸出函數，稱為激勵函數（activation function）。每兩個節點間的連接都代表一個對于通過該連接信号的加權值，稱之為權重，這相當于人工神經網絡的記憶。網絡的輸出則依網絡的連接方式，權重值和激勵函數的不同而不同。而網絡自身通常都是對自然界某種算法或者函數的逼近，也可能是對一種邏輯策略的表達。

5.6、支持向量機(Support Vector Machine, SVM)

支持向量機是線性分類器的代表。與貝葉斯分類器先估計概率密度然後計算判别函數不同，線性分類器都是直接估計線性判别式，并最小化某個目标函數，利用某種凸優化方法求解得到最終的線性判别式。

這是最流行的分類器之一，通常認為它訓練、預測速度快，而且精度靠譜，所以在各種領域廣泛使用。

5.7、集成學習(Ensemble Learning)

集成學習的想法是集合若幹個弱分類器來組合成一個強分類器，通常有bagging和boosting兩種思路。

5.8、分類器評估

分類器評估是對一個分類器性能進行評價的重要一步，其主要有以下标準：

Precision-recall：準确率-召回率，根據混淆矩陣計算

F1：結合準确率-召回率的一個綜合指标

ROC：直觀的曲線比較分類器性能

AUC：ROC的定量化表達

MAE：平均絕對誤差

RMSE：平均根方誤差

微信搜索并關注公衆号“智能推薦系統”，更多幹貨等着你。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技投影屏幕尺寸介紹
1、投影幕的尺寸主要取決于使用空間的面積和觀衆人數的多少，以及位置的安放。首要的原則是選擇适合觀衆的... 2023-07-12
科技 c2駕照能開什麼車
1、C2駕駛證是駕照的一種，隻可以駕駛小型、微型自動擋載客汽車以及輕型、微型自動擋載貨汽車。2、C2駕照也是比較常見的駕照之一，它隻可以駕駛9座以下、車長不超過6米的自動擋的汽車。 2023-07-12
科技電動車黃牌和綠牌有什麼區别
1、黃牌，超标車車牌，電壓和車速超過規定了，上牌後有一定的行駛年限。2、綠牌，合格車車牌，電壓車速符合國标要求，可以一直行駛。3、挂黃牌是超标電動車，屬于電動摩托車規格，需要摩托證才可以駕駛，否則以無證駕駛罰款或扣車。4、挂綠牌是标準電動車，綠色節能的意思。不需要駕駛證即可駕駛。 2023-07-12
科技富貴竹水培怎麼改土培
1、先水養。如果是你新買的這種植株，不管你是打算水養還是種到土中，要先要在水裡面養一段時間，把它下方的葉去除，要弄幹淨，不然養在水中會發爛，瓶口下方的葉全部都要清除，這樣它才能成長得很快。把它插入瓶中，加滿水，放在家裡，七天之内不要移動它，這樣就能給它一個穩定的成長環境，要注意好溫濕，光照等因素，在... 2023-07-12
科技蘋果手機丢失後怎麼辦
1、在蘋果手機上（也可以在其它的蘋果手機或iPad設備上）啟動”查找iPhone"。2、輸入要定位手機的AppleID和密碼。3、輸入準确後，系統就會對該AppleID下的所有設備進行定位。4、在搜索到該AppleID下的所有設備後，再點丢失手機的名稱。5、地圖上就可以顯示該手機的位置了。6、可以先嘗試通過柔性的方法來找回手機，啟用丢失模式，該模式啟動後，丢失手機的屏上會顯示下列信息。7、如果無法 2023-07-12
科技内網穿透原理
以華為MateBookX、win10為例。采用路由方式的ADSL寬帶路由器擁有一個動态或固定的公網IP，ADSL直接接在HUB或交換機上，所有的電腦共享上網。在局域網内部的任一PC或服務器上運行到花生殼内網穿透客戶端，此時域名解析到的IP地址是局域網網關出口處的公網IP地址，再在網關處做端口映射指向監控設備即可，亦或使用網絡人遠程控制軟件就可以免了做端口映射這一步。普通NAT是通過修改UDP或TC 2023-07-12
科技鴻蒙還是屬于安卓嗎
演示機型：華為P40系統版本：HarmonyOS2.0鴻蒙不屬于安卓。鴻蒙系統、安卓系統、ios系統是并列關系，都是操作系統。鴻蒙系統并不是基于安卓，但有采用安卓同樣的Linux内核，從而實現兼容安卓應用實現過度。在未來實現鴻蒙端的APP成熟後，将會去掉linux内核，隻保留鴻蒙微内核，可以實現最終理想上的智能終端分布式系統。鴻蒙OS有三大特點：1、面向未來發展趨勢開發的系統，比谷歌微軟出發點高遠 2023-07-12
科技雄黃可以殺死新型冠狀病毒嗎
1、雄黃為硫化物類礦物，也是一種中藥，主要成分是二硫化二砷（As2S2）[1]。我國民間有端午節擦雄黃、熏雄黃的習俗，認為這樣做有避疫驅邪、殺滅蛇蟲的作用。2、有文獻顯示，雄黃與艾葉、蒼術、白芷一起煙熏對結核杆菌、白喉杆菌、傷寒杆菌等有抑制作用，但并未證明有殺菌作用，并且單用雄黃效果不明顯[2]。目前沒有研究證實雄黃對新型冠狀病毒有殺毒效果。3、已證實能滅活新型冠狀病毒的方法為75%酒精、乙醚、氯 2023-07-12
科技手機為什麼會爆炸
1、電池本身原因。由于電池内部缺陷，電池本身在不充電、不放電的情況下爆炸。2、電芯長期過充。锂電池在特殊溫度、濕度及接觸不良等情況或環境下可能瞬間放電産生大量電流，引發自燃或爆炸。3、短路。這種可能性較小。另外，消費者将手機放在高溫或易燃物品旁，也有可能引起爆炸。 2023-07-12
科技抖音怎麼屏蔽話題或關鍵詞
演示機型：Iphone12&&華為P40&&小米11系統版本：iOS14.4&&EMUI11&&MIUI12.0.7APP版本：抖音16.0.01、首先打開抖音，點擊下面的加号。2、再點擊開直播，開始視頻直播。3、進入直播，點擊右下角的三個點。4、選擇右側的設置。5、點擊設置屏蔽詞，點擊加号。6、添加成功即可。以上内容适用于Iphone12、華為P40、小米11三種機型。抖音：抖音是由今日頭條孵化 2023-07-12
科技刹車扣打法是什麼
1、首先用左手把繩子拿住，成一個U”型；然後用右手拿繩子的上邊繞左手的繩子頭”一圈在向右轉半圈；再把左手下邊的繩子成雙股掏過去挂在車的挂鈎上，用力拉那個活繩子。完成。2、半結。最簡單的一種，拉着繩子的一頭繞個圈，邁過繩子從圈中穿過就成了。3、八字結。拉着繩子的一端繞城一個圓，然後繩頭從繩子下方穿過繞... 2023-07-12
科技租車注意事項有哪些
1、仔細檢查車輛。接車前應該及時查看車輛的基本狀況，對于車輛的瑕疵或者是一些磕碰，一定要提前檢查好，雙反做好登記備查。2、查看車輛保險。我們應該注意查看車輛保險，因為在車輛的正常運行下，是應該有保險的，如果沒有保險，出現情況後果嚴重。3、提前進行試駕。車輛的安全性能是需要我們注意考慮的問題，一定要提... 2023-07-12
科技即熱式飲水機優缺點是什麼
1、優點：加熱迅速。即熱式熱水器它的功率普遍較大一些，在進行使用的時候隻要打開水龍頭幾秒鐘之後他就恩那個實現對水流的加熱，這樣就能有溫度适宜的熱水供應了。2、節能省電。即熱式熱水器在使用時無需提前進行預熱，因此也就沒有預熱時熱量的散失，需要多少熱水就放多少熱水，它沒有儲水式熱水器多加熱的剩餘熱水的能... 2023-07-12
科技散尾葵怎麼養
1、土壤：散尾葵喜歡透氣、排水行好，并且含有豐富的腐殖質的土壤，所以可以用腐葉土和泥炭土混合之後來養，也可以在裡邊加入少來給你的基肥。2、适宜的光照：适宜的光照是散尾葵生長旺盛一個必要的條件，最好給予它散射光的照射，在平時不要接受直射光的照射。3、适宜的溫度：散尾葵喜歡溫暖的環境，溫度最好控制在20... 2023-07-12
科技向日葵遠程黑屏怎麼解決
1、雙擊打開向日葵。2、點擊右上角【菜單】圖标。3、點擊【菜單】裡面的【設置】。4、在【系統設置】界... 2023-07-12
科技寶駿510霧燈型号是什麼
1、寶駿510霧燈燈泡型号，遠光燈H7型号，近光H1型号，霧燈舒适型H3型号，豪華型是H8型号，示寬燈和牌照燈是T10型号。車用後霧燈是指在霧、雪、雨或塵埃彌漫等能見度較低的環境中，為使車輛後方其他道路交通參與者易于發現而安裝在車輛尾部，發光強度比尾燈更大的紅色信号燈。2、裝于汽車前部比前照燈稍低的... 2023-07-12
科技微信無法接收信息的解決辦法是什麼
1、網絡問題：比如WiFi/移動網絡信号不好，可以嘗試切換網絡排除下；比如WiFi不行，試試4G網絡，先看看是否是網絡的問題；2、如果網絡确認沒有問題，那多半是設置有問題，包括手機設置和微信設置，手機設置隻要看看是否為微信開啟了WiFi/移動網絡權限。3、微信設置問題：排除了上面的可能，接下來就需要... 2023-07-12
科技豐田RAV4用什麼型号機油
1、豐田RAV4使用的是自帶的純牌機油5w-40，每5000公裡更換一次。如果想質量好一點的話，采用美孚1号全合成機油，美孚1号機油還可以和任何機油混合。也可以用德國魔力紅的機油。2、美孚1号5W-50是一種100%全合成機油，采用抗磨損專利技術配制而成。即使在嚴酷和苛刻的駕駛條件下，它也能夠提供出... 2023-07-12
科技軟件推廣平台有哪些
1、各大應用市場。首先要發布app應用，在各大手機廠商市場、各大網絡運營商、獨立商店、第三方應用商店、PC下載站、手機WAP站等等進行大範圍的覆蓋，發布的平台越大推廣的效果越好。同時在用戶量大、要求高的平台進行首發活動。2、品牌基礎建設。圍繞app産品進行品牌基礎建設，可在百度百科、360百科建立a... 2023-07-12
科技電子節氣門怎麼清洗
1、要從可靠渠道購買一瓶積碳清洗劑。2、打開前車蓋，找到發動機與氣濾管，将氣濾管靠近發動機一側的發卡螺絲松開，現在你看見的連在發動機上的就是電子節氣門了。3、将清洗劑噴到電子節氣門上，用鹿皮布擦拭，重複操作，可以用棉花棒清理不易擦拭的部位。4、将車鑰匙打到on位置，繼續擦拭，直到裡面黑色物質清洗幹淨... 2023-07-12
科技電腦遠程控制手機
1、方法：手機上安裝“AirDroid”，登陸完成後，即可查看手機短信并支持短信的回複，相應的手機來... 2023-07-12
科技壁挂爐顯示e6什麼原因
1、煙管堵塞解決方法：如果是煙管内部有異物出現堵塞，隻要清理掉堵塞物，把附着在煙管内壁的髒物清除幹淨就可以恢複。2、風壓開關故障解決方法：風壓開關是一個安全裝置，它的作用是檢查煙道有沒有通暢，如果通了就工作，不通它就停止工作，如果它出現故障不管是否暢通都停止工作，就會出現排煙報錯，這時候需要更換風壓... 2023-07-12
科技如何防止玉米空杆
1、選用良種：如果玉米種子内在因素有問題，在播種以後，就無法防治空稈，勢必造成減産。所以，一定要把好選種關。目前，适合各地種植的玉米雜交良種很多，應良中選優，到信譽好的種子部門購買。2、合理密植：玉米種植密度應因地、因肥、因種而定，不可過稀。要保證玉米植株有良好的通風透光條件，滿足玉米棒三葉對光照的... 2023-07-12
科技怎麼養鴨才能賺到錢
1、選擇品種很重要。選擇合适的鴨品種非常重要，一般新奇的品種不一定适應本地氣候，很難養起來，而專業的養殖戶會認真考察本地養殖市場，對比養殖大戶購進鴨苗開展養殖，增強了抗風險能力。2、合理進行分群飼養。根據養鴨子的數量，合理搭建棚舍，面積要足夠，棚舍數量要适當，鴨子要進行分群飼養，控制好密度，以免出現搶食和擠壓現象，造成損傷。不同品種及大小的鴨要分開飼養，否則會出現鴨子生長不均勻的情況。3、注意環境 2023-07-12
科技奇瑞瑞虎7點煙器位置在哪
1、奇瑞瑞虎7點煙器用于方便車主吸煙時點煙的火源。點煙器，就是用來點煙的一個東西。但是我們常說的點煙器又分為從電源裡面取電的那種！2、有的廠家生産的點煙器就不是用來點煙的，隻是用來從汽車上面引電出來的！這種點煙器又叫做雪茄頭。一般來說點煙器主要用于拒絕明火的地方，比如工廠、車間等地方需要點煙，所以隻... 2023-07-12
科技手機進水屏幕有水印怎麼辦
1、将手機能拆解的配件都取出，如記憶卡，手機套、可拆卸的電池等。2、用毛巾把手機表面的水擦幹，避免對手機元件造成二次傷害。3、用吸塵器将手機内部的水汽吸出來，重點對着有水印的屏幕吸取水汽。4、最後将手機放在裝有幹燥生米的袋子裡密封存放吸收剩餘的水汽，直至屏幕的水印消失即可。 2023-07-12
科技自動擋下坡可以挂空擋嗎
1、在《中華人民共和國道路交通安全法》裡面明文規定：汽車下坡時不準空擋滑行和熄火空檔滑行。在考駕照路考的時候所列出的扣分項目中也規定空檔滑行3秒以上，考試不合格。2、當汽車下坡空檔滑行時，由于重力的作用，汽車的速度會逐漸增加，這是非常危險的。為了控制車速，我們就要頻繁的踩刹車，當刹車過于頻繁、超過了... 2023-07-12
科技蘋果手機網絡不好怎麼辦
1、開關飛行模式首先打開飛行模式，然後等待大約5秒後再關閉飛行模式。這樣可以解決信号不好和沒有信号的... 2023-07-12
科技艾瑞澤3保養燈如何手動消除
1、鑰匙插入點火開關。2、用手按住儀表盤上的按鈕。3、鑰匙打到ON檔，等到自檢結束，松開按鈕。4、正常點火啟動，保養提示已消除。 2023-07-12
科技蘋果電腦系統怎麼切換windows系...
演示機型：MacBookPro系統版本：macOS11&&win101、開機時按住Opiton鍵進入磁盤切換，開機或重啟電腦時長按Alt鍵2~3秒會切換畫面。2、選擇windows磁盤啟動，即可切換到windows系統裡。3、已經進入蘋果系統的時候，不用重啟電腦也可以切換到windows系統裡，選擇電腦桌面上的“系統偏好設置”。4、進入“系統偏好設置&rdquo 2023-07-12

tft每日頭條

> 科技

> 如何建立一個推薦系統

如何建立一個推薦系統

相关科技资讯推荐

热门科技资讯推荐

网友关注