最實用的機器學習算法-tft每日頭條

最實用的機器學習算法

生活更新时间:2026-07-14 18:08:20

每天在微信朋友圈，用戶都會或多或少地收到一些廣告推送。有的十分精準，有的卻未必。機器學習是人工智能的一個重要分支，也是未來技術趨勢裡的重要角色。那麼，微信是怎麼做的呢？

本文整理自騰訊機器學習高級研究員易玲玲在ArchSummit 北京 2016的演講。回複關鍵詞「機器」，下載完整版PPT。

Lookalike是做什麼的

基本上所有的互聯網公司都有其廣告投放平台，這是給廣告主投放廣告的一個頁面。廣告主可以通過廣告提交頁面提交自己的廣告需求，後台會給廣告主圈定一部分潛在用戶，這個就是我們稱為Lookalike的模塊。

一般的Lookalike會怎麼來做呢？它會有兩種做法：第一種就是顯性的定位，廣告主根據用戶的标簽直接定位，比如說通過年齡、性别、地域這樣的标簽來直接圈定一部分用戶進行投放。這個時候我們的技術支持就是後台的用戶畫像的挖掘。這其實是廣告主對自己産品的理解，圈出目标用戶。

這種人工定義的方法，可能不夠精準，或者可能通過年齡和地域指定的用戶量很大，需要做精準篩選，這個時候，需要lookalike的第二種做法，通過一個機器學習的模型，來定位廣告主的潛在用戶。

這個問題怎麼轉化成一個機器學習的模型呢？學習樣本是什麼? 優化目标是什麼？此時，廣告主提交一批客戶名單，我們稱之為種子用戶，它作為機器學習的正樣本。負樣本我們會從非種子用戶，或者是說平台會積累曆史的一些相似的廣告作為負樣本，這個問題就轉化為一個二分類的模型，正負樣本組成學習的樣本，訓練模型之後，利用模型結構對活躍用戶進行打分，最後得到廣告主需要的目标人群。

最實用的機器學習算法（當機器學習遇上複雜網絡）1

回顧一下這個流程，廣告主會提供他已有的客戶名單作為種子用戶，這是機器學習的正樣本，然後會從活躍用戶裡面（非種子用戶）或者曆史我們已經積累了相似的廣告負反饋的用戶，作為負樣本，訓練一個二分類的模型，利用模型結果對這個用戶進行打分排序，取出廣告主需要的目标數據的用戶。

對于特征和模型算法，不同的公司各有差異：特征取決于公司有哪些數據；在模型算法上，Facebook 和Google對外公布的說法就是一個預測模型，Yahoo發表過幾篇論文，詳細介紹過它的算法，比如LR，Linear SVM，GBDT都有嘗試，論文裡面提到的是GBDT的效果比較好。下圖列出了不同公司的做法，供大家參考。

最實用的機器學習算法（當機器學習遇上複雜網絡）2

微信社交Lookalike是怎麼做的

微信朋友圈的廣告怎麼進行潛在用戶的定位呢？顯然，我們也可以把它轉化成二分類的預估模型來做。然而有沒有一個更好的思路呢？我們可以從微信朋友圈廣告這個問題本身先做一些探索分析。

微信朋友圈的廣告和其他的廣告平台差異點在哪裡？下圖是微信朋友圈的廣告形式，比如萬科投廣告，我們會以他的公衆号在用戶的朋友圈裡出現。

最實用的機器學習算法（當機器學習遇上複雜網絡）3

如果我和我的朋友同時收到這個廣告的時候，它會形成用戶之間的互動。大家也可以回想一下，大家有沒有因為某個好朋友對一個廣告進行了點贊或者評論，而引起你對這個廣告的關注呢？其實很多時候都會的。

我們再看看數據，大家可以看下面的數據圖表，這個橫軸是與廣告進行互動的好友個數，縱軸是用戶對廣告的關注率（包括查看，點贊或者評論），我們發現這個關注率會随着好友數的增加而上升。這個數據拐點差不多是3到5個好友。我們再深入思考一下這個數據背後的原因，為什麼會出現這種數據的相關性？因為我和好友有相同愛好？因為朋友評論了廣告我才關注？

最實用的機器學習算法（當機器學習遇上複雜網絡）4

實際上，這兩個方面就是社交關系數據的兩個核心價值，也就是社交同質性和社交影響力。這正是網絡科學研究界的學者給出來的比較嚴謹的定義。

同質性說得更容易理解一點，就是相似性，我們跟好友可能會有興趣的相似，或者我們同一個行業我們有行業背景的相似，我們才會形成好友。比如拿廣告投放來說，廣告主給了我客戶名單即種子用戶，是不是我種子用戶的好友也會喜歡這個廣告？

另一個維度就是影響力，影響力說的是我的行為會受到好友的影響。那這個點投放到朋友圈廣告上，我可以看到朋友對廣告的反饋，會受到他的影響。

所以說做朋友圈廣告，我們重點會挖掘這兩個價值，就是社交同質性和社交影響力。

講到這裡，再回到我們的問題，怎麼給廣告主挖掘潛在用戶？基于廣告主給出的客戶名單，是不是可以做一個這樣的嘗試：找這批廣告主的好友作為潛在用戶，一就是社交相似性，二在微信朋友圈這樣一個投放平台，同用戶之間的行為會因為社會影響而形成傳播，即微信社交Lookalike的基本思想。

那麼，另一個問題又來了。社交同質性、影響力如何量化？當種子用戶的好友非常多的時候，如何對好友進行排序選擇？家人排前面？閨蜜排前面？還是同學、同事排在前面？人工規則強依賴于業務經驗，那我們能不能利用機器學習的方法對社交相似度進行量化呢？

我們通過曆史投放的廣告采集到學習樣本，比如說我的好友有400多個，對于有一部分好友我跟他曆史上有同時曝光到一些廣告，這些好友我可以計算出我跟他的廣告相似度，就等于共同點擊的廣告數除以共同曝光的廣告數。而剩餘的好友，曆史上沒有共同曝光過廣告。那我們有其他領域的數據，比如說我跟他的親密關系，浏覽或者閱讀文章等興趣相同點，能否通過這些社交的行為數據，預測到我跟他在廣告上的喜好度？

回看我們的網絡數據，比如我們的好友關系網絡，文章閱讀轉發網絡等等特征工程，我們怎麼從網絡數據做這個特征工程？

機器學習的輸入一般是向量或者說矩陣，圖結構特征表達，可不可以用一個降維的方法把圖裡面的節點表達成一個隐空間的向量，在NLP也會把詞表達成一個向量，這是14年谷歌發布的一個Wodrd2Vec的算法包，将一個單詞embedding為一個項目，這個是結果。

如何把圖結構切入一個向量？從Wodrd2Vec到node2vec，詞裡面單詞的詞頻分布，它是幂律的，有些常用詞出現的頻率非常高，尾巴上的詞出現的頻率比較低。

實際上在一個社交網絡的節點也是這樣的，我們經常會存在一些大的節點，他會有非常多的好友，有的人好友就達不到那麼多。所以說其實在社交網絡裡面的一個節點的分布也是幂律分布。如何把Wodrd2Vec遷移到node2vec，這個時候就要産生一個節點的序列，它對應到了自然語言處理的一條句子，圖結構裡面的節點相當于NLP的一個單詞。

所以在圖網絡上按照一個搜索的方法生成節點序列，這個節點的序列可以對應到自然語言的一個句子，後面我們通過Wodrd2Vec的框架，将節點embedding為一個向量。所以對于做network embedding的時候，這個生成節點序列的搜索策略非常重要。最簡單的一個方法，就是随機遊走，随機遊走一方面生成節點序列，另一方面也是對圖的一種采樣，降低了計算量。

我們說社交數據最重要的特征就是社交的同質性。所以說我們在network embedding的時候，把社交同質性這個特征保留下來。我們結合網絡的社團性質對随機遊走的算法進行調整，比如說A節點走到C，再走到E的時候，它再往下走，這邊就相當于它會走到另外一個社團。它設置了一個節點P和Q，P大的時候它是往回走，因為社交網絡的特征會形成這樣的社團性。

比如說我們的一個社交網絡，我的同學會形成一個社團，設計這個P往回走，就更容易走到我這個群體。當P越大，它會越能體現同質性。Q越大的時候，它其實能夠體現這種結構的相似性，不同的節點有不同的作用。比如說F節點和E節點它是連接這兩個社團的橋接點。當Q大的時候，它體現的是網絡結構的相似性。這時候我們怎麼選P和Q？這個可以根據實際任務進行半監督的學習。

最實用的機器學習算法（當機器學習遇上複雜網絡）5

再回顧一下剛才我們說的Node2vec的流程，首先通過有偏随機遊走，生成一個節點序列，後面是word2vec的算法框架得到這個節點的向量表達。其中的參數調優，根據我們保留的同質性，或者根據實際的任務進行調參。

給大家看一下node2vec的結果，先給大家看這個算法的輸出。這裡有一個簡單的圖，做embedding之後的結果，1和2的節點向量是一樣的，它會是重疊的一個向量，3、4、5、6也是一個重合的節點，它表達的是什麼呢？為什麼1和2完全重疊？其實1和2的網絡環境是一模一樣的，這個embedding的結果表達是是節點的社交網絡環境，也就是我們說的拓撲特征。

最實用的機器學習算法（當機器學習遇上複雜網絡）6

我們做node2vec還會有其他什麼好處呢？以好友溝通網絡為例，我有120個好友，實際上我溝通網絡并不會跟那麼多好友經常聊天，也就是說這個數據非常稀疏，在node2vec的輸出結果上再計算親密度，其實我跟所有好友的親密度都是可以計算出來的。第一個帶來的好處就是解決數據的稀疏性的問題。另外，這個結果具有穩定性。

對于溝通網絡，比如說，我跟一些好友溝通可能是事務性的，不能表達親密度的。比如一些客戶，或者服務中介等，因為我跟他沒有形成社交圈，在做embedding的時候，産生序列的鄰居共現次數比小，embedding出來的結果就是這些人員在親密度排序上會排在後面，而相對來說，真實關系緊密的，比如親人，閨蜜，同學，同事會比較穩定的排在前面。

對社交相似性的學習框架，大家可以看下面的圖。我們建立一個回歸的model。現在做的是SVR模型。輸入好友網絡，溝通網絡、文章的轉發閱讀網絡等等，進行embedding得到特征向量表達，通過SVR模型，學習到這些特征和廣告相似度的函數關系。這個函數關系計算出好友相似度，可以對好友進行排序。

最實用的機器學習算法（當機器學習遇上複雜網絡）7

我們看一下算法的效果。我們評估算法的效果，最直接的就是說我有多個算法，廣告主需要100萬的用戶，我這幾個算法都給出100萬用戶，然後看一下這100萬的用戶點擊量是怎麼樣的，我們叫Lift值。其他的算法跟它進行對比，看一下它的效果有沒有提升。那我們的算法相比直接的二分類模型有2倍-3倍的lift。

最實用的機器學習算法（當機器學習遇上複雜網絡）8

寫在最後

本次主要介紹了社交Lookalike的探索性的分析，社交的同質性和影響力，并重點分享了社交同質性量化問題。後面我們希望把Lookalike系統做成一個動态的，比如我為某個好友點贊，下面我需要推送的人是我的好友，我能影響到那些好友。把這個社交影響力進行量化，并且結合到廣告投放裡面去。假如說用戶能夠形成主動傳播廣告，這樣的話它是一個非常好的局面，相當于用戶自助的對廣告進行口碑的傳播。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活河南香酥糟魚
去過商丘，了解商丘的人都知道，商丘城有大湖。古城商丘，黃河古道和城内大湖的作用下，其實，就催生了靠山吃山靠水吃水的小吃兒。糟魚就是這個原因産生的，很有點得魚水之歡，享人間口福的意思。糟魚吃法很簡單，加熱後就可以吃。褐色魚皮下的魚肉，緊而白... 2023-01-15
生活常見醒酒方法
常見醒酒方法?糖水解酒解酒可以利用糖水，直接取适量的白糖，然後用開水沖服即可，飲用後可以解酒醒腦，下面我們就來說一說關于常見醒酒方法?我們一起去了解并探讨一下這個問題吧!常見醒酒方法糖水解酒解酒可以利用糖水，直接取适量的白糖，然後用開水沖服... 2022-07-10
生活岑參生平故事
時間：唐玄宗李隆基天寶十三年，也就是公元754年，此時還沒有爆發導緻唐朝由盛而衰的安史之亂。這時的唐朝依舊是繁榮的盛世局面，全國人口已達八千萬，除了國力非常強盛外，大唐的商業也非常發達，商業造就的繁華都市也很多。地點：涼州，此時的涼州已經是... 2023-01-03
生活從一分耕耘一分收獲談人生發展
幼兒園今天過元旦，老師說大家都帶一些零食過來，小朋友可以一起分享着吃。我去超市買了一堆，各種各樣的都給孩子裝了一些。孩子的爸說我裝的太多了，哪能吃得了那麼多。我想着好吃的肯定都愛吃，大不了吃不了再拿回來。元旦是個喜慶的日子。因為疫情已經很久... 2023-01-26
生活蓓蕾少兒美術培訓活動注意事項
“陽光美育”是渭南市群衆文化藝術培訓學校為少年兒童精心打造的文化藝術培訓項目，截至今年已累計有千餘名孩子參加了培訓。2022年陽光美育暑期少兒培訓班開始招生，歡迎适齡兒童踴躍報名。一、報名時間2022年7月4日—7月10日（9:00—17:... 2023-04-03
生活這幾種觀賞魚比較難以飼養
各位魚友大家好，我是養魚老道，更多觀賞魚飼養、繁育實踐知識，敬請大家關注！為什麼養魚老道的魚缸空缸放置了那麼長的時間，我也不着急去購買觀賞魚，而在近期才開始逐步購買？很簡單的道理，就是始終沒有碰到我自己能夠中意的觀賞魚，這個中意至少要符合以... 2023-02-09
生活信不信有譚小環在
最近很火的綜藝自然是《無限超越班》，在這檔綜藝裡我們看到很多久違的TVB演員的身影，其中就有52歲的張可頤。坦白講，當小編聽到張可頤52歲的時候，還是大吃一驚，英氣幹練的短發，白皙的皮膚，整個人發光發亮，說她三十出頭，也沒人會懷疑的。選秀是... 2023-03-05
生活什麼是他山之石可以攻玉
在古代流傳下來的詩詞名句有很多，但是中國曆史經過了上下五千年的流轉，朝代的更替，在曆史長河中，在詩詞成語的流傳過程中，如果不小心誤傳了一個字，或者是傳錯了意思，那可就大錯特錯了。例如，有個成語叫"無奸不商"，明明本來就是&#... 2023-02-15
生活鋁合金切削液哪裡有
鋁合金在物理功能上與大部分鋼材和鑄鐵材料相比，具有許多明顯的特點。純鋁強度低，硬度低、塑性大，适合于塑性成型加工，但切削加工時變形強化傾向大，易粘刀，很難加工出光潔的外表。鋁合金在強度、硬度與純鋁相比進步許多，但與鋼材相比強度與硬度低，切削... 2023-03-05
生活學校食品安全問題怎麼辦
俗話說得好，民以食為天。從古至今，中國人每逢見面就習慣以一句“吃了嗎”作為友好寒暄的開頭，哪怕是走在熱鬧的大街小巷，滿街飄香的飯菜味也是出自我們對美食的寄托。國人對“吃好、喝好”的執念程度可見一斑，而對食品原料的幹淨衛生的把控，就更是基本要... 2023-03-30
生活女性胸椎側彎的危害
女性胸椎側彎的危害?脊柱側彎是臨床上不是非常常見的一個疾病，但是可以是給病人帶來嚴重的生活上和工作上等等方面的影響脊柱側彎往往是進展性的，影響頸椎、胸椎、腰椎，由于脊柱的生長不對稱，可以出現胸廓和骨盆的變形，下面我們就來聊聊關于女性胸椎側彎... 2022-06-05
生活火影忍者曉組織十大實力排名
“曉”，日本漫畫《火影忍者》及其衍生作品中的一個秘密組織。成員身穿繡着紅雲的黑色風衣，頭戴系着風鈴的鬥笠，相應手指佩戴标有自己代号的戒指（右手大拇指到左手大拇指依次為：零、青、白、朱、玄、空、南、北、三、玉），指甲塗有指甲油，護額上有一道劃... 2023-03-01
生活欣妤名字的意思
欣妤名字的意思?欣妤名字的意思：歡欣、美麗欣指歡欣、喜悅，後引申指愛戴，又由此引申指賞慕，引證：鄒韬奮《萍蹤寄語》七五：“我們在這可愛的女孩的音容笑貌上看得出她心裡的欣悅和自豪的情緒”，今天小編就來聊一聊關于欣妤名字的意思?接下來我們就一起... 2022-06-21
生活貧困戶對學校的感謝信怎麼寫
自貢網訊（記者曾鵬程黃鴻）今年6月，富順縣琵琶鎮人民政府收到一份來自河南理工大學的感謝信，寫信者是該校大四學生、琵琶鎮青峰村9組貧困學生田德才。“今年是打赢脫貧攻堅戰的收官之年。在此之際，我懷着萬分感激之情寫下這封信，希望能夠借着這封信感謝... 2023-03-11
生活可惜沒如果表達什麼意思
可惜沒有如果，人生無法重來，有的遇見成了過錯，有的不見成了錯過，失去的總是美好，得到的卻不珍惜。這個世上最難吃到的藥是後悔藥，後悔沒有早一點明白，後悔沒有早一點遇見，假如當初勇敢一點，假如曾經努力一點，也許現在就不會有後悔的可能，可是，誰又... 2023-03-13
生活地獄傳送門要幾個黑曜石
自從lol推出傳送門活動後，許多小夥伴在傳送門裡獲得了許多的皮膚。而傳送門又是分為兩部分的，一部分是傳送門，一部分是符石，而打開傳送門需要的是符石，就相當于傳送門是箱子，而符石是鑰匙；一個符石開一個傳送門。至于傳送門和符石的獲取途徑是，隻要... 2022-12-28
生活香菜最容易生什麼病
我不是厭惡香菜的人（事實上，我喜歡它），但我對另一種蔬菜"芹菜"确實存在嚴重問題。我非常讨厭它,甚至不能把它放在我的冰箱裡。因為我甚至無法忍受打開冰箱門，并聞到它可怕的氣味。我對芹菜有強烈的厭惡，以至于我可以完全與那些讨厭香菜的人聯系在一起... 2023-02-24
生活溫故而知新誰提出的
第一局回顧：第1題唐代詩人杜甫詩歌風格多樣，但最主要的風格還是“（）”正确答案：沉郁頓挫唐代詩人杜甫詩歌風格多樣，但最主要的風格還是“沉郁頓挫”。“沉郁”主要是指感情深沉蒼涼、境界開闊壯大；“頓挫”則指語言剛健、音調铿锵和章法多變。第2題蘋... 2023-04-04
生活貝索斯成為世界首富嗎
美東時間7月20日9時12分，世界首富、亞馬遜創始人傑夫·貝索斯乘坐藍色起源公司自主研發的太空艙，由該公司自主研發的火箭從得克薩斯州範霍恩“一号發射場”發射升空，進入距離地面66英裡的太空，體驗了4分鐘失重狀态。傑夫·貝索斯（左二）、傑夫的... 2023-01-18
生活撒貝甯的妻子李白身高年齡
新京報訊12月15日，撒貝甯的妻子李白在社交媒體發文證實産下龍鳳胎，她寫道，“12月10日，我們在這個世界迎來了兩顆小星星，我們的心永遠屬于你們。”此前，李白曾在社交媒體上曬圖，證實孩子為一男一女。李白是加拿大人，曾經是“五洲唱響”組合成員... 2023-02-21
生活 dnf白嫖五一套完整操作
體驗服已經實裝了有關兌換春節時裝的内容。據目前的版本來看，兌換一套春節套需要75個困難領主的材料。而挑戰困難領主一次需要30點PL，每次僅掉落一個。少部分歐洲狗可以獲得直接在副本掉落一套的特權。以188PL來計算，單角色一天最多可以獲得6個... 2023-03-01
生活這個季節必備清單
氣溫回升你家開始洗洗曬曬了嗎？随着天氣回暖冬裝已經完成使命，退出舞台近些天的晴暖天氣最适合洗曬收藏冬衣冬被了雖說隻是洗淨、曬幹、入櫃六個字但其中的學問可大着呢小鯉特地為大家夥兒整理了《換季洗護攻略》趕緊點贊、收藏起來吧~(一)衣物洗護1、毛... 2022-11-28
生活剛認識的女生該怎麼聊不尴尬
昨天有個小老弟問我：“剛認識了一個女生，該怎麼聊才能快速打開話題，又能避免讓對方感覺不舒服呢？”這裡晨哥就給大家支3招：1、用陳述句代替疑問句打開話題對于剛認識的女生，很多人下意識的開場都是：你住哪兒啊？你喜歡吃什麼啊？你平時都幹些啥啊？一... 2023-01-27
生活香奈兒chanel耳飾
記者|羅天奕編輯|樓婍沁CHANEL2021春夏新品發箍時尚的小心機往往體現在各種配飾小細節上，各大品牌也紛紛在配飾上推陳出新。香奈兒2021春夏系列中的頭飾新品就頗為亮眼，除了此前推薦過的多功能發帶外，香奈兒的新品發箍也非常百搭且體現品味... 2023-03-25
生活他山之石可以攻玉類似的句子
他山之石可以攻玉類似的句子?鶴鳴于九臯，聲聞于野魚潛在淵，或在于渚，今天小編就來說說關于他山之石可以攻玉類似的句子?下面更多詳細答案一起來看看吧!他山之石可以攻玉類似的句子鶴鳴于九臯，聲聞于野。魚潛在淵，或在于渚。樂彼之園，爰有樹檀，其下維... 2023-02-15
生活 nsx賽車測評
發行商Nacon宣布最新一期“Naconconnect”發布會将于北京時間7月8日淩晨1點舉辦，展出内容包括《無限試駕太陽王冠》首個實機演示、《魔戒咕噜》、《機械戰警惡棍之城》等17款遊戲，其中5款還尚未對外公開。相關新聞：《無限試駕太陽... 2023-01-09
生活華翔手機号主卡和副卡是什麼意思
上一期我們介紹了華翔聯信的公司、購卡方式、購卡流程、套餐内容等，咱們購買的霸王龍套餐卡到貨了，這期咱們介紹一下如何開卡激活。華翔聯信激活流程：第一步、首先打開微信，進入華翔聯信公衆号；第二步、在公衆号裡底部找到辦理，點擊進入，點擊号碼激活；... 2023-02-13
生活陳華森區長
福建省三明市有兩張靓麗名片：革命老區和精神文明城市。這裡，敢為人先、依靠群衆、創新争先的精神一直延續至今，凝聚起磅礴奮進力量，激勵着一代又一代老區人民砥砺前行。三明市應急管理局辦公室主任陳華森，就是這片紅土地上的一張“應急名片”。作為一名從... 2023-01-17
生活壁挂飲水機怎麼清理熱水口
導語：如今，人們對飲用水的需求越來越高，許多人在家裡買水喝，但是許多人忽視了一個非常重要的問題，那就是家用壁挂飲水機的清潔。家用壁挂飲水機在使用一段時間後需要清洗和維護。所以家用壁挂飲水機的清潔問題是值得關注的。那麼，大家知道家用壁挂飲水機... 2023-02-01
生活康姿百德磁性床墊
康姿百德磁性床墊?兒童床墊的好壞對于寶寶的健康發育有非常重要的影響寶寶在兒童發育時期，在床上睡覺的時間明顯多于活動的時間，而且此時的寶寶各方面身體機能顯著發育的時期，兒童床墊的好壞直接關系着孩子的脊椎健康和睡眠質量，我來為大家科普一下關于康... 2023-01-23

tft每日頭條

> 生活

> 最實用的機器學習算法

最實用的機器學習算法

相关生活资讯推荐

热门生活资讯推荐

网友关注