機器學習數據标簽特征-tft每日頭條

機器學習數據标簽特征

科技更新时间:2025-08-13 08:07:57

Google Rephil是Google AdSense背後廣告相關性計算的頭号秘密武器。但是這個系統沒有發表過論文。隻是其作者（博士Uri Lerner和工程師Mike Yar）在2002年在灣區舉辦的幾次小規模交流中簡要介紹過。所以Kevin Murphy把這些内容寫進了他的書《Machine Learning: a Probabilitic Perspecitve》裡。在吳軍博士的《數學之美》裡也提到了Rephil。

Rephil的模型是一個全新的模型，更像一個神經元網絡。這個網絡的學習過程從Web scale的文本數據中歸納海量的語義——比如“apple”這個詞有多個意思：一個公司的名字、一種水果、以及其他。當一個網頁裡包含”apple”, “stock”, “ipad”等詞彙的時候，Rephil可以告訴我們這個網頁是關于apple這個公司的，而不是水果。

這個功能按說pLSA和LDA也都能實現。為什麼需要一個全新的模型呢？

從2007年至今，國内外很多團隊都嘗試過并行化pLSA和LDA。心靈手巧的工程師們，成功的開發出能學習數萬甚至上十萬語義（latent topics）的訓練系統。但是不管大家用什麼訓練數據，都會發現，得到的大部分語義（相關的詞的聚類）都是非常類似，或者說“重複”的。如果做一個“去重”處理，幾萬甚至十萬的語義，就隻剩下幾百幾千了。

這是怎麼回事？

如果大家嘗試着把訓練語料中的低頻詞去掉，會發現訓練得到的語義和用全量數據訓練得到的差不多。換句話說，pLSA和LDA模型的訓練算法沒有在意低頻數據。

為什麼會這樣呢？因為pLSA和LDA這類概率模型的主要構造單元都是指數分布（exponential distributions）。比如pLSA假設一個文檔中的語義的分布是multinomial的，每個語義中的詞的分布也是multinomial的。因為multinomial是一種典型的指數分布，這樣整個模型描述的海量數據的分布，不管哪個維度上的marginalization，都是指數分布。在LDA中也類似——因為LDA假設各個文檔中的語義分布的multinomial distributions的參數是符合Dirichlet分布的，并且各個語義中的詞的分布的multinomial distributions的參數也是符合Dirichlet分布的，這樣整個模型是假設數據是指數分布的。

可是Internet上的實際數據基本都不是指數分布的——而是長尾分布的。至于為什麼是這樣？可以參見2006年紐約時報排名暢銷書The Long Tail: Why the Future of Business is Selling Less of More。或者看看其作者Chris Anderson的博客The Long Tail。

長尾分布的形狀大緻如下圖所示：

機器學習數據标簽特征（分布式機器學習的故事）1

其中x軸表示數據的類型，y軸是各種類型的頻率，少數類型的頻率很高（稱為大頭，圖中紅色部分），大部分很低，但是大于0（稱為長尾，圖中黃色部分）。一個典型的例子是文章中詞的分布，有個具體的名字Zipf’s law，就是典型的長尾分布。而指數分布基本就隻有大頭部分——換句話說，如果我們假設長尾數據是指數分布的，我們實際上就把尾巴給割掉了。

割掉數據的尾巴——這就是pLSA和LDA這樣的模型做的——那條長尾巴覆蓋的多種多樣的數據類型，就是Internet上的人生百态。理解這樣的百态是很重要的。比如百度和Google為什麼能如此賺錢？因為互聯網廣告收益。傳統廣告行業，隻有有錢的大企業才有财力聯系廣告代理公司，一幫西裝革履的高富帥聚在一起讨論，競争電視或者紙媒體上的廣告機會。互聯網廣告裡，任何人都可以登錄到一個網站上去投放廣告，即使每日廣告預算隻有幾十塊人民币。這樣一來，劉備這樣織席販屢的小業主，也能推銷自己做的席子和鞋子。而搜索引擎用戶的興趣也是百花齊放的——從人人愛戴的陳老師蒼老師到各種小衆需求包括“紅酒木瓜湯”（一種豐胸秘方，應該出豐胸廣告）或者“蘋果大尺度”（在搜索範冰冰主演的《蘋果》電影呢）。把各種需求和各種廣告通過智能技術匹配起來，就醞釀了互聯網廣告的革命性力量。這其中，理解各種小衆需求、長尾意圖就非常重要了。

實際上，Rephil就是這樣一個能理解百态的模型。因為它把Google AdSense的盈利能力大幅提升，最終達到Google收入的一半。兩位作者榮獲Google的多次大獎，包括Founders’ Award。

而切掉長尾是一個很糟糕的做法。大家還記得小說《1984》裡有這樣一個情節嗎？老大哥要求發布“新話”——一種新的語言，删掉自然英語中大部分詞彙，隻留下那些主流的詞彙。看看小說裡的人們生活的世界，讓人渾身發毛，咱們就能體會“割尾巴”的惡果了。沒有看過《1984》的朋友可以想象一下水木首頁上隻有“全站十大”，連“分類十大”都删掉之後的樣子。

既然如此，為什麼這類模型還要假設數據是指數分布的呢？——實在是不得已。指數分布是一種數值計算上非常方便的數學元素。拿LDA來說，它利用了Dirichlet和multinomial兩種分布的共轭性，使得其計算過程中，模型的參數都被積分給積掉了（integrated out）。這是AD-LDA這樣的ad hoc并行算法——在其他模型上都不好使的做法——在LDA上好用的原因之一。換句話說，這是為了計算方便，掩耳盜鈴地假設數據是指數分布的。

實際上，這種掩耳盜鈴在機器學習領域很普遍。比如有個兄弟聽了上面的故事後說：“那我們就别用概率模型做語義分析了，咱們還用矩陣分解吧？SVD分解怎麼樣？” 很不好意思的，當我們把SVD分解用在語義分析（稱為LSA，latent semantic analysis）上的時候，我們還是引入了指數分布假設——Gaussian assumption或者叫normality assumption。這怎麼可能呢？SVD不就是個矩陣分解方法嗎？确實傳統SVD沒有對數據分布的假設，但是當我們用EM之類的算法解決存在missing data的問題——比如LSA，還有推薦系統裡的協同過濾（collaborative filtering）——這時不僅引入了Gaussian assumption，而且引入了linearity assumption。當我們用其他很多矩陣分解方法做，都存在同樣的問題。

掩耳盜鈴的做法怎麼能存在得如此自然呢？這是因為指數分布假設（尤其是Gaussian assumption）有過很多成功的應用，包括通信、數據壓縮、制導系統等。這些應用裡，我們關注的就是數據中的低頻部分；而高頻部分（或者說距離mean比較遠的數據）即使丢掉了，電話裡的聲音也能聽懂，壓縮還原的圖像也看得明白，導彈也還是能沿着“最可能”靠譜的路線飛行。我們當然會假設數據是指數分布的，這樣不僅省計算開銷，而且自然的忽略高頻數據，我們還鄙夷地稱之為outlier或者noise。

可是在互聯網的世界裡，正是這些五花八門的outliers和noise，蘊含了世間百态，讓數據不可壓縮，從而産生了“大數據”這麼個概念。處理好大數據的公司，賺得盆滿缽滿，塑造了一個個傳奇。這裡有一個聽起來比較極端的說法大數據裡無噪聲——很多一開始頻率很低，相當長尾，會被詞過濾系統認為是拼寫錯誤的queries，都能後來居上成為主流。比如“神馬”，“醬紫”。

Rephil系統實現的模型是一個神經元網絡模型（neural network）。它的設計的主要考慮，就是要能盡量好的描述長尾分布的文本數據和其中蘊含的語義。Rephil模型的具體技術細節因為沒有在論文中發表過，所以不便在這裡透露。但是Rephil模型描述長尾數據的能力，是下文将要介紹的Peacock系統的原動力，雖然兩者在模型上完全不同。

Rephil系統是基于Google MapReduce構建的。如上節所述，MapReduce在用來實現叠代算法的時候，效率是比較低的。這也是Peacock要設計全新框架的原動力——使其比MapReduce高效，但同時像MapReduce一樣支持fault recovery。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技 bv電線與byj的區别（介紹BYJ布...
　　介紹BYJ布電線常見的型号規格　　電線按主要用途分特種電纜和絕緣電纜(布電線)，而布電纜線依據特點作用不一樣分為阻燃性型、防火型和低煙無鹵型，又稱之為環境保護電纜線，說到環境保護電纜線就非BYJ莫屬了，應用性十分強，備受很多客戶親睐。今天，粵佳信電線電纜小編給大家簡單介紹BYJ布電纜線常見的幾類型号規格及規格型号。　　　　B：布電纜線　　YJ：高... 2023-07-07
科技微信昵稱設置字體變大
1、先打開手機桌面上的“微信”，點頁面右下角的“我”2、接着在“我”頁面，點“設置”。3、再接着就是... 2023-07-07
科技什麼是磁導率
1、磁導率，英文名稱：magneticpermeability，表征磁介質磁性的物理量。2、表示在空... 2023-07-07
科技蘋果x為什麼比xr貴
1、XR是針對雙卡用戶定制的廉價版，用蘋果史上最強的續航，閹割了3DTOUCH，采用720PLCD屏... 2023-07-07
科技小型點焊機的關鍵技術是什麼（鴻栢科技...
　　點焊機在機械制造行業使用相當廣泛的一種焊接設備，不知道大家對點焊機了解多少，下面鴻栢科技給大家分享一下點焊機的工作原理是怎樣的，大家都一起來學習一下吧。　　　　懸挂一體點焊鉗　　點焊機的工作原理　　點焊的工藝過程為開通冷卻水;将焊件表面清理幹淨，裝配準确後，送入上、下電極之間，施加壓力，使其接觸良好;通電使兩工件接觸表面受熱，局部熔化，形成熔核;... 2023-07-07
科技戴爾電腦開機黑屏怎麼辦
1、電量不足：連接電源。等待一會即可重新開機。2、顯卡故障：更換顯卡，如果筆記本支持外接顯示器的話，... 2023-07-07
科技手機怎麼拍出照片
1、先找到我們手機上的相機功能,找到之後點擊相機，點擊拍攝就可以拍出照片了。2、想要拍的好看，也可進... 2023-07-07
科技如何給硬盤分區
1、首先鼠标右鍵單擊桌面“此電腦”-選擇“管理”。2、進入計算機管理頁面點擊存儲-磁盤管理。3、鼠标... 2023-07-07
科技神佑釋放主機版跟pc區别（神佑釋放主...
　　Round8免費網遊《神佑釋放》在主機平台運營兩年多之後，将于今年年底正式停服。在遊戲11月停止運營之前，遊戲貨币銷售和内置道具銷售都會受到影響。　　　　《神佑釋放》服務器将于11月30日關閉。PS4版遊戲中的主要貨币Lumena和“其它道具”已于9月1日從PS商店下架。賬戶裡還有Lumena的玩家可以在遊戲商店裡繼續購買道具，所有商品均标價1 Lu... 2023-07-07
科技天語手機創始人（天語手機創始人榮秀麗...
　　縱觀國産機的大佬們：華為（任正非）、小米（雷軍）、OPPO（陳明永）、Vivo（沈炜）、魅族（黃章）等等，一目了然——這是男人們的江湖。　　　　但這江湖中偏偏出了東方不敗，曾經山寨霸主、國産機王天語手機的創始人：榮秀麗。　　　　這個女人曾3年狂賺60億，完虐華為，榮登中國富豪榜第11位，江湖人稱【功能機教母】。　　混迹男人堆，開了十年拖拉機榮秀... 2023-07-07
科技支付寶集五福怎麼打年獸添福氣
1、手機裡找到支付寶APP，過福年支字藍标，點擊進入；2、進入支付寶首頁，紅色界面喜氣洋洋，點擊上方... 2023-07-07
科技蘋果手機怎麼設置手寫
1、首先點擊手機裡面的設置選項，進入到用戶設置頁面。2、在設置裡面點擊通用選項進入到下一個頁面。3、... 2023-07-07
科技紅米5新機百元機（紅米千元全面屏測評...
　　去年年底小米發布了兩款僞全面屏手機，即紅米5和紅米5 Plus，因為手機定位的關系，直接将價格定在了799起步，為千元全面屏系列。　　　　毫無疑問，全面屏手機開啟了血拼時代，那麼問題來了，作為雙胞胎的兩款手機，有什麼差别呢？　　屏幕：　　要說最大的差别，就是紅米5和紅米5 Plus兩款手機的屏幕，分别采用，5.7和5.99英寸屏幕，使得兩款手機... 2023-07-07
科技守門人内容（内容魚龍混雜）
　　原标題：低俗、惡搞、推銷三無産品……視頻内容魚龍混雜平台如何做好“守門人”？　　中國網絡視聽節目服務協會發布的《2019中國網絡視聽發展研究報告》顯示，2018年中國短視頻市場規模達467.1億元，同比增長744.7%，短視頻用戶規模達6.48億。業内人士預測，到2020年，國内短視頻行業的總日活躍用戶數量達到10億。随着各大視頻平台的蓬勃發展，視頻... 2023-07-07
科技密度計原理
1、地球的重力将物體拉向地面，但是如果将物體放在液體中，浮力将會對它産生反方向的作用力。浮力的大小等... 2023-07-07
科技目前用在筆記本上最好的顯卡（又要威又...
　　要想用筆記本玩吃雞或者3A大作，最佳的選擇當然是選擇GTX1070獨顯的強勁遊戲本。　　　　現在的高性能遊戲本，基本上可以和中端的遊戲主機性能持平，甚至某些發燒級别的遊戲本，一樣有雙顯卡的配置。對于高端遊戲玩家來說是不錯的選擇。　　　　然而，選擇商務本，超級本的朋友會更多。這一類的本本，一般顯卡也就是MX150左右的水準甚至更低。　　吃雞？基本... 2023-07-07
科技水印太煩人怎麼處理（水印太煩人）
　　　　很多時候，我們出于收藏、創作、發布等需求，想要對已收集來的素材（圖片、視頻）進行去水印的處理。常見的需要去水印的情況有：無版權或公共版權的圖片被加上發布者的水印、用剪輯軟件自行創作的視頻被帶上了軟　　件水印、可供合法二次創作的正版視頻被帶上發布平台的水印、以及符合 cc 協議的非商用圖片上被加了水印。　　水印的存在不僅影響整體的美感和氛圍，更有... 2023-07-07
科技怎麼解除微信零錢限制
1、打開手機微信進入我的頁面，點擊支付，點擊右上角三個點圖标并選擇扣費服務，查看有無扣費服務，有則關... 2023-07-07
科技黑種人為什麼比黃種人大
1、黑人他們之所以比黃種人強壯，主要有飲食鍛煉身體上生長環境等等各方面原因所造成的。所以在我們很多人... 2023-07-07
科技 ipad電池不耐用怎麼辦
1、遠離陽光不管什麼情況下，都不要把你的iPad放在太陽底下暴曬，熱量對電池的影響超過其他任何因素;... 2023-07-07
科技網絡黑客修改ip地址（變更IP地址修...
　　許多網絡電商平台為了吸引新用戶下載使用　　會推出一系列獎勵機制　　而在被告人徐某某的眼中　　這些獎勵機制有可乘之機　　可以用來“薅羊毛” 　　騙取人民币　　徐某某的工作室在一年多的時間裡　　共騙取人民币25萬餘元　　　　圖說：被告人發布的“招生”廣告。　　破解平台限制　　徐某某成為“職業羊毛黨”，還要從2017年說起，那時，各大網絡平... 2023-07-07
科技監控硬盤和普通硬盤的區别
1、監控專用硬盤可以非常流暢地支持記錄器的記錄和回放，優化流媒體的存儲和讀寫。2、并且在系統數據和數... 2023-07-07
科技 excel考勤記錄怎麼做
1、首先我們在表上留三行空白，在第四行寫個名字。2、選擇A1:H1，點【合并後居中】。3、雙擊單元格... 2023-07-07
科技小紅書社交電商平台發展現狀論文（獲阿...
　　　　手機淘寶在新的内測中，在商品評論下接入了小紅書的内容。　　淘寶最近開始測試新的内容闆塊——“好物點評團”。在部分美妝品牌天貓店鋪的部分商品評論下方，多了一塊好物點品評團的入口。好物點評團的内容主要是來自小紅書、淘達人、商家微淘号及品牌号等。　　如在 innisfree 官方旗艦店的一款保濕潔面乳的評論下，直接可以看到帶有小紅書标志的内容提要，點... 2023-07-07
科技魅族手機随時都會關機怎麼辦
1、魅族手機總是會自動關機現象，先建議大家先恢複出廠，刷機試試看，如果不行則是手機硬件故障，聯系魅族... 2023-07-07
科技園林樹木修剪的主要方法（園林樹木整形...
　　園林樹木整形修剪常用的工具和安全措施　　(1)園林樹木整形修剪常用的工具　　①枝剪：用來修剪3,-4cm以下枝條使用。　　②高枝剪：用于修剪樹木高處的細枝。手鋸：用于鋸不算作很粗大的枝條。　　⑨刀鋸：鋸截較粗的枝條用。　　④油鋸：鋸截粗大的枝幹用。　　⑤高枝油鋸：鋸截高處不大粗的枝條用　　⑥大平剪：整修綠籬用。　　　　(2)園林樹木整形... 2023-07-07
科技調音台如何連接會議系統（會議系統中調...
　　有很多朋友提到關于調音台的使用，之前一直沒有安排關于調音台的知識，這期我們一起來了解下。　　視頻會議系統中調音台使用圖解　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　, 2023-07-07
科技吸音闆應該安裝在什麼位置（吸音闆安裝...
　　随着裝修建材行業不斷的創新和發展，具有保溫、隔熱、防潮防黴等很多優良性能的吸音闆，是裝修建材中一種比較理想的吸音材料，廣受消費者的青睐。那麼大家知道吸音闆怎麼安裝嗎？安裝有哪些注意事項呢？下面騰飛小編為大家講解下！　　　　吸音闆可以通過共振頻率進行吸聲，被廣泛用于KTV、歌舞廳、影劇院等高級會議場所，這說明了吸音闆的受歡迎程度。吸音闆怎麼安裝？吸音闆... 2023-07-07
科技華為手機六個不卡的方法
1、清除數據，因為使用過app過後，app内會留下使用記憶或者說使用痕迹，即會産生數據。其實這個功能... 2023-07-07
科技蘋果筆記本怎麼挑選
1、若是想輕便，隻是想體驗一下産品，可以選擇MacBookAir13寸(可以看做是民用級别的蘋果筆記... 2023-07-07

tft每日頭條

> 科技

> 機器學習數據标簽特征

機器學習數據标簽特征

相关科技资讯推荐

热门科技资讯推荐

网友关注