tft每日頭條

 > 生活

 > 閑魚開通閑魚玩家難度

閑魚開通閑魚玩家難度

生活 更新时间:2025-04-21 04:50:04

閑魚開通閑魚玩家難度?— — "水果糖小椿 M39 暫挂"— — "列表科幻?",今天小編就來說說關于閑魚開通閑魚玩家難度?下面更多詳細答案一起來看看吧!

閑魚開通閑魚玩家難度(興趣标簽體系告訴我)1

閑魚開通閑魚玩家難度

背景與挑戰

— — "水果糖小椿 M39 暫挂"— — "列表科幻?"

不知大家能否讀懂上面的對話,但在閑魚,這樣的對話每天都在發生。數據顯示,閑魚約30%的用戶年齡不滿25歲。了解這些95後的興趣偏好,對閑魚服務年輕用戶,實現精細化運營有着十分重要的意義。因此,我們希望用數據挖掘的方式,對用戶的興趣偏好進行打标,創建具有閑魚特色的興趣标簽體系,為閑魚的精細化運營提供物料,提高用戶對閑魚的活躍度和忠誠度。相比于商品的結構化信息,興趣愛好的表達具有更強的靈活性。其範圍幾乎沒有限制,可以是一個很小衆的領域,如抽盲盒、徒手攀岩;也可以是一個很寬泛的風格,如複古風,暗黑系。因此,如何做到高效精準地理解用戶,是興趣标簽建設面對的最大挑戰。

思路

在興趣标簽建設初期,我們首先梳理了理解用戶興趣偏好的3個關鍵點:

靈活的興趣表達方式:不限制于結構化的表達方式,興趣偏好可能橫跨了用戶工作、學習等多個場景,滲透到衣食住行的各個方面,單純用品牌、行業等結構化的詞彙很難描述得準确而完整

興趣表達具有唯一性:我們調研了閑魚的興趣領域的關鍵内容,發現雖然興趣表達的方式多變,但表達的内容具有很強的唯一性。如JK系列、盲盒系列,都是以專有名詞為主,獨特的圈子文化使得興趣類詞彙幾乎不會産生歧義

考慮到閑魚興趣人群是從0到1的實踐,亟需快速搭建可用的标簽體系,我們的構建方式必須快速高效,可以批量化地進行生産

基于以上3點思考,我們對業内常見的标簽體系生産方式進行了調研。業内常見的标簽生産方式可以分為 1)模型預測 和 2)行為統計 兩種。

模型預測的方式通過構建機器學習模型,對用戶在某個興趣點上的感興趣程度進行預測打分,得分越高,興趣越濃厚,通常可分為有監督和無監督兩類。該方法的優點是準确率高,缺點是必須有足夠體量的樣本,且為了保證準确性,往往采用二分類的方法,每種興趣都要收集足夠的樣本分别構建模型,效率低且計算成本高。

行為統計的方法是基于用戶曆史在興趣内容上的行為進行統計打分,通常會考慮行為類型、行為頻次和行為時間衰減等因素,得分越高興趣越濃厚。該方法計算簡便、可解釋性強,但由于統計信息沒有泛化和自學習的能力,需要在統計的同時考慮到覆蓋率和時效性。

在這裡,我們在對比了業内方案後,結合自身業務特點,确定了以行為統計方式為主,具備個性化标簽定制能力的标簽體系建設方案。對大部分能夠被唯一描述的興趣領域,我們通過篩選興趣領域内的關鍵詞,找到對關鍵詞内容産生互動行為的用戶進行打标。對于一些關鍵詞匹配無法準确召回的場景,我們再進行個性化的建設。

解決方案

興趣标簽體系解決方案

上圖是興趣标簽體系的整體解決方案。主流程是基于平台内商品/内容的文本信息進行文本分詞清洗,與運營同學提供的關鍵詞進行文本匹配,召回興趣領域對應的商品/内容等行為标的。再通過計算用戶對商品/内容的行為,彙總得到用戶-興趣領域的得分,彙總生成興趣人群。在用關鍵詞召回時,對于一些無法枚舉或者行業經驗不足的情況,我們通過關鍵詞關聯進行了補充。得益于圈子文化喜歡标榜個性的特點,95後的大部分興趣領域都可以用具有唯一意義的關鍵詞來描述。因此,理解用戶興趣的問題就轉化成了以下兩個問題:

如何通過關鍵詞召回興趣人群

如何篩選合适的關鍵詞

如何通過關鍵詞召回興趣人群

選型初期,我們與閑魚社區的工程團隊一起,讨論了兩套方案:

方案1:直接計算用戶-關鍵詞之間的關聯關系,并将這種關聯關系導入到在線平台,實現在線或近線的檢索召回。這種方式具備很好的靈活性和可擴展性,但可能會存在由于關鍵詞分詞而帶來的歧義。例如,當我想找到搜索了「複古 攝影」的用戶時,「複古攝影」可能會被分詞為「複古」和「攝影」分别進行召回,這就可能召回的是搜索了「複古 口紅」和「日系 攝影」的用戶,影響了人群打标的準确性。此外,全量的用戶-關鍵詞關聯數據量非常大,會在很大程度上影響檢索效率。考慮到初期重點運營長尾興趣領域,我們将實現方式調整為方案2。

方案2:通過用戶-商品-關鍵詞的方式進行關聯。經過多年沉澱,閑魚平台集合了豐富的用戶行為數據。我們首先通過關鍵詞匹配對應的商品,匹配内容包含商品的标題、描述等文本信息,商品的集合作為興趣内容的表達。接着統計用戶在召回商品上的行為(如浏覽、收藏、互動、交易等),并在行為類型、行為頻次和行為時間上進行加權,得到「用戶-商品」的行為程度得分。由于興趣标簽屬于長周期标簽,所有用戶打标流程都可以放在離線計算完成,再将打标好的數據導入線上平台,依托閑魚強大的人群運營平台和精準投放鍊路,實現最終的人群精準運營。

理論上,用戶在興趣商品上的所有「用戶-商品」行為得分加和即為用戶-興趣得分。但是在做興趣粒度的彙總時,我們希望能夠将用戶在平台的其他行為偏好也納入考慮——由于興趣領域相對較為長尾,有些用戶雖然對興趣領域商品有過一些行為,但綜合觀察可以發現該用戶在平台非常活躍,對其他領域的行為偏好可能還更加濃厚——這種用戶如果在排序中非常靠前,會對那些在平台活躍度一般,但對興趣領域十分關注的用戶造成打擊。而我們構建興趣标簽的其中一個重要目标,就是為了能夠拉動長尾的興趣類用戶在平台更多地發現适合自己的内容和相同喜好的用戶,進而提升長尾流量的活躍度與粘性。為此,我們在計算用戶-興趣得分時,借鑒了文本挖掘中的TF-IDF算法,計算該興趣領域對用戶的重要程度。

通過關鍵詞與用戶行為計算用戶-興趣得分

TF-IDF是一種文本挖掘算法,用以計算某個單詞對一篇文章的重要程度。其主要思想是:如果某個單詞在一篇文章中出現的頻率高,并且在其他文章中很少出現,則認為此單詞能夠很好地标記文章的主題,具有良好的區分能力。TF-IDF其實是TF*IDF,其中,

體現了該單詞在單文件中的出現頻率;

體現了該單詞在文件集合中的類别區分能力。

單詞在同一份文件中出現的頻率越高,且文件集合中包含該詞的文件數越少,說明單詞的文本分類能力越強,越能體現文件主題。這裡,我們将一個興趣領域看做一個單詞,一個用戶看做一個文件,全量用戶看做文件集合,則用戶在不同興趣領域的TF-IDF可表示為

通過這種方式,我們可以真正對興趣領域有偏好的用戶,标記為興趣人群。

如何篩選合适的關鍵詞

興趣領域關鍵詞的篩選主要采用「典型關鍵詞 熱搜詞」的方式。典型關鍵詞由業務同學基于運營經驗給出,往往包含了如經典産品系列,入門級漢服品牌等最能體現圈子文化的詞彙。通過這些關鍵詞,我們可以召回基礎行為人群。但95後門追新求變的性格使得興趣圈子裡的生命周期短,更新換代非常快。針對這個問題,我們以基礎人群為标準,計算了人群近期熱搜詞,同樣作為關鍵詞進行人群召回,在保證人群規模的同時保證了人群的時效性。

「典型關鍵詞 熱搜詞」找到領域關鍵詞

下圖是一個JK人群的關鍵詞召回示意,圖中由内而外分别是「标簽-核心詞-熱搜詞」。

JK标簽關鍵詞雲

對于一些較為寬泛的興趣領域,如植物,寵物等,我們希望能夠深入到更加細分的領域進行運營。但由于領域本身範圍很大,業務同學也無法枚舉所有細分領域。這種情況下,我們充分利用了集團内成熟的類目體系,以最細葉子類目名稱(如寵物類目下還可以細分為貓,狗,魚,倉鼠等葉子類目,植物下還有多肉,盆景等葉子類目)作為初始關鍵詞,通過關聯關系找到更多同一細分領域下的衍生關鍵詞,從而形成細分領域的關鍵詞集合,召回對應人群,形成标簽。下圖為寵物類目的細分示意圖,圖中由内而外分别是「細分領域葉子類目--衍生關鍵詞--興趣領域詞」

寵物标簽關鍵詞雲

還有一些興趣領域,很難通過單一關鍵詞進行準确的描述。以複古懷舊類興趣為例,擁有這種興趣偏好的用戶,其本質上是對“複古”這一抽象的風格概念有興趣,它涵蓋的商品或内容往往橫跨美妝、服飾、繪畫、攝影甚至收藏等多個領域。這種情況下,我們同樣基于關聯關鍵詞的思路,召回與複古相關的關鍵詞組成詞組,進行文本匹配和用戶召回。

應用效果

目前标簽體系已經完成了第一階段的建設。第一階段重點對95後最熱衷的興趣領域進行打标,成果如下:

标簽數量20 ,精準覆蓋95後興趣領域,如JK、lolita、漢服、二次元等

95後群體中已有超過50%的用戶打上了興趣标簽,為業務精細化運營提供了充分的資源

除了覆蓋量上的突破,标簽體系同樣在實際業務中拿到了投放效果,驗證了人群的準确度。在一期建設完成後,我們将标簽體系應用于閑魚的直播業務,帶來了實際的效果提升:

對比以往默認的内容展示,興趣人群-興趣領域主播的匹配方式點擊轉化成倍提升,顯著提高推薦效率

由于興趣類主播在首頁曝光、點擊量的提升,長尾的興趣内容類主播獲得了更多的流量,很大程度上提升了主播的積極性

未來規劃

由于項目時間緊急,興趣标簽以快速實現業務目标為準則進行了初版建設,後續随着業務的發展,我們的标簽體系也會逐漸完善

在現有關鍵詞發現的基礎上,完善關鍵詞挖掘能力,能夠自動化地嗅探到領域内關鍵詞彙,提升人群召回效率

增加語義向量表示,進一步提升關鍵詞召回的準确率和覆蓋率

豐富用戶的行為信息,在現有的行為信息基礎上,增加用戶在社區、本地化或文娛等場景下的行為,對用戶進行更加豐富和全面的刻畫

作者:閑魚技術-兆晗

本文為阿裡雲原創内容,未經允許不得轉載。

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved