編輯導讀:用戶标簽是精細化運營的基礎,能有效提高流量的分發效率和轉化效率。用戶由标簽組成,但是這些标簽打那些緯度标簽?由誰來打?怎麼打标簽?本文作者對此展開了分析探讨,一起來看看~
标簽,主要的作用就是用于商品識别,用來标志産品目标、分類、内容等。标簽按照存在形式分,可分實物标簽、網絡标簽(tag)等。
(1)實物标簽
主要用于标明物品的品名、重量、體積、用途等信息的簡要标牌。有傳統的印刷标簽和現代條碼打印标簽。
适用範圍:包裝:唛頭标簽、郵政包裹;商品:價格标簽、産品說明标簽;
(2)網絡标簽(tag)
它是一種互聯網内容組織方式,是相關性很強的關鍵字,幫助人們輕松的描述和分類内容,以便于檢索和分享,Tag已經成為自web 2.0以來的重要元素。
今天我們就來聊聊網絡标簽,let’s go
背景假設一個場景:老闆把你叫到辦公室,讓你做一套标簽體系,你會怎樣推進?
常規思路:調研市場上同類型産品做法→通過各種渠道,拿到标簽體系結構(或者利用爬蟲爬取标簽體系數據)→直接套用過來→人工達标、模型訓練→形成自有标簽體系
這是一種快速便捷的方案,但是埋了很多隐性的“坑”,稍不留神就會被坑。
怎樣躲“坑”?那得學會靈活運用他人的體系
- 不同平台内容體量有差異,内容調性與用戶調性亦有差異,完全照搬内容标簽體系,弊大于利。
- 标簽體系不完善,不适合自有内容生态,就花費大量人力、物力來做,勞民傷财。
當拿到搭建标簽體系的任務,首先想到有兩個方案
方案一:調研同類型産品做法,直接套用其分類标簽體系
優點:簡單、高效
缺點:不完全适合自有内容生态
方案二:爬取同類産品内容數據,進行無監督訓練,輸出分類标簽結果。
優點:可以更好的了解内容生态中内容分布情況,制定合理的分類标簽體系。
缺點:時間周期長,成本高
不管方案一還是方案二,得到的都隻是初版标簽體系标準(比如一二級分類體系标準),隻能用做建立底層分類标簽,離标簽體系建立還有一段露要走。
當有了底層分類标簽,可以在此基礎上進行多維度标簽建構:
……
多維度标簽有了,怎樣讓内容打上這些标簽?1. 充分調用用戶生産力,讓作者打标
我們都知道,豆瓣将打标的權利下放給用戶,在上傳文章、寫電影評論都可選擇或手填标簽,對于内容平台來說,這是一筆巨型财富。但是由于用戶能力水平有高有低,打出的标簽需要進行清洗、消歧等操作後才能使用。
一些資訊平台、視頻平台,作者發布文章時,也會讓作者選擇、填寫内容标簽,比如趣頭條、B站等。
B站發文頁面
問題點:用戶手動填寫的标簽沒有統一标準,标簽名稱不規範,無法直接使用。筆者拉出所在公司作者手填tag,利用率也就50%-60%左右,需要人工進行标簽分類,比如篩選出實體标簽、概念标簽、風格标簽等。
2. 人工打标
作者手動填寫tag,隻能作為tag體系補充的一環,且利用率有限。因此,專門的标注同學、真實用戶打标,是必不可少的一環,更好的保證标簽可用率與準确率。
調動用戶生産力,讓真實用戶打标簽,不知大家有沒有用過。把打标僞裝成用戶活動,既是用戶運營的手段,也是标簽生産的手段,利用用戶運營的思路來生産标簽,好處多多。
我們來算筆賬——
假設日活用戶1000萬,圈出100萬用戶做活動,預計每日參與活動用戶20w,真正完成答題用戶7w-8w,剔除無效數據,最終可用數據可以有10w左右,平均成本可靈活調控。
如果找專人一天标注10w數據,按照人效1500來算(上限值),那麼就需要66個人,人力成本一天也得大幾萬。
對比來看,調動用戶生産力,優勢不言而喻。
第一步:洞察用戶
- 人口學特征:性别、年齡、職業等
- 地理位置特征:所在城市,城市等級
- 活躍行為特征:最近60天、30天、14天、7天等活躍天數
- 閱讀行為特征:最近60天、30天安、14天、7天等閱讀視頻、圖文次數、時長。
通過這些不同維度的用戶數據,讓你對用戶做個深度剖析,找到你需要的那部分用戶。
第二步:吸引用戶
将打标簽的項目僞裝成用戶活動,比如要進行影視劇劇名打标,可以開展一個“看視頻猜劇名”的活動。比如要進行相似圖片标注 ,可以開展一個“看圖片找不同”的活動。
怎樣做好僞裝,吸引用戶參與?
- 活動名稱接地氣,要點突出,直接要害
- 設計有看點的活動banner
- 做好答題頁面交互體驗設計
- 充分利用金币、獎金競品激勵
第三步:服務用戶
當把用戶吸引進來之後,需要為它們做好服務,提升活躍留存。
- 定期監測參與活動用戶質量,剔除羊毛黨、質量低用戶。
- 制定獎懲機制
- 收集用戶反饋,對于有用建議及時響應。
- 由于項目具有周期性,做好用戶召回(利用psuh、站内信等手段觸達召回)
再多說一句,當把這套流程機制中台化,可以滿足不同業務場景需求,對于用戶促活、标簽打标等具有很強的實操價值。
3. 模型訓練
常規的模型訓練流程很簡單,大緻分為五個環節:
标準制定→樣本标注→模型訓練→數據評測→上線
随着業務需求增加,對于模型叠代效率要求越來越高,普通的模型訓練流程太繁瑣,需要跨部門溝通,費時費力,因此,搭建一套模型訓練自動化平台顯得尤為重要,對于簡單的模型,可以由運營或者産品協調标注,快速訓練、叠代模型,提升效率。
這裡簡單聊聊模型自動化訓練平台的搭建,或有不足之處,大家一起交流學習。
平台工具可分四大模塊:數據處理、模型訓練、數據集打分、模型對比
模塊一:數據處理(整合數據獲取、數據處理兩個小模塊)
(1)數據獲取
1)内部獲取
- 來自内部,整合已有工具,平台加上工具跳轉入口;利用sql自行獲取想要樣本标注數據。
- 來自内部,算法側提供相應樣本标注數據
2)外部獲取
根據具體需求,制定内容爬取方案,瞭望爬取相應内容(圖文、視頻、小視頻等全體裁),需要入庫,支持輸入标注平台、衆包進行數據标注。
(2)數據處理
- 針對内外部獲取的數據集,支持輸入标注平台、衆包進行标注,輸出有效标注樣本數據集
- 針對衆包、标注平台輸出的有效标注樣本數據集,需要有個樣本管理配置平台,進行數據處理,然後将數據直接推送至對應模型進行訓練。
模塊二:模型訓練
- 算法提供每個需求所需模型
- 選定所需模型,輸入有效标注數據集進行訓練
- 支持配置選擇模型參數,比如,基于神經網絡模型,一般可以叠代訓練輪數、學習率、網絡層數、向量寬度、選擇的優化器等。
- 支持增量與全量任務訓練,訓練狀态可視化,便于及時掌握訓練情況
- 建立監控報警機制,訓練狀态異常時觸發,保證訓練狀态正常。
模塊三:數據集打分
- 已經訓練完畢的模型,輸入測試集、驗證集數據,輸出P\R\F1值
- 輸出P\R\F1值後,再次輸入人工評測數據集,輸出評測數據結果,人工離線評測,輸出準召率。
模塊四:模型對比
對于準召率達标不同版本模型進行留檔記錄,便于對比叠代前後模型效果
- 對比維度:模型版本号、訓練完成時間、P\R\F1值、人工評測準召率等
通過作者打标、用戶打标、模型訓練等方式,輸出了各個維度内容标簽,存儲于标簽庫中,為各業務場景提供底層數據支持。
本文由 @珂然 原創發布于人人都是産品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!