編輯導語:如今在這個大數據時代,标簽已經成為了很多平台必不可少的一個功能,最常見的比如購物網站,會增加一些标簽方便用戶查找,避免無用功;本文作者分享了關于構建标簽體系的一些經驗方法,我們一起來了解一下。
一、标簽體系:definition & effect
1. 什麼是标簽體系?
什麼是标簽體系呢?
簡單說就是标簽體系就是分類,而且是對全集的分類,“把内容或者用戶依據統一的規則分到不同的類别中去,類與類之間彼此有聯系,這就構成了标簽體系”。
通過分類的對象是用戶還是内容,基本将标簽體系分為兩種:
兩者的區别主要體現在分類後使用上,在确立分類體系的時候并無根本性的區别,故在後文不做區分。
2. 标簽體系有什麼用?
仔細思考一下,用标簽與類别代表群體,将個體抽象化,這是為了什麼?
我覺得最大的作用是運用于“個性化”和“精準化”的事項,因為個體體征被高度抽象,就有了可使用的價值;比如一個短視頻,劃分到搞笑-鬼畜視頻的分類中,就可以專門針對性地推薦給喜歡看鬼畜的用戶,内容與内容之間、用戶與用戶之間、内容與用戶之間的對應,背後全都是标簽在其作用。
你接收到的商品推薦、視頻網站推薦給你的猜你喜歡、地圖軟件給你推薦的出行方式,交友軟件給你推薦的心動嘉賓,這些都是标簽之間的一一對應。
比較典型的應用場景有:精細化運營策略的制定、客戶關系系統CRM、廣告推送的方式、個性化推薦系統推送系統的搭建。
标簽幫助平台更好地了解平台裡的内容特性、也更了解平台中的用戶特征,而更充分的了解,也意味着更好的滿足用戶需求。
二、标簽體系:how1. 按照MECE原則制定标簽體系
在标簽系統運用之前,PM最早起到作用且關乎到後續标簽體系整體效果的重要一步就是制定标簽劃分的體系與标準。
在制定标簽體系的時候,一般依據MECE原則進行(全稱Mutually Exclusive Collectively Exhaustive,中文意思是“相互獨立,完全窮盡”),也就是我們常說的“不重不漏”。
在處理分類事情的時候,很多時候是存在灰色地帶的,有些既可以劃分到A類,又可以劃分到B類,好的分類體系可以減少這種情況出現的頻次,這就是盡量“不重”。
同樣在分類的時候,因為内容和用戶的複雜性,也會出現有些無法劃分到當前分類體系中去的情況,在構建分類體系的時候也需要我們盡量做到“不漏”。
在構建标簽分類體系的時候,有三點經驗可以供參考:
1)以競品體系為根基,做适配性修改
參考競品所做的标簽體系,再結合自己的業務特點進行修改,可以先用競品的分類體系抽樣對自己産品的内容/用戶進行分類标注,可以快速發現哪些标注分類是缺少的,哪些存在分類不清的問題,再進行針對性的改動,不斷叠代自己的體系。
2)明确業務導向,标簽需要為業務目标服務
這是指比如你建設視頻的二級分類标簽體系,是為了更好的給用戶做個性化推薦,那麼需要思考,哪些内容在推薦上具有共性;比如遊戲内容,二級分類分到遊戲攻略,這是很難給用戶做推薦的。因為顯然沒有用戶對遊戲攻略這個分類内容感興趣,而如果劃分為角色扮演遊戲,這是可以推薦給喜歡RPG遊戲的用戶的。
3)标簽分類附解釋與case
因為PM不是直接進行數據标注的人,實際進行标注的一般是外包标注人員,在信息傳達的時候難免有損耗,如果不将标簽的具體含義以及相應的case附上,很容易造成PM單方面自嗨,實際标注效果不盡如人意的情況。
2. 設置合理的标注與檢驗流程
在标簽體系初步制定之後,就該進行到下一步,實際标注了,從我自己的實際上手體驗來看,這部分是坑最多,最容易出現問題的部分,需要PM和标注人員進行反複的溝通,反複的叠代,最後才能交付較好的标注數據,供訓練模型使用。
在這裡給出兩種标注流程,具體使用哪種需要根據自身業務特性與人員配置來決定。
第一種是單層的,高級标注人員負責任務下發、抽檢、人員培訓,這種适合高級标注人員素質過硬,且能力較強,優點在于中間流程較少,信息傳遞不容易出現偏差,整體時間也偏長。
單層标注流程
第二種是雙層的,在高級和初級标注之間增加一層中級,負責标注質檢和确定部分不确定case,這種優點在于每個人負責的事情相對較少,不容易出現差錯,且責任到人,對個人能力要求相對較低。
雙層标注流程
雙層中,具體各方職責如下([T]中T代表當天,T 1代表第二天):
PM:
- 負責數據抽取[T]
- 對齊高級标注人員不确定的case[T 1]
- 評估标準的更新與修正
高級标注人員:
- 負責标注任務的拆解與下發[T]
- 對齊中級标注人員不确定的case,自主判斷給出分類,如果個人無法确定,再與PM對齊[T 1:下班前對齊]
- 标準更新,對齊标準的傳達與人員培訓[T 1]
中級标注人員:
- 收束每天初級标注人員标注中不确定case,自主判斷給出分類,無法确定再與高級标注人員對齊[T 1:先進行這部分,T 1下午3點前對齊]
- 負責抽檢初級标注标注确定的部分(抽取比例需讨論)[T 1:後進行這部分,T 1結束前完成]
初級标注人員:
- 負責完成高級标注人員下發的标注任務,對于确定的case進行标注,對于不确定的給出初步判斷,并提供給中級标注人員[T]
3. 标簽體系的優劣衡量
在對标注結果進行數據驗收的時候,更多的是采用準确率和召回率指标,準确率對應不重、召回率對應不漏,即“分的準 有的分”。
一般來說,準确率能達到85%以上,召回率能達到90%,整體數據可用性就達到要求了,如果标簽體系建立的合理且優秀,執行也很出色的話,部分可以做到90%以上的準确率。
在标注過程中,有兩個準召情況(更多看準确率)需要重點關注,一是标注人員的準召,二是标注類别的準召。
前者能讓我們更了解不同标注人員的素質,進行更合理的人員培訓或者任務分配,後者讓我們更了解不同分類的标注難易情況,對标注标準與規範進行不斷地叠代完善。
三、标簽體系避坑指南雖然整體來看負責标簽體系是較為枯燥的,但這并不是一件容易事情,如果沒有考慮周全,在标注過程中非常容易出現問題,從而拖慢标注進度,影響最後标注數據質量,最後影響模型效果。
在此我也羅列幾個容易踩的坑,希望大家可以盡量規避:
1. 标簽标注的流程搭建
坑一:标注體系在标注中并非不可更改,但如無必要,勿增“其他”。
不管初始設置的标注分類體系有多好,在實際标注中,還是會出現“重 or 漏”的情況,遇到這種情況的時候,錯誤的處理方式是胡亂塞一個分類/強行塞進分類。
如果仍然碰見重的情況,根據标注的目的進行判斷,比如作用于推薦,A類用戶更容易更喜歡這類内容,則将其放置于A類則明顯更合适。
而盡量不增“其他”是說盡量不要在标簽體系中給予标注人員可以偷懶的大而全的分類項;比如在軍事分類中,給一個分類叫“軍事相關”,這個是很難定義清楚的,标注人員不确定的東西容易全塞這個分類中,導緻在推薦中難以被使用。
坑二:标注層級無序,标注進行混亂
PM與直接标注人員之間不應該是單層的關系,而是需要有中間層來負責分發标注任務、把控标注進度、進行标注檢驗,這中間層級當然并不是越多越好,一般1-2層足矣。
2. 人員管理與培訓
坑一:少幹預,任由發揮
首先要記住,标簽數據的積累一般涉及到衆多的标注人員,而一旦涉及到人,則需要PM進行管理,缺少幹預,讓高級标注人員進行統籌,一般來說效果是欠佳的;因為人存在惰性,且如果沒有幹預的話,标注效質量好壞對于标注人員來說其實意義不大,也會影響整體标注效果。
這需要我們建立相應的獎懲機制,對于标注質量較高的個人,給予獎勵,而對于标注質量較低的個人,需要給予一定的懲罰或者激勵,隻有這樣才能有效提高标注人員的标注效率和質量。
坑二:朝令夕改,标注人員無所适從
在标注過程中,可能會存在對于标注分類進行增删改的操作,這種操作不易過分頻繁,頻繁不但會導緻之前積累數據的可用性差,拖慢标注數據積累速度,也會導緻标注人員的混亂,标注質量的劣化。
好的标注流程當然不反對進行增删改,但需要更多集中在早期,對應工廠生産,在産品研發和産能爬坡時期,标注的可用性不是最應該關注的指标;而應該是标注體系的完善,标注人員的培訓,當這兩個做到位的時候,接下來就可以積累标注數據,推進标注工作有序進行了。
四、小結整體來說,标簽體系的構建是内容理解和用戶理解的重要組成部分,也是策略實行的基礎之一;如何設置合理的标簽結構,标簽分類,如何有序高效地推進标注數據的積累與标簽分類模型的搭建,以及最後策略的運用,是PM需要掌握的一項基本技能。
而将基礎的事情做好,并不容易。
共勉~
#專欄作家#
随心将夜,微信公衆号 : 互聯網菜鳥産品進階之路,人人都是産品經理專欄作家。關注社交賽道和社區發展,擅長分析行業趨勢。
本文由@随心将夜 原創發布于人人都是産品經理,未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!