編輯導讀:人工智能的發展,是通過不斷學習已知樣本實現的。在監督學習的情況下,人工的數據标注是智能的前提與靈魂。本文作者對此進行了分析,希望對你有幫助。
當今社會人工智能領域蓬勃發展,各領域都在追求智能化,耳熟能詳的有智能駕駛、智能家居、智能語音、智能推薦等。人工智能是通過機器學習,大量學習已知樣本,有了預測能力之後再預測未知樣本,以達到智能化的效果,機器學習可分為監督學習和無監督學習,無監督學習的效果是不可控的,常常被用來做探索性的實驗。
在實際應用中,通常是有監督學習,有監督學習就需要做數據标注,所以智能的前提是人工,因為智能結果的輸出是多次人工樣本的輸入,可以說人工的數據标注是智能的前提與靈魂,沒有人工就沒有智能,有多少人工就有多少智能。
一、數據标注的分類數據标注從難易程度方面可劃分為常識性标注與專業性标注。例如,地圖識别領域的标注多為常識性标注,标注道路、路牌、地圖等數據,語音識别标注也多為常識性标注。做該類型标注工作難點在于需要大量标注訓練樣本,因為應用場景多樣且複雜,對标注員無專業技能要求,主要是認真負責,任務完成效率快、質量高的即為好的标注員。
醫療診斷領域标注多為專業性标注,因為病種、症狀的分類與标注需要有醫療專業知識的人才能做,招聘領域标注也屬于專業性标注,因為标注員需要熟知招聘業務、各崗位所需的知識技能,還需了解HR招人時的關注點,才能判斷簡曆是否符合職位的招聘要求。該類型的标注工作需要有招聘領域專業知識的标注員,或者稱為标注專家,标注工作的難點比較多,例如選撥培養合适的标注員、标注規則的界定、标注質量的控制等多方面。
數據标注從标注目的方面可劃分為評估型标注與樣本型标注。
評估型标注一般是為了評估模型的準确率,發現一些Badcase樣例,然後優化算法模型,該類型标注工作為了節約标注資源可控制标注數量,一般情況下标注千量級的數據,樣本具有統計意義即可,标注完成後需要統計正确率,以及錯誤樣例,該類型标注的重點是錯誤樣例的原因總結,分析每個Badcase出現的原因,并将原因歸納為不同的分類,有了原因分析方便算法同學分類型分批次的優化模型。
樣本型标注即為模型提供前期的訓練樣本,作為機器學習的輸入,該類型标注工作需要标注大量數據,一般情況下需要标注萬量級的數據。為了樣本的均衡性,标注樣本多是随機抽取的,這樣做的優點是可在一定程度上避免樣本偏差,但缺點是要标注大量數據。如果是文本型樣本,有時可借助算法抽取一些高頻、高質量樣本進行标注,這樣可一定程度上減少标注工作量,但可能存在樣本偏差。總之樣本型标注是個苦力活,業界有句話這麼說的:如果你和一個人有仇,那麼勸他去幹标注吧。
數據标注從标注對象方面可劃分為文本标注、圖像标注、語言标注、視頻标注,從标注方式方面可劃分為分類标注、标框标注、描點标注,這些标注分類基本都屬于标注形式的差異,沒有較強的專業度,所以不做較多講述了。
二、數據标注規則的制定常識性标注的規則比較簡單,标注一部分樣本即可總結出較通用的規則,但專業性标注的規則比較複雜,制定專業的标注規則需要遵循以下三原則:多維分析與綜合分析相結合,因子權重影響因素場景化,問題類型标簽化、結構化。以下是招聘領域簡曆與職位匹配度标注規則的指導思想,具體細節規則會在《數據标注(下)》中闡述。該标注規則比較符合标注規則制定的三原則。
第一,多維分析與綜合分析相結合。
簡曆與職位的匹配度影響因素肯定是多維的,不能隻參考工作經曆或專業要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結果。當然簡曆與職位的匹配标注也不可能一上來就能給出綜合的評分,不能純感性的告訴标注員:你覺得是簡曆與職位非常匹配就給分,不匹配就不給分,這在邏輯上也不合理。所以要先給單一因子打分,然後參考每個因子的評分結果,最終再進行綜合分析給出評分結果。
第二,因子權重影響因素場景化。
前面有提到簡曆與職位匹配度評估需要給每個因子打分,那每個因子打分結束後怎麼給出綜合評分呢,給每個因為賦予權重嗎?然後按權重計算總分?答案是否定的,我們要結合具體場景把所有因子進行歸類分析,比如設定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經曆代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,HR想要1-3年經驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結合場景進行歸類分析是十分必要的。
第三,問題類型标簽化、結構化。
标注結果一般情況下會以分數的形式展示,ABCD,或者0123,然後一組數據沒有得到滿分是因為什麼呢?哪裡不匹配呢?所以前期制定标注規則時一定要把原因分析考慮進去,列出所有不匹配的原因,形成結構化的原因标簽,有利于最終分析Badcase的分類與占比,然後算法或者策略團隊在優化時可以優先解決占比高或影響惡劣的case。
數據标注是一項看似簡單實際卻十分複雜的工作,涉及标注分類、标注規則制定、标注原因分析、标注系統搭建、标注團隊管理等,尤其涉及到專業領域的标注則更困難,本篇主要介紹了标注分類、标注規則制定,細節的标注規則以及标注系統的搭建,标注團隊管理會在後續更新,希望大家持續關注,感謝閱讀!
本文由 @豔傑 原創發布于人人都是産品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!