tft每日頭條

 > 科技

 > 人工智能基礎信息

人工智能基礎信息

科技 更新时间:2025-01-16 10:51:47

編輯導讀:人工智能的發展,是通過不斷學習已知樣本實現的。在監督學習的情況下,人工的數據标注是智能的前提與靈魂。本文作者對此進行了分析,希望對你有幫助。

人工智能基礎信息(人工智能的人工部分-數據标注)1

當今社會人工智能領域蓬勃發展,各領域都在追求智能化,耳熟能詳的有智能駕駛、智能家居、智能語音、智能推薦等。人工智能是通過機器學習,大量學習已知樣本,有了預測能力之後再預測未知樣本,以達到智能化的效果,機器學習可分為監督學習和無監督學習,無監督學習的效果是不可控的,常常被用來做探索性的實驗。

在實際應用中,通常是有監督學習,有監督學習就需要做數據标注,所以智能的前提是人工,因為智能結果的輸出是多次人工樣本的輸入,可以說人工的數據标注是智能的前提與靈魂,沒有人工就沒有智能,有多少人工就有多少智能。

一、數據标注的分類

數據标注從難易程度方面可劃分為常識性标注與專業性标注。例如,地圖識别領域的标注多為常識性标注,标注道路、路牌、地圖等數據,語音識别标注也多為常識性标注。做該類型标注工作難點在于需要大量标注訓練樣本,因為應用場景多樣且複雜,對标注員無專業技能要求,主要是認真負責,任務完成效率快、質量高的即為好的标注員。

醫療診斷領域标注多為專業性标注,因為病種、症狀的分類與标注需要有醫療專業知識的人才能做,招聘領域标注也屬于專業性标注,因為标注員需要熟知招聘業務、各崗位所需的知識技能,還需了解HR招人時的關注點,才能判斷簡曆是否符合職位的招聘要求。該類型的标注工作需要有招聘領域專業知識的标注員,或者稱為标注專家,标注工作的難點比較多,例如選撥培養合适的标注員、标注規則的界定、标注質量的控制等多方面。

數據标注從标注目的方面可劃分為評估型标注與樣本型标注。

評估型标注一般是為了評估模型的準确率,發現一些Badcase樣例,然後優化算法模型,該類型标注工作為了節約标注資源可控制标注數量,一般情況下标注千量級的數據,樣本具有統計意義即可,标注完成後需要統計正确率,以及錯誤樣例,該類型标注的重點是錯誤樣例的原因總結,分析每個Badcase出現的原因,并将原因歸納為不同的分類,有了原因分析方便算法同學分類型分批次的優化模型。

樣本型标注即為模型提供前期的訓練樣本,作為機器學習的輸入,該類型标注工作需要标注大量數據,一般情況下需要标注萬量級的數據。為了樣本的均衡性,标注樣本多是随機抽取的,這樣做的優點是可在一定程度上避免樣本偏差,但缺點是要标注大量數據。如果是文本型樣本,有時可借助算法抽取一些高頻、高質量樣本進行标注,這樣可一定程度上減少标注工作量,但可能存在樣本偏差。總之樣本型标注是個苦力活,業界有句話這麼說的:如果你和一個人有仇,那麼勸他去幹标注吧。

數據标注從标注對象方面可劃分為文本标注、圖像标注、語言标注、視頻标注,從标注方式方面可劃分為分類标注、标框标注、描點标注,這些标注分類基本都屬于标注形式的差異,沒有較強的專業度,所以不做較多講述了。

二、數據标注規則的制定

常識性标注的規則比較簡單,标注一部分樣本即可總結出較通用的規則,但專業性标注的規則比較複雜,制定專業的标注規則需要遵循以下三原則:多維分析與綜合分析相結合,因子權重影響因素場景化,問題類型标簽化、結構化。以下是招聘領域簡曆與職位匹配度标注規則的指導思想,具體細節規則會在《數據标注(下)》中闡述。該标注規則比較符合标注規則制定的三原則。

人工智能基礎信息(人工智能的人工部分-數據标注)2

第一,多維分析與綜合分析相結合。

簡曆與職位的匹配度影響因素肯定是多維的,不能隻參考工作經曆或專業要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結果。當然簡曆與職位的匹配标注也不可能一上來就能給出綜合的評分,不能純感性的告訴标注員:你覺得是簡曆與職位非常匹配就給分,不匹配就不給分,這在邏輯上也不合理。所以要先給單一因子打分,然後參考每個因子的評分結果,最終再進行綜合分析給出評分結果。

第二,因子權重影響因素場景化。

前面有提到簡曆與職位匹配度評估需要給每個因子打分,那每個因子打分結束後怎麼給出綜合評分呢,給每個因為賦予權重嗎?然後按權重計算總分?答案是否定的,我們要結合具體場景把所有因子進行歸類分析,比如設定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經曆代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,HR想要1-3年經驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結合場景進行歸類分析是十分必要的。

第三,問題類型标簽化、結構化。

标注結果一般情況下會以分數的形式展示,ABCD,或者0123,然後一組數據沒有得到滿分是因為什麼呢?哪裡不匹配呢?所以前期制定标注規則時一定要把原因分析考慮進去,列出所有不匹配的原因,形成結構化的原因标簽,有利于最終分析Badcase的分類與占比,然後算法或者策略團隊在優化時可以優先解決占比高或影響惡劣的case。

數據标注是一項看似簡單實際卻十分複雜的工作,涉及标注分類、标注規則制定、标注原因分析、标注系統搭建、标注團隊管理等,尤其涉及到專業領域的标注則更困難,本篇主要介紹了标注分類、标注規則制定,細節的标注規則以及标注系統的搭建,标注團隊管理會在後續更新,希望大家持續關注,感謝閱讀!

本文由 @豔傑 原創發布于人人都是産品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved