tft每日頭條

 > 職場

 > 數據标注難不難做

數據标注難不難做

職場 更新时间:2024-10-05 19:22:55

密集的工位上擺放着一排排整齊的電腦,這裡的員工或浏覽圖片,或看視頻,或聽語音,他們一邊看,一邊标記着他們看到的東西。有的是在為無人駕駛公司标注汽車、紅綠燈,有的在為教育機構标注課程對話,有的在為醫院病曆單進行标注.......

數據标注難不難做(你可能不太了解)1

談及數據标注行業,人們的第一印象總是直接(把标注)定義成勞動密集型行業,依靠着視覺沖擊,對數據标注行業有了基礎的皮毛了解後,忍不住發表觀點:這不就是富士康嗎?亦或者我們看到的某些新聞對數據行業的報道凸顯的是“重複工作”“低學曆”“條件艱苦”,但是實際上,數據标注這個行業已經走過了小作坊的粗放式,開始走進“技術緻勝”的時代。

數據标注難不難做(你可能不太了解)2

數據如何标注?

如今,大多數數據都沒有标注。帶标簽的數據,意味着标注或注釋目标模型的數據,以便可以預測。通常,數據标注包括數據标注,注釋,審核,分類,轉錄和處理。

标注的數據突出顯示某些特征,并根據這些特征對其進行分類,可以通過模型分析其模式以預測新的目标。例如,對于自動駕駛汽車中的計算機視覺,AI專業人員或數據标注者可以使用視頻标注工具來指示路牌的位置,并通過行人和其他車輛的位置來訓練模型。

數據标注本身也需要AI來輔助

文章開始,我們就說過,數據标注正在走向“技術緻勝”的時代,因此數據标注産業也在利用AI提升工作效率。

目前,将技術引入到數據标注流程已經是業内通用的做法,讓訓練好的AI模型反哺人工标注,也是标注技術公司的優勢所在。

像LabelIme支持對象檢測、圖像語義分割數據标注;Photoshop可選擇标注界面和工具;point-cloud-annotation-tool支持3D BOX盒子生成,支持KITTI-bin格式數據.....

再比如AI輔助打點,以往标注師想要精細描摹一輛車的輪廓,需要手工打上30多個點。如果标注一輛車需要1分鐘,那麼标注圖片上所有物體則平均需要1小時。

“借助AI輔助功能,現在隻需在車的外輪廓上任意打4個點,系統就會自動把30個點全部打完,輪廓貼合的也很好。這樣人工打點就能減少到4個,隻需進行微調,減少了一半用時,效率也提升了。”

數據标注難不難做(你可能不太了解)3

AI輔助數據标注之智能語義分割(來源:倍賽數據)

不過,在一些全新的領域,機器尚不能輔助人類工作,數據标注仍需人力完成。即便有了AI自動化标注工具,依然要由人來做審核質檢的最後一步。

數據标注更像是一個裁縫

2017年《經濟學人》發表的封面文章提出一個疑問:數據更像是有還是陽光?

數據标注難不難做(你可能不太了解)4

不可否認,數據是“世界上最寶貴的資源”,數據是未來的石油;但相比石油、打字員、訓練師這樣的定義呢,我們将數據标注比拟為【心靈手巧的裁縫】更為恰當。标注師們根據行業的要求,按照用戶的非标準化需求量體裁衣。一個數據的完成也是需要經過選料(選擇合作商,下放标注任務)、量體(數據采集、數據标注)、試穿(數據提交、數據質檢)、改樣(數據修改、在提交,審核),每一步都錯不了,每一步也不可缺少。

高質量的數據标注需要高學曆、取得相關資質證件

通過報道我們看到的像百度山西基地,大多數人都是專科背景,經過培訓可掌握通用型的拉框、打點任務。但涉及到醫療、金融、語言、法律等專業領域,往往需要具備專業知識的數據标注師來标注。

例如:在2017年,Google AI公布了一項突破性研究成果:通過機器學習技術,AI能夠從病人的視網膜眼底照片中 自動診斷出潛在的病變情況,來提前發現糖尿病視網膜病變,進行及時的治療和預防,讓患者保住視力。

數據标注難不難做(你可能不太了解)5

(比如這種,你能告訴我哪個是有病變的嗎?)

而你如果想要接到類似上述Google的數據單子,是需要取得醫師資格證。同樣的涉及到像做法律文書标注或投融資事件分析,則更是需要相關專業的本科生來完成。所以你還認為數據标注是一項簡單的工作嗎?

人工智能取代了大量的工作,那麼數據标注呢?

據時代的曆史,大約公元前18000年人類用計數棒進行儲存和分析數據;伊尚戈人的骨頭于1960年在現在的烏幹達發現,這被認為是史前數據存儲的最早證據之一;在公元前2400年,算盤作為第一個專門用于計算的專用設備在巴比倫開始使用。第一座圖書館也是在這個時候出現的,這是人類首次嘗試大規模的數據存儲。

數據标注難不難做(你可能不太了解)6

從古至今,人類發展都離不開數據。随着近幾年“數據時代”、“人工智能”成為熱點詞,人工智能發展成熟到一定階段,當AI代替了大量人類工作的時候,不會僅僅是個别行業的零星問題,最終的發展方向隻會是更加專業的數據标注人才取代基礎工種。

就人才需求層面來講:

《新一代人工智能發展規劃》提出,到2020年人工智能總體技術和應用與世界先進水平同步,核心産業規模超過1500億元,到2025年人工智能核心産業規模超過4000億元,到2030年人工智能理論、技術與應用總體達到世界領先水平,核心産業規模超過1萬億元。随着政策的進一步推動以及技術的進步成熟,人工智能産業落地速度将明顯提速,中國AI數據服務行業也将迎來巨大的發展浪潮。

數據标注難不難做(你可能不太了解)7

數據标注難不難做(你可能不太了解)8

相關調查顯示,2019年,企業在數據标簽上的支出超過17億美元。到2024年,這一數字将達到41億美元,因此目前的數據标注人才仍舊處在一個極為緊缺的階段。

雖然在未來,AI很有可能發展到“自己教自己”這一步。但目前為止,大部分的數據标注工作都是由真人完成的。這個工作不像大家想象的那麼簡單,而是充滿了複雜的判定和繁瑣的重複。

而随着人們對數據的需求越來越高,也有越來越多的人開始靠标注數據為生。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关職場资讯推荐

热门職場资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved