tft每日頭條

 > 科技

 > 數據标注工具的小知識點

數據标注工具的小知識點

科技 更新时间:2024-11-30 05:44:12

數據标注工具的小知識點(數據标注員時代的一粒沙)1

深夜11點,趙明在提交最後一個數據包後,終于長舒了一口氣。

作為一名普通的數據标注員,這是他一周以來第一次早于午夜12前點下班。

十幾天以前,他所在的團隊接到了一個“大項目”:在發了無數封郵件、打了無數次電話後,某甲方終于答應分撥給他們團隊一個新任務。

時至今日,趙明依然清晰地記得當時老闆臉上那掩飾不住的喜悅表情以及激動的呐喊聲。畢竟,他所在的這個小團隊已經有半個月沒有開工了,這是他們重振旗鼓的一個好機會。

然而,這份喜悅卻并沒有維持多久,當大家看到任務需求詳情後,所有人都沉默了。

這次争取得到的任務是一份圖像語義分割類的項目,相似的項目趙明所在的團隊不是沒有做過,但這次的數據場景要複雜的多,而且最重要的一點是,甲方更換了标注平台,這意味着他們要額外騰出一定時間去學習使用新平台,項目周期被變相壓縮了。

從風險管理的角度考量,接下這個項目盈利的概率微乎其微,但是老闆最終還是拍闆決定嘗試一下。對此,團隊内很多人表示有些不理解,不過趙明卻很清楚背後的原因。

對于他所在的這個隻有十幾個人的小團隊而言,一個月不接任務即意味着團隊解散。這個項目雖然難度很高,但已經是他們在短時間内可以拿到的最合适項目了,縱然有風險與難度,但無論如何也要努力搏一下,于是就出現了文章開頭的一幕。

而趙明團隊所正在經曆的場景,其實也是當下很多數據标注小團隊内的真實寫照。

01

趙明第一次接觸到“數據标注”這個新鮮詞還是在2018年,彼時也正是國内數據标注行業起步興盛的階段。

“初中畢業後,我就一直在外打工,長時間在外漂泊讓我感到毫無歸屬感,于是2018年我回到老家,想在老家物色一份新工作,也正是在那段時間,我接觸到了數據标注這個行業。”

趙明回憶起剛接觸數據标注行業時的場景:“那個時候,老家已經有很多人從事這個行業了,大的團隊上百人,小的團隊隻有幾個人。

我當時還很疑惑,心想人工智能這麼高端的行業我們普通人也能做嗎,後來經過别人介紹才發現,數據标注這份職業門檻較低,屬于重複性勞動,經過簡單的培訓就可以上手,于是我就進入了這個行業中。”

“剛開始時候,項目都比較簡單,以圖像類的項目為主,描點拉框的類型居多。雖然我們這裡大大小小的團隊很多,但是每個團隊都能拿到一定量的任務,作為标注員日常收入也較為可觀,雖然不如外出打工賺得多,但勝在穩定離家近。”

“不過,這種好日子很快就到頭了。2019年開始,項目來源開始不穩定起來,而且任務的類型、場景也越來越複雜。

傳統的拉框、描點等簡單類項目利潤空間越來越少,複雜标注類型比如全景語義分割、3D點雲标注類型開始多起來,但由于這類标注類型對我們标注員的能力要求比較高,學習掌握周期也很久,所以很多團隊都解散了,我們标注員的收入也開始不穩定起來,感覺行業進入了一個瓶頸期。”

02

趙明的經曆其實也正是近些年數據标注行業發展的一個縮影。

作為人工智能行業的基礎,數據與算法、算力一起共同構成了人工智能最重要的三要素。

由于現階段提升AI認知世界能力的最有效途徑仍然是監督學習,而監督學習下的深度學習算法訓練需要海量已标注好的數據集,所以為機器學習算法訓練提供數據标注服務就成為近年人工智能熱潮中必不可少的一環。

行業發展早期,由于衆多AI企業對算法的訓練更多是以實驗為主,并無具體的應用要求,所以彼時對标注數據集的質量要求較低,這在無形中催生了大量中小型數據标注團隊的誕生。

此時打在數據标注行業身上的标簽為“勞動密集型”、“門檻低”、“魚龍混雜”。

但人工智能基礎數據服務本質上卻并非人們想象中的數據作坊,其發展依賴于基于技術的數據處理平台和工具,以及科學高效的管理。

随着人工智能從業企業的算法模型經過多年的打磨,基本達到階段性成熟,數據标注行業也在悄然發生着改變。

AI企業對訓練數據集的質量要求不斷提高,并且當産業落地成為主旋律時,需求方對垂直場景的定制化數據标注需求成為主流,各類複雜場景下的标注類型提升了行業技術門檻,衆多小型AI基礎數據服務供應商無論在數據質量還是在服務能力上均無法滿足要求,擺在其面前的選擇要麼是被淘汰,要麼是依附大平台,亦或者是走最難的一條路——獨立研發。

“像我們這種小團隊,沒有技術研發實力,一般是甲方提供什麼标注平台,我們就使用什麼平台。一旦甲方更換,我們可能就需要重新學習新平台的使用,這就會壓縮本就不富裕的項目周期,造成項目交付拖延。

此外,這個行業内的人員流動也極為頻繁,短短幾個月内,一個團隊内的成員可能就會完全換成新的一批人,管理和培訓就需要重新再走一遍。”

“我們也想嘗試穩定住團隊,同時提升團隊成員的标注能力,以接一些利潤率高一些、技術難度大一些的項目,比如自動駕駛3D點雲類項目。

但是一來我們能接觸到這些項目的機會很有限,二來市面上也沒有公開的提供點雲标注能力的工具供我們訓練,最後的結果就是被行業所淘汰,像我們這種行業底層的數據标注員,可供選擇的機會并不多。”

時代的一粒沙,落到每個人身上都是一座山。

03

“雖然中小型數據供應商的體量仍然可觀,但随着業務門檻提升、客戶需求多樣化、價格戰中利潤被壓縮等情況成為常态,越來越多的中小型數據供應商在苦惱生存問題,加之業務斷檔期人員成本的壓力,該群體在未來1-2年内将迎來一陣倒閉潮。”

這是艾瑞咨詢在《2020年中國AI基礎數據服務行業研究報告》中,對趙明所在的這類中小規模團隊給出的分析内容。

與中小團隊的“慘狀”相對應,則是行業快速擴張的市場需求與經營規模不斷擴大的品牌數據服務商。

“通過數據顯示,2019年中小型數據供應商份額比預期值縮小了20.8%,而這部分份額按7:3的比例,向品牌數據服務商和需求方自建團隊釋放,作為行業的頭部陣營品牌數據服務商在這一階段受益最多,不僅營收方面得以增長,也逐步穩固了自身領頭羊的地位。

而根據增量市場的特征,品牌數據服務商在品牌效益、團隊建設、資質、服務意識、業務能力等方面均有優勢,在未來增量市場成為主要拉動力的競争階段将占有更大的主動性,從這兩方面看,未來品牌數據服務商陣營将替代中小型供應商陣營,占有市場的主要份額。”

這是艾瑞咨詢對于行業未來的一種預測。在經曆了初期野蠻生長階段後,數據标注行業迎來了一段相對殘酷的洗牌期。

“2020年開始,我們這裡數據标注團隊的數量就開始明顯減少了,我也陸陸續續換了幾家團隊,不過都不穩定。對于我們這種沒有技術研發實力與商務拓展能力的團隊來說,以後的日子隻怕是會越來越不好過。”

在談及自身未來發展時,趙明說道:“從我自身角度而言,我想繼續在這個行業中做下去。現在我們标注員内部的競争也越來越激烈了,隻有提升自身能力,盡可能掌握更多标注技能,或許才是最正确的選擇。”

趙明頓了頓,繼續說道:“不過很少有人願意教我們,行業内也沒有養成接受職業培訓的習慣。”

04

數據标注行業裡有着這樣的一段話:“有多少智能,就有多少人工”。這句話在某種程度上道出了人工智能的本質。

作為數據标注行業重要的“底層架構師”,數據标注員為人工智能行業的發展貢獻了重要的數據能源。但從一門職業的角度考量,數據标注員的社會重要性以及職業發展卻長久被人忽略。

正如趙明所說的一樣:“很少有人願意教我們,行業内也沒有養成接受職業培訓的習慣。”

不過,這種狀況正在發生改變。

2020年2月,數據标注員被正式定義為“人工智能訓練師”并納入國家職業分類目錄。

人工智能訓練師新職業隸屬于軟件和信息技術服務人員小類,主要工作任務包括:标注和加工原始數據、分析提煉專業領域特征,訓練和評測人工智能産品相關的算法、功能和性能,設計交互流程和應用解決方案,監控分析管理産品應用數據、調整優化參數配置等。

國家政策層面,也多次強調人工智能領域人才培養的重要性,無論是國務院印發的《新一代人工智能發展規劃》,還是國家教育主管部門制定的《高等學校人工智能創新行動計劃》,内容中均提及要大力加強人工智能人才培訓,滿足我國人工智能發展帶來的高技能、高質量專業人才需求。

而從行業内部角度考量,加強數據标注員能力素質培養,提升其就業競争力也有着重要的現實意義。

2020年4月人力資源與社會保障部發布的《新職業——人工智能工程技術人員就業景氣現狀分析報告》中指出,近三成期望在人工智能領域大展身手的求職者與雇主所要求的各項指标相距甚遠,主要原因是求職者對人工智能了解不足,缺乏實際AI技能與實踐經驗。

由于合格的人工智能人才培養需要的時間遠高于于一般IT人才,因此不斷加強人工智能教育,補齊人才短闆,是我國高等教育的當務之急。

《報告》同時指出,目前我國人工智能人才缺口超過500萬,供需比例嚴重失衡。而與之相對應,則是行業較低的薪資水平。相關統計數據顯示,目前從事簡單類數據标注工作的員工,平均時薪隻有十幾元,而高薪酬标注項目則由于自身技能水平不達标等原因而無法參與。

這既是數據标注員自身的損失,同時也是行業的損失,高素質人才的缺口已在無形中成為阻礙行業發展的頭等因素。

所以,加強數據标注行業内的職業技能培訓,建立起通用的行業人才培訓标準,真正意義上填補員工職業發展與企業用人的需求,是推動數據标注行業有序健康發展的重中之重。

“時代的一粒沙,落到每個人身上都是一座山,但是我們也有選擇的機會不是,不斷提升自己,主動适應行業的發展,才是永保競争力的關鍵。”

(本文中出現的人物為化名)

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved