tft每日頭條

 > 科技

 > 富士康四大項目

富士康四大項目

科技 更新时间:2024-07-26 17:22:31

富士康四大項目(擊碎數據标注五大誤解)1

圖片來源@Unsplash

“我覺得标注行業一直在承受誤解,特别是在被貼上人工智能界‘富士康’的标簽之後。”

“外界會覺得:AI這麼高大上,背後卻是一群打标簽的人。(他們)想刻意制造反差,就直接(把标注)定義成勞動密集型行業。”見到钛媒體編輯時,倍賽數據CEO杜霖忍不住吐槽道,“我不想讓人再去看小作坊,想讓人看看業内還有我們這種技術公司。”

2015年前後,AlphaGo橫空出世,掀起了國内AI創業的浪潮。

五年間,人工智能行業在聚光燈下飛奔,跑出實驗室、實現”AI 産業“落地,并成為新基建的重要組成。AI行業也經曆了資本的冰與火,逐漸走向理性。

但作為AI産業鍊的最上遊,數據标注行業卻一直遊離在聚光燈外,很少被人提起。

即便外界有觀感,也大多想象這個行業絕大多數公司會是“富士康”一樣的流水線,亦或是三四線城市的小作坊。

就連劉慈欣都會說:現在的人工智能,前面有多少智能後面就有多少人工。數據标注行業,更多被用來調侃人們對AI的期望與差距。

但實際上,這個行業已經走過了小作坊的粗放時期,開始走進“技術緻勝”的時代。

誤解一:數據标注隻靠人力

2017年,《經濟學人》發表的封面文章中提出了一個疑問:數據更像石油還是陽光?

文章作者認為,數據是“世界上最寶貴的資源”,數據是未來的石油。但另一方面,數據也具有公共物品的特征,人們應該對其進行廣泛的收集和利用,以最大程度地創造财富。在這個意義上,數據就如陽光一般。

富士康四大項目(擊碎數據标注五大誤解)2

如同石油和陽光,數據不經過煉化、轉換沒法應用,而最初采集數據、處理數據的人,就是數據标注師們。

作為AI應用大國,國内的數據标注公司,與AI創業潮近乎是同時起步。剛起步時,國内AI大多處于實驗室研發階段,所需數據量小,也并無定制化需求,因此行業門檻較低,大多以勞動密集型的作坊出現,這些“小作坊”以外包(BPO)業務為主,也給外界留下了“富士康”的印象。

而現在随着AI大規模落地,向産業更深更廣延伸,使得标注場景更細分、數據類型更複雜,行業開始跨過野蠻生長,進入精耕細作。整個AI基礎數據服務産業正在經曆轉型升級——更多勞動密集型企業正面臨生死關頭,更多的技術型公司正在突出重圍。

艾瑞咨詢今年發布的報告顯示,2019年中國AI基礎數據服務行業市場規模可達30.9億元,預計2025年市場規模将突破100億元,年化增長率達到21.8%。

報告指出,中小型數據供應商的整體體量仍然可觀,但随着業務門檻提升、客戶需求多樣化,越來越多中小型供應商在苦惱生存問題,這一群體在未來1-2年内将迎來“倒閉潮”。

杜霖所在的倍賽數據(BasicFinder,以下簡稱倍賽)就是家典型的标注技術公司。

這家公司定位是AI的基礎設施供應商,構建從數據标注、數據管理到建模的一系列底層基礎設施。

杜霖團隊的核心成員都是機器學習和AI從業者,但2015年國内AI創業熱時,他們卻選擇了AI産業鍊的最上遊——數據标注。

“我們一直堅信一句話叫code is cheap(代碼是最便宜的)。随着Google TensorFlow、Pytorch等開源框架的推出,AI公司建模的門檻會越來越低,從前海外名校博士的工作現在本科學生都可以做。”杜霖對钛媒體App表示

“如果我們做AI技術公司,就要在模型甚至更底層的神經網絡研究中發力。而我們看到的更大的藍海其實是數據,未來算法門檻越來越低,而數據則會越來越高。“

杜霖表示,大量數據标注企業都強調解決就業,而非技術屬性,這也是行業被視為勞動密集型的原因之一,但這并不代表這個賽道裡不需要技術。

“京東的主要人員構成是快遞小哥對不對,但京東是勞動密集型企業嗎?本質上它還是技術驅動的。”

當前,随着AI建模能力外溢,技術門檻降低,不僅科技公司、各行各業對數據的需求都在增長。科技公司想通過巨大的數據池構建模型壁壘,也有更多企業開始重視自有業務數據的标注及模型疊代,對标注系統的私有化部署或工具SaaS需求開始增長。

一位不願具名的AI從業者對钛媒體App表示,國内一些頭部AI公司宣稱建立了模型壁壘,但本質上是由于積累了絕大部分數據而形成的數據壁壘,其實各家的模型并沒有代際上的差異。

杜霖也強調了數據量對建模效率的影響。“請一群厲害的博士去攻克一個場景,或許僅能提升不到5%的效率,但如果能在數據端多20%的數據,效果會比從底層算法研發提升更多。”

在他看來,标注企業的核心競争力還是技術。“這個行業經曆了大洗牌,勞動密集、壓榨工資的企業被淘汰,最後變成技術主導。技術提升效率、産生了成本優勢,通過理解客戶需求、再加上自有技術和平台,标注企業就能形成自己的壁壘。”

誤解二:數據标注不被資本重視?

但“勞動密集型”這一刻闆印象,依然存在于數據标注這個産業中。體現在投融資上尤為明顯。

杜霖認為,國外比較認可标注公司的技術價值,北美數據标注公司與國内相關公司的估值至少相差10倍。“國外做标注工具軟件的企業已經在投融資中火起來了,我們也就是千萬級人民币,他們融資規模普遍比我們大,基本都是幾千萬美金起步。”

據钛媒體App不完全統計,海外技術驅動型公司已經受到關注。其中,黑馬企業Scale AI在C輪融資1億美元後,投後估值已超10億美元,跻身獨角獸行列。不少标注公司被企業收購,比如老牌标注公司Figure Eight也3億美金被Appen收購,初創的Mighty AI被Uber全資收購。今年3到4月,海外的DefineCrowd、LabelBox紛紛完成數千萬美元融資。

而國内标注公司中,愛數智慧在A輪融資後的估值約為2億元人民币,這在同類公司中已經屬于融資表現較好的了,國内同類公司融資額基本在千萬級人民币左右。

富士康四大項目(擊碎數據标注五大誤解)3

钛媒體整理了部分數據标注公司投融資情況,數據來自天眼查以及公開資料

五嶽資本(N5Capital)董事總經理蒲俊臣對钛媒體App表示,與北美同類型公司産生估值差,是因為國内大部分投資者将标注技術公司等同于标注業務公司,加之部分媒體對行業勞動密集屬性的刻畫,使得提升行業效率的技術價值沒有被公允認可。不過,随着投資者對行業認識深入,這種差距會逐漸減少。

對于國内标注公司是否有投資價值,投資方也有不同看法。

在蒲俊臣看來,标注技術型公司仍有投資價值。

“一方面,AI公司在算力、算法方向投入的增量梯度逐漸下降,未來市場存在巨大的數據需求;另一方面,這類公司的智能标注工具不僅提升了數據的産出效率,同時也在數據、輔助标注模型的疊代中打造出了完善的AI基礎設施。AI的未來就是數據到模型的無縫輸出。”

星瀚資本創始合夥人楊歌則認為,要判斷投資價值,最重要的是看産業能否閉環。

“要看上下遊公司是否有長期的經濟需求、會不會長期使用這個工具、工具成熟後會不會自己做,邊際價值會不會遞減等。評判一家數據标注公司,抛開上下遊去評判是沒有價值的。所以投資時,不能把标注了多少數據當做資産,一定要從供需角度去判斷其價值。”

楊歌對钛媒體App表示,數據标注行業雖然to B,但和供應鍊、金融貿易等行業相比,需求存在不穩定性,且容易被替代。即便是做SaaS的技術公司,也很難有絕對的技術壁壘,基本屬于營銷導向或客戶關系導向。而且這種服務型公司通常是乙方,市場把控和定價能力較弱,所以風險比較高,這也是投資時要關注的點。

誤解三:數據标注不需要高學曆

在以往的印象中,數據标注從業者往往學曆不高、工作環境惡劣,但這隻是行業的一枚切片,事實的一角。

那些“喂養”AI的人們,既有标注基地的标注員,也包括技術公司中做系統開發維護的程序員們。一個标注項目,往往先給到标注技術公司或衆包平台,再由他們派遣給自營标注基地或外包人員。

以倍賽為例,公司當前有兩條業務線,一條是自研的數據标注SaaS平台,另一條是為數據保密性強的大中型企業研發數據标注的私有化版本。公司算法工程師的日常工作,就是開發維護平台,并不斷訓練AI模型來輔助人工标注。

倍賽北京辦公室都是SaaS平台的研發人員,有着紐約大學、上海交大、哈工大和北航的教育背景。钛媒體編輯到訪時,一位算法工程師正在優化SaaS系統。系統中“物體自動識别”的能力已經可以自動識别并标注80種物體,該工程師正在“訓練”AI識别更多的物體。

在工程師的打磨下,當前SaaS平台已具備從數據采集、打标簽到直接生成模型的能力。倍賽自營的20多家數據标注基地和衆包人員,均在其自有SaaS平台上完成标注工作。

“最近2個月,在我們的SaaS平台上有1萬多人、700多個團隊、面向300多個客戶做着數據标注工作。我們的AI輔助功能也能提升效率。”杜霖介紹道。

除了倍賽這種标注技術公司,互聯網大廠也正在深度參與數據标注工作。自2011年起,百度就自建數據采标團隊,支持内部AI業務。面對日益增長的數據标注需求,百度後續開始輸出其數據标注能力。

2018年9月,百度山西人工智能基礎數據項目(以下簡稱基地)與山西省轉型綜合改革示範區簽約。自簽約至今,百度已經為山西引入35家國内數據标注企業,通過導入百度自有的數據标注業務,為人員提供業務培訓,幫助标注企業實現了近億元營收。當前,基地從業人員達到2000餘人,是國内人員和産值規模最大的單體數據标注基地。

富士康四大項目(擊碎數據标注五大誤解)4

百度(山西)人工智能基礎數據産業基地

在此前的想象中,數據标注基地更像是“工廠裡冷冰冰的流水線”,标注員們在非常機械地工作。然而,當钛媒體編輯走進百度位于山西的标注基地,看到一萬平方米的基地,按照NLP、無人駕駛、内容識别、語音識别等門類分布着不同的辦公區域。每20-30位标注員在一間辦公室,都在對電腦上各色的數據文件進行标注,給人一種學生時代上電腦課的感覺。

富士康四大項目(擊碎數據标注五大誤解)5

百度(山西)人工智能基礎數據産業基地

基地的數據标注員李宇龍現在還記得他從業以來第一個,也是印象最深刻的項目。

他來自傳統行業,接觸的第一個項目就是“車道線“标注,這一數據往往被用來訓練自動駕駛技術——在自動駕駛車輛行駛途中會自行連續拍攝圖片,而标注員需要對圖片上車輛經過的車道線進行編号,其中一種是識别實線還是虛線,因為車輛僅可以在虛線變道,實線不行。

“項目的難點是城市道路比較複雜,因為車輛多了有些車道線可能會被遮蓋,還有在路口會遇到導流線,匝道和主道之間的分叉、交會是非常難的。”李宇龍對钛媒體App表示。

李宇龍剛上手時,隻拿到了軟件和一份規則,規則簡單陳述了要在哪些位置打點。起初他覺得這隻是重複工,但随着技能熟練度提升,他在标注上也面臨了更多考驗。

他最初接觸的車道線是2D圖片,但因為自動駕駛車上的激光雷達采集的是3D數據,這些從360度觀測的、具有立體點狀特征的數據需要标注員具備空間思維能力。

“在3D數據中我們看到的隻有一片點狀物,并不清楚具體是什麼,标注員需要準确找到這輛車,并且把它的輪廓、長寬高的細節都标注出來。在這個過程中,标注員要先從2D圖了解如何作業,記住規則口訣,搭配2D圖一起看3D環繞的圖形,這樣最快可以在一個星期内掌握。”

入行兩年後,李宇龍已經從數據标注員成為培訓師,日常工作就是根據項目特點對人員進行培訓。

據他介紹,從數據标注師做起,可以做到培訓師,甚至成為機器訓練師,要求會逐步提高。開始隻需掌握标注技能,後來則需要發現缺失的數據或者程序bug。

像百度山西基地,大多數人都是專科背景,經過培訓可掌握通用型的拉框或打點任務。但涉及到醫療、金融、語言、法律等專業領域,往往需要具備專業知識的數據師來标注。

“外界總是說數據标注是勞動密集型,但我覺得它也是知識密集型的”,杜霖對钛媒體表示。

比如醫療數據标注,會涉及到眼底數據、或腫瘤區域的圖像分割,這種看片子的任務往往要由有專業醫學背景的人負責;涉及到方言和外語的内容需要找掌握該門語言的标注員。金融領域則需要具備金融知識的專業人士來操作。

“像做法律文書标注或投融資事件分析時,就不能再找大專背景,得找相關專業的本科生。做醫療數據标注時,必須要找醫學院的學生來完成。”杜霖表示。

誤解四:薪資隻是工人水平?

數據标注師的薪水也往往被認為是極其低廉的。但實際上,由于任務的規模和難度不同、要求的時限不同、以及是否涉及到專業領域知識、數據标注員們的薪資也有很大的彈性空間。

“由于項目标準不同,計費方式也不同。有各種計費的組合,有些是依照點、線、區域,有些是參照每張圖,相對來說還是按計件收入算。”山西麟諾網絡科技有限公司李應維說道。

“我做車道線項目時,一天8個小時能賺300塊。這個收入在同事其實處于中等位置,收入最高的人一天可以破千”,李宇龍對钛媒體表示,“每個項目會有個上手期,之後會越做越快,質量越來越高”。

同在基地的标注員郭梅,剛入行時一天最多隻能标注300根車道線,現在一天最多可以标注1700根,折算成收入便從每天70元漲到了每天300元以上。

“在基地裡最高有人月入過萬,不過收入均值會落在三千到五千之間,在山西太原是比平均水平好一些的。”百度(山西)人工智能基礎數據産業基地負責人尉赤對钛媒體App表示。

尉赤也向钛媒體回憶道,之前有項目做英文數據,要求标注員必須持有英語四級證書。

“這種項目本身價值高的、屬于專業領域的,整體收入也會更高。”

不過,數據标注行業分層較大,既有科技企業自建的标注基地、也有衆包平台、以及團體或個人的小作坊。外包給個人或小作坊的産量不穩定,分到的任務會更初級,計費更低,這也就構成了數據标注行業薪資的下限。

數據标注行業與AI的應用場景息息相關,随着AI落地場景,對數據的要求也更加多樣而複雜。國内最早需要大規模标注、同時最易獲得的是人臉數據。與此同時,自動駕駛、智慧醫療、語音翻譯轉寫等領域的AI落地也催生了不同的數據需求。以自動駕駛為例:物體檢測所需數據量最少,隻需要教AI認識幾千到一萬張圖像,而自動駕駛領域涉及生命安全,不允許犯錯,所需數據量往往在百萬級以上。

在問及數據标注的難點時,杜霖表示“如何理解客戶需求,并嵌入其實際業務”是比較難的問題。

例如,同樣都是标注“人像”,實際方案卻不同。如果商場要統計客流量,隻需要框選人物輪廓計數即可;如果要判斷是否有暴恐行為,就要對人物的動作行為進行分析;如果要判斷人物情緒,就要對其臉部表情進行标注; 而做瘦臉特效的話,就要對人臉輪廓進行精細打點。

誤解五:數據标注本身不需要AI?

有意思的是,行業雖然越來越成熟,但數據采集和标注工作所占的成本,正在AI模型的完整生命流程中逐漸上升。

據杜霖透露,2015年剛起步時由于AI工程師貴,數據采标成本僅占總體的10%-20%,但由于AI工程師的成本降了不少,數據需求量又越來越大,現在采标成本在總成本中已經占到了30%-40%。

因此,在從勞動密集型轉向技術密集型的同時,數據标注産業當然也在利用AI提升效率。

當前,将技術引入數據标注流程已是業内通用做法,讓訓練好的AI模型反哺人工标注,也是标注技術公司的優勢所在。

倍賽的數據标注SaaS平台,像Photoshop一樣可選擇标注界面和工具。倍賽還開發了一系列AI輔助的功能,内嵌在平台中供标注師使用。

比如AI輔助打點,以往标注師想要精細描摹一輛車的輪廓,需要手工打上30多個點。如果标注一輛車需要1分鐘,那麼标注圖片上所有物體則平均需要1小時。

“借助AI輔助功能,現在隻需在車的外輪廓上任意打4個點,系統就會自動把30個點全部打完,輪廓貼合的也很好。這樣人工打點就能減少到4個,隻需進行微調,減少了一半用時,效率也提升了。”杜霖對钛媒體表示。

富士康四大項目(擊碎數據标注五大誤解)6

AI輔助數據标注之智能語義分割(來源:倍賽數據)

當前,有監督的機器學習技術占據了AI發展的主流,但學術圈已經開始向自監督學習模型進行探索——他們認為該模型能讓AI從數據标注中解脫出來,無需任何人工标注數據就能完成學習。

不過,在一些全新的領域,機器尚不能輔助人類工作,數據标注仍需人力完成。即便有了AI自動化标注工具,依然要由人來做審核質檢的最後一步。

“往往在較成熟的領域或熟悉的場景中會衍生出自動化工具,比如圖像中的物體識别。機器要經過大量訓練獲取這種知識,才能作為工具去輔助人工。如果是全新的應用場景,在AI還沒訓練好的情況下是沒法輔助的,”尉赤對钛媒體App解釋道。

楊歌對钛媒體App表示,清晰且标準化的數據更适合AI标注,模糊且繁瑣的社會性數據隻能由人來進行。比如法院的案件要做歸檔處理,AI很難去判斷案件到底是刑事還是民事。涉及到道德、原則、好壞方面的内容,需要由人處理。

杜霖則進一步向钛媒體App闡釋,在數據标注流程中,AI輔助的比重往往與算法的成熟度成正相關。比如說檢測人物時,一個熟練掌握“人像”的算法可完成70%的任務量,人工隻需做30%。但用同樣的算法去框選“物品”,可能人工标注就要占到80%。

問題在于,數據标注師在把AI“喂養”得更智能的同時,是否也在“革自己的命”?在未來,數據标注師這個新工種有可能被AI取代嗎?

杜霖認為,在數據标注領域,AI完全取代人力尚且遙遠。就拿自監督學習為例,這一技術仍屬于前沿探索領域,在全場景内還很難落地,尚未實現大規模普及,更不用說從根源上去取代人工标注。

“現在正從信息化邁向數據化,工業4.0會使數據标注更加工程化。這個階段還是以有監督式學習為主,它還沒有完全成熟,現在算法還在不斷疊代中。”楊歌表示。

但這個新興的、離AI最近的職業,會不會有更深刻的“被替代”焦慮?

一些從業者這樣回答:“數據标注師是最後一批被AI取代的群體,因為總有些工作需要人來做。”

(本文首發钛媒體App,作者 | 蘆依,編輯 | 趙宇航)

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved