tft每日頭條

 > 生活

 > 從普通程序員到ai入門

從普通程序員到ai入門

生活 更新时间:2024-09-18 13:09:37

完全就是民工了,這不是調侃。

作者 | 劉鑫

編輯 | 園長

刺猬公社(ID:ciweigongshe)和何信通話的時候,他正在做數據标注的工作。

電腦屏上的圖片裡,三三兩兩的人在操場上,或是在跳繩,或是在圍觀。何信要做的是用鼠标将正在跳繩的人框出來。“說出來你可能都不相信,就是畫這一個框。”何信解釋道,“好比你現在打開電腦,然後摁住鼠标右鍵拉一下,在桌面上就是一個框就是3分錢。”

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)1

何信在做數據标注工作,何信供圖

何信做數據标注的工作有一年多,他自己成立了一個創業小團隊,團隊裡有十幾個人。他們的項目涉及百度、網易、阿裡等互聯網大廠,他也做細緻的“打點”工作,類似一個鞋的邊框打點一周,二十幾個點,掙一到兩角錢。

“阿裡衆包、京東微工、百度衆測、有道衆包……”市面上這樣的産品有很多,利用碎片化時間獲得收入、操作簡單無門檻是它們最主要的賣點。這類互聯網大廠推出兼職平台,主要以衆包的形式給用戶分配任務,用戶通過完成任務來獲得報酬。但相較這些大廠的知名産品而言,兼職平台們的下載量并不高。

刺猬公社查詢産品下載量統計平台七麥數據後發現,AppStore中阿裡衆包、騰訊搜活幫、京東微工、百度衆包等四款産品,近30日日均下載量未超過2000。

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)2

圖源:七麥數據 查詢時間:2021年4月27日

從産品數據上看,互聯網大廠的兼職App隻能說不溫不火。在靈活用工、兼職經濟高度發展的當下,這類兼職App為什麼沒做起來?都是誰在做這份工作?

收益太少,羊毛難薅

互聯網大廠出品的兼職APP中,運作流程是:平台發布任務,用戶領取任務驗收後獲得收益。綜合各平台來看,主要有數據标注、數據采集、數據轉寫工作。細分到具體領域,又分為文本、圖片、語音、視頻等部分的信息處理。任務的價格一般在0.1元到幾十元不等。

在騰訊搜活幫裡,李元接了十幾單任務,賺了不到兩塊錢。

放棄倒不是因為錢少,而是因為這份工作過于機械化,重複性勞動讓李元很不适應。他大學讀的是電子信息工程專業,畢業後工作也比較清閑。出于賺錢和打發時間的目的,李元下載了這款衆包類型的軟件。

衆包,通俗來講,就是從大衆那裡尋找資源。它本意是指一個公司或機構把過去由員工執行的工作任務,以自由自願的形式外包給非特定的(而且通常是大型的)大衆志願者的做法。

以京東微工的數據标注為例,在最新一期的任務裡要求對文本進行情感判斷,根據自己的認知選擇文本是正向、中性還是負面。該結算兩分一條,以10條為結算單位,要求正确率100%。

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)3

圖源:京東微工

數據采集一般為音頻、圖片、視頻方面的采集,周舟熱衷于做數字采集方面的工作,2019年高中畢業後,他開始嘗試這方面的兼職工作。兩年的時間,他陸陸續續賺了3000多。“我也沒有天天去看,阿裡衆包在年終、年初、年底的任務很多。”

在每個任務裡,都有明确的要求,周舟認為這樣很明确,可以很快地分辨哪些好做哪些不好做。

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)4

圖源:阿裡衆包

相比于數據标注、采集方面的工作,數據轉寫的門檻稍微高些。所謂的數據轉寫,主要是各種語言轉譯工作,比如,在有道衆包的少兒英語段音頻轉寫裡,要求口誤重複、語法錯誤等如實轉寫,這對于答題者的英語水平要求不低。

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)5

圖源:有道衆包

為了确保用戶所提交産品的質量,除了在提交内容上有所要求,在用戶提交前也有所培訓。在騰訊搜活幫裡需要首先進行考試,考試通過後方能進行答題。周舟曾經做過這類型的考題,做完20道題,正确11道,他得出了結論——裸考必挂。

李元參加這種考試,也沒有一次就過的情況,“這種題目需要耐心和比較細膩的語感,而我是那種粗枝大葉的人,而且多次失敗之後帶來的挫敗感太糟糕了。”

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)6

圖源:騰訊搜活幫

等平台發任務——做任務——等平台審核是這類衆包軟件使用的常規流程,而在這些流程裡有任何一個環節脫節,都會帶來不好的用戶體驗。

下載軟件發現無任務可做,做任務時發現門檻過高,任務完成發現審核太久,審核後發現正确率不合格……在這條任務鍊裡,用戶會遭遇各樣的問題,有網友在五個任務都審核失敗後發文稱“費力不讨好。”

部分平台審核不合格後,價格會打折扣。但還是有人賺到錢了,在有道衆包的3月酬勞排行榜上,第一名酬勞1945.99元。周舟對于自己兩年多攢的3000多元表示滿意,“因為目前還是在校生,沒有工作。”

“一小時10元吧。”何信評估了一下做衆包工作的平均報酬。

用戶下沉,也在内卷

兼職衆包的平台用戶,有一種團隊化的趨勢。

就目前市面上的衆包産品來看,任務很多是不定期推送的,新用戶注冊後平台上有可能面臨無任務可領的情況,而相較于加公會做團隊而言,普通用戶賺的錢是很少的。

而這份工作的主力,互聯網巨頭們可能也并沒有瞄準客戶端的普通用戶。據何信了解,向他這樣做團隊接項目的同行有不少,在平台活躍着的也有很大部分是像他們這樣的團隊。

相比于單獨個人當兼職做,團隊化容易的多。價格在近些年也有了不小的變化,以前價格很貴,現在的價格越來越低,由此帶來用戶的不斷往下沉澱。何信表示用戶下沉是要找便宜的勞動力。

2016左右,那時候做數據标注的人還不是很多,何信說那時候價格是目前兩到三倍,畫一個框大概七八分錢。

“以前做的人少就掙錢,現在做的人多了就不值錢了,就這個意思。”兼職衆包的用戶們,也在不可避免地遭遇内卷。

在何信團隊裡,一個成熟的員工一小時能畫600個框,按照一個框3分的标準,能賺18元。“但是這個價格是我完全不賺錢。”何信說。而3分的價格在面向用戶的平台裡很少出現,在用戶平台端三分的價格算是很高的。何信找的熟人介紹做項目,一般接一個項目幾千上萬的量,然後做上一個月。

這個行業流動性很大,重複性勞動和越來越低的價格讓很多人止步于此。何信的團隊不算大,上個月還是五六個人。來的員工一般都是學生,兼職在做這份工作。五六個兼職的同學才能留下一個,何信對自己團隊流動習以為常。

“一開始不熟悉業務,做不了那麼快,幾乎就賺不了什麼錢,完全看自己做的數量。”何信解釋團隊流動大的原因。

除了數據标注,何信的團隊也做過涉及語音轉義、數據采集等方面的工作,兩三歲孩童的語音、粵語、陝西話的轉義他們都做過。語音轉義一般來說三分鐘能給到七塊左右,數據采集工作相對來說賺的更多,但過于費時費力,這塊業務也慢慢擱下了。

“車道線、車、人臉,人體……”何信做的數據标注類目有很多,但都是二維的。數據标注的同行們有的在做三維标注,這樣的工作日薪能達300元左右。

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)7

圖源:百度衆測

但這樣的薪資并不是普遍化的,簡單重複性的二維圖片數據标注工作薪資并沒那麼可觀。

小作坊的出現,是數據标注團隊的一個大趨勢。何信對于這份工作的人有大概的畫像。在城鄉結合部,或者鄉村小作坊,有那麼一批人,二三十歲,學曆不是很高,就在縣城做這樣的工作。而很多人也有投資這種數據小作坊的打算。

“我就形容它是網絡時代的那種手工作坊。”何信對這種城鄉結合部的小作坊下了一個定義。

“網絡時代的民工?”

“完全就是民工了,這不是調侃。”

互聯網大廠,為什麼需要人兼職訓練AI

“訓練AI啊。”

何信很明确的知道自己所做的工作,電子信息工程專業的李元也知道這份工作的意義,“平台給你提供的題目相當于是一個訓練的樣本。所有你做的題目就是AI的訓練集,它會通過人類的這種思維判斷去訓練AI。”

“能知道的隻有他(平台)告訴我的。具體數據去哪了,用于什麼了,沒有去深究。”周舟隻知道平台告知的信息,在阿裡衆包的一個任務中顯示,您接受的任務中涉及對個人信息的收集,任務發布者承諾在此任務中收集到的個人信息将會用于“算法訓練——牙齒病種識别”的目的,并僅限于任務發布者使用,并不向任何第三方轉讓、共享以及披露,匿名化或去标識化的除外。

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)8

圖源:阿裡衆包

“我們要教機器認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不知道這是個什麼東西的,需要現有蘋果的圖片,上面标注着“蘋果”兩個字,然後機器通過學習了大量的這類圖片,才能認識蘋果,其中将圖片表示為“蘋果”的工作就是數據标注。”

騰訊搜活幫用上述例子,說明了數據标注的意義。數據标注員的工作就是在教機器學習。

人工智能包含着機器學習,而監督學習是機器學習的一種訓練方式,通俗來講,是要給機器一種标準答案來不斷進行訓練,以此來達到人類一些識别認知的能力,這也是深度學習的一個目标。深度學習的成功所依賴的既不是算法,也不是計算能力,而是訓練和驗證數據的可用性,這些數據最終是通過人的參與獲得的。

這是一個非常重複性的勞動,因為機器學習需要大量的樣本,大量的樣本是由無數重複性勞動所造就的。

而這種重複性勞動在很早之前就有了。2003年,一款“ESP遊戲”就用了這種勞動,它的目的是通過互聯網上人們的自由參與來獲得描述圖像的标簽。在一個遊戲中,兩個玩家在屏幕上看到相同的圖像,并被提示輸入描述該圖像的關鍵字。他們看不到對方正在鍵入什麼,但如果兩人輸入相同的關鍵字足夠快(“匹配”),他們就會得到分數。實際上,這些關鍵字可以用作圖像的精确标簽。“ESP遊戲”後來被谷歌收購,被稱為谷歌圖像标簽。

不止人工的重複性勞動,驗證碼也是訓練機器的一種方式。驗證碼本身是在人機交互中構建,以驗證用戶實際上是“人工用戶”的工具。reCAPTCHA公司擴展了這一原則,将人類用戶的反應重新用作工業深度學習項目的培訓數據。為此,用戶需要解決一個小任務,如圖像識别或文本識别,這對人類來說是一個低的障礙,但對計算機機器人來說是一個高的障礙。而reCAPTCHA也被谷歌收購了。

科技自媒體“品玩”曾報道過類似的現象,驗證碼越來越有内容,比如标注門牌路牌,讓用戶幫分類數據庫等。“品玩”也指出在 reCAPTCHA 官網上,Google 公開說明了 reCAPTCHA 集衆人之力标注數據,訓練 AI 的“衆包”模式。

從普通程序員到ai入門(我在大廠訓練AI用鼠标拉框)9

網絡中識别圖片的驗證碼

捕獲人類的認知的方式已經不再局限于衆包中的重複性勞動,将人類的認知嵌入到計算機網絡中,讓人和機器的關系更加密切,而這種隐性的認知捕獲在互聯網的各個角落都在發生着。

在重複性勞動不斷減少的當下,何信準備謀求新的出路。他的同行朋友們已經開始在做簡單的數據AI,讓簡單型的數據标注工作交給機器來操作。

用機器做出來的訓練集來訓練機器,是一個有意思的事情。

在城鄉結合部,一批二三十歲的人正在批量生産着AI訓練集,重複是他們工作的常态。也正是因為如此,工作枯燥、報酬微薄,充斥着“訓練AI”任務的衆包兼職平台相當乏味,勸退了不少被兼職平台大廠背景所吸引的用戶。

而随着AI和機器的不斷自我訓練和進化,AI訓練AI就在不遠的未來,這類平台的未來可能性将會更小。

備注:以上何信、李元、周舟均為化名

參考資料:

《Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning》,Rainer Mühlhoff

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved