8月7日下午,劉研娜正在給不同種類的汽車拉框。
河南郏縣千機數據的辦公室,如同一個大網吧。
人像采集現場。A12-A13版攝影/新京報記者 周小琪
芒種剛過,河南郏縣東郊,望不到邊的農田裡,農民們彎腰割起了小麥。不遠處機械廠、汽車修理廠,機器聲此起彼伏。但再往西的建材廣場卻人來人往,這些天,廣場三樓,來了500個長了眼袋的人。
這500個人中,有剛從玉米地裡匆匆趕過來的農民,連草帽也沒來得及摘下。有機關大樓下了班的公務員,也有服裝店裡請了假的導購員。年輕小姑娘們聚在一起,談論着護膚和美妝。角落裡,大腹便便的中年大叔點了根煙,低頭玩起手機。
他們被輪流帶進了臨時搭的攝影棚裡——一個光線昏暗、不到30平米的小房間,牆壁不久前剛被刷得雪白,裡面擺着椅子、三腳架和燈光器材。
有人指引他們坐在椅子上,面朝一部被固定在黑色三腳架上的手機,手機和眼袋者之間的距離是25厘米,不能多,也不能少。每次開拍前,一名皮膚黝黑,身材微胖,長着老實憨厚方臉的員工都會掏出卷尺,仔細再量一遍。
方臉員工叫張凱。量完距離後,他需要用5部像素不同的手機拍攝這些有眼袋的人。
在白光、黃光、暗光等不同光線下,張凱拍了四輪,加起來總共100張。一般情況下,他3分鐘就能拍完,不會超過5分鐘。
這項工作名為“數據采集”,眼袋者能得到一個價值一二十元的塑料大桶作為獎品。采集而來的照片、語音等數據,将會提供給人工智能企業,用于機器的訓練和學習。
剛接下任務時,領導告訴張凱,這次被拍下的500雙眼袋,會用來給一款手機軟件做測試,以便優化軟件的美顔功能。但具體怎麼測試、怎麼優化,領導沒說,張凱也沒問。
拉對一個框能賺4分錢
去年夏天,張凱有了孩子,他辭掉了原本在石子廠維護器械的工作,回家照顧妻兒。一兩個月後,張凱得重新工作養家,一家名為“千機數據”的公司正好在招人,“輕松、離家近、工資高”。
公司在縣城東邊一個建材廣場的三層,從張凱的老家長橋鎮開車過來,隻用20分鐘。他推開公司門的那一刻,空調的涼風灌進身體,面前的場景讓他有些震驚:幾百名員工坐在棕色的沙發上,埋在電腦屏幕前,不停地拖動鼠标,敲擊鍵盤,“像個大網吧”。
人力主管向他介紹說,公司主要做數據标注,簡單來說就是給圖片上的物體拉框框,隻要會用電腦就能幹。工資保底2000塊,多勞多得。
張凱從沒聽說過“數據标注”,也不懂為什麼拉框。但公司環境好,不像以前一樣風吹日曬,當即決定留下來。
他被安排在一個有電腦的工位上。領導傳來幾百張廚房、餐廳的圖片。張凱需要做的是:把圖片上的碗、碟、杯子、筷子等餐具都框出來,然後選好屬性、分好類。拉對一個框能賺4分錢。
張凱覺得很新奇——把這些鍋碗瓢盆框出來能幹嗎?但初來乍到,他沒好意思多打聽。
第一天上班,張凱費勁拉了幾百個框。他不熟悉規則,比如,三個堆在一起的碗,是應該一起拉一個框,還是分開拉三個框?
一周後,他已經熟練到每天能拉幾千個框,掙100多塊錢。時間久了,張凱看什麼都帶框,看到家裡廚房的鍋碗瓢盆,他第一反應是,框框應該從哪個角度拉?拉多大比較合适?
才來三個月,張凱就開始挑戰難度更高的3D全景圖。圖片都是立體的,有多個平面,分布着各種車輛,有卡車、小汽車、大巴車等,張凱要把車輛都框出來,再分門别類。
這項工作要有良好的空間感才能完成。玩“穿越火線”(一款射擊類遊戲)的經驗幫上了張凱,那款遊戲的場景也是立體的,常常需要切換視角來觀察敵人。張凱沒費多少力氣就上手了。
工作了大半年,張凱就已經是公司最優秀的員工之一,但他依舊沒問過,拉這些框是為了什麼?“我的原則是,我賺我的錢就行,其他的不用管那麼多”。
拍攝有眼袋的人
“數據标注”的工作幹了一年,張凱開始接手新任務“數據采集”。
采集而來的數據,将會被打包上傳給人工智能企業,企業再把這些數據分配其他公司進行“數據标注”,最後再傳回去,成為計算機的學習資料。這些資料能教計算機分辨車輛、廚具等不同的物體,讓它們像人一樣,去認識大千世界。
張凱的第一項采集任務就是拍攝有眼袋的人。公司給出的要求,卧蠶和黑眼圈都不行,年齡必須在18歲到40歲之間。
找人從公司内部開始。500多名員工,隻要領導在公司裡吆喝一聲,滿足條件的就自覺過去排隊。
員工拍完以後,再發動他們拉着自己有眼袋的親朋好友來拍攝。除此之外,公司還聯系了各個村子有威望、人緣好的人,給他們中介費,讓他們來幫忙找。
一開始,張凱完全分不清眼袋、卧蠶和黑眼圈。在他看來,它們都是堆在下眼睑的皮膚組織,隻有喜歡熬夜或者上了年紀的人才會有。
為了這次拍攝任務,張凱仔細研究了很多張照片,終于搞明白這三者的區别:眼袋呈倒三角形,浮腫而松弛;卧蠶是橢圓形的,比眼袋小很多,笑的時候才明顯;黑眼圈則是烏黑色的、平坦的,不會像眼袋和卧蠶一樣凸出來。
但有眼袋的人太少,一天最多隻能拍十幾個。公司決定把條件放寬,有卧蠶的人也可以參與拍攝,這樣一來,一天能拍到100多人。
拍攝前,張凱少不了回答被拍攝者的質疑。有人問,“照片上有我們的正臉,你們會不會拿來做違法的事?要是把它們用來刷臉支付怎麼辦?”
張凱給出解釋:“大街上那麼多攝像頭,如果拍幾張照片就能用來刷臉支付的話,走在路上是不是也不安全?”
“我們公司是正規的,在郏縣開了兩年了,幾百号人,跟我們合作的都是大企業,你就放心吧。”
參與過拍攝的人将會成為公司的人脈。去年夏天,公司接了一個大項目,一次性采集了兩萬多人的影像。
張凱的同事蘇樂丹參與了這個“兩萬多人的大項目”。項目在一間廢棄的二層工廠進行,以三十人或五十人為一組,排好隊,依次戴上墨鏡、口罩或帽子,在一樓、二樓或室外轉幾圈,轉完圈就可以獲贈一口印有“千機數據”的鐵鍋。
攝像頭固定在廠房的不同角落,蘇樂丹的任務是,拿一個大喇叭,維持轉圈圈的秩序,讓他們控制恰當的間距。
這個項目小孩老人都能參加,蘇樂丹叫婆婆也來,婆婆不明白為什麼要轉圈。蘇樂丹解釋,是用于攝像頭的對焦測試,檢測在不同場景、不同裝扮下,攝像頭能否識别出同一個人。
但婆婆不能理解。蘇樂丹拉着婆婆到村口,指着監控說,“就是測試這個能不能精确地拍到犯罪分子”,婆婆樂意了。
讓AI認識蘋果
創辦千機數據之前,公司的CEO劉洋鋒也很少聽說“人工智能”這個詞,他是公司學曆最高的人之一,今年32歲。在他小時候,電腦還是個稀罕物,他看鄭少秋演的《大時代》,沒被縱橫捭阖的證券市場吸引,隻覺得每天坐在電腦面前敲鍵盤很酷。上中專時,他開始學計算機,次次專業課考試都是第一名。
但進入社會後,劉洋鋒的工作幾乎都碰不着計算機的邊。他在重慶、雲南和廣東都待過,開過挖掘機、賣過飲料和化肥。他去過最遠的地方是南美洲,在智利賣産自深圳華強北的山寨手機。
但他說,幹計算機的夢想從沒有被磨滅。有時,晚上做夢也會夢見計算機。
從智利回國後,劉洋鋒和兩個發小湊到一起,準備創業。去年,一個偶然的機會,他們在網上看到一個轉讓的“數據标注”的單子,這是劉洋鋒第一次聽說“數據标注”這個詞。
劉洋鋒先是試用了一下軟件,在照片上框出了一個在馬路上的行人,操作很容易。可他不明白“數據标注”是幹什麼的,網上搜不出多少信息,大部分他都理解不了,直到在一個網頁看到這段話:
“要理解數據标注,得先理解AI其實是部分替代人的認知功能。我們學習認識蘋果,需要有人拿着一個蘋果告訴你,這是一個蘋果。類比機器學習,我們要教他認識一個蘋果,給它一張蘋果的圖片,它是完全不知道的。我們得先有蘋果的圖片,上面标注着‘蘋果’兩個字,然後機器通過學習了大量圖片的特征來認識蘋果。”
劉洋鋒懂了。他把“蘋果”的例子講給發小聽,他們都覺得“這事兒能成”。
從上世紀50年代,美國科學家第一次提出了“人工智能”的概念後,經過60年的技術更叠,人工智能已逐漸滲透進人類的生活。
手機聽懂了人類的語言,車輛學會了選擇最優路線,能繞過桌子腿、捕捉每一粒灰塵的掃地機器人走進了千家萬戶。而廣為人知的人臉識别技術,不僅幫警方在張學友演唱會上先後抓到了多名逃犯,也在今年6月,幫四名走失10年的孩子找到了家。
劉洋鋒并不了解人工智能相關的技術,但從新聞上感覺到人工智能會是未來科技發展的新趨勢。
他們仨一起湊了10萬塊錢,在縣城租下了一間30平
(上接) 方米的單間,從鄭州拉回了20台價值1000多塊的二手電腦。然後通過微信群和朋友圈招了十幾個員工。
乘着“人工智能”的東風,劉洋鋒的單子越來越多,短短幾月,公司租下了一整層3000平方米,可以容納數百名員工。除郏縣外,還在鄭州、許昌、平頂山等地也開設了分公司。
他不再“來者不拒”,有公司聯系他談采集項目,内容是讓采集員拍攝地上的廢紙、果核、頭發絲兒,包括貓屎,用來訓練掃地機器人的視覺。劉洋鋒拒絕了,“不能天天讓員工趴地上拍貓屎,太奇怪了”。
流水線上的老師
千機數據現在共有500多名員工,大多都和張凱一樣,本地人,年輕,隻有初中或高中學曆,對電腦、互聯網和人工智能沒有太多認知。
劉洋鋒招人最重要的标準要能“坐得住”。前不久,有個年輕男生來應聘,說自己工作了兩年,在鄭州和蘇州都待過。劉洋鋒直接拒絕了他,“兩年就能跑兩個城市,說明非常不穩定。”
在員工中,女性占大多數,她們大多已經結婚生子。
去年5月,劉研娜在朋友圈看到千機數據招聘電腦操作員的消息,要求很簡單,“18歲到38歲,男女不限,簡單懂電腦,有上進心,細心耐心”,“工資3000到8000,上不封頂,多勞多得”。
劉研娜的第一反應是“騙人的”、“搞傳銷的”。在這座河南中部的小縣城,像她這樣隻有中學學曆的年輕女孩,能找到的工作基本隻有超市營業員、商店導購或是飯店服務員,月薪不會超過2000塊。直到來公司轉了一圈後,劉研娜才放下顧慮,成為“網吧”的一員。
剛來的時候,出于好奇,劉研娜向身邊的同事打聽,拉框是為什麼?沒人答得上來。大多數人都隻是低頭做事,不關心這些。直到有一次,領導在開會時偶然提到,這些數據主要“為人工智能服務”,她才似懂非懂。
8月8日上午,公司門口,張凱拿着一部手機,正在測試一項新的采集任務。在背光、偏亮和正常三種光線下,被采集者分别作出了高興、厭惡等表情。作到“驚訝”時,張凱提醒他,“眼睛瞪大點”、“嘴巴再張開一點”。
上個月,張凱升任了主管,以前六點半就能準時下班,現在晚上十點回家成了常态。
到千機數據工作後,張凱成為了全家離高科技最近的人。
他的母親在東莞工廠的流水線上工作,父親在深圳做裝修、鋪地闆磚。弟弟今年19歲,高中還沒上完,就一個人去新疆賣手機配件了。妻子原來在郏縣的一家超市當導購,去年生完孩子後,在家當家庭主婦。
剛找到工作時,家人和朋友都會問他,這份工作是幹什麼的?他的答案是:标注是坐在電腦前拉框,采集是天天給别人拍照。其他的,張凱不會多說,家人也不會追問。
張凱在長橋鎮的一座小村莊長大,家家戶戶都種玉米、小麥和花生,那個年代,很少有人知道“電腦”是什麼。等上了中學,同齡人都喜歡泡在網吧玩《夢幻西遊》,他不喜歡那款遊戲,因為遊戲“靠運氣、要砸錢”。他隻好一個人在院子裡摔“紙面包”、蹦彈珠。
張凱念完初中後,跟媽媽一起去了東莞,後來又到了深圳、泉州,他幹過最長的一份工作是對講機組裝。四年的時間裡,張凱用手指把無數塊鐵制的電池片壓進了對講機盒子裡,這些電池片和喇叭、天線、主機闆一起,組成了成千上萬個對講機,銷往世界各地。
蘇樂丹和張凱有過相似的經曆。2005年,她跟表姐一起去了廣東,在電子廠做過品鑒、在寶石廠穿過珠子,每天從早上七點半工作到晚上七點半,一個月休息兩天,月薪800多塊錢。
對張凱、蘇樂丹和千機數據的其他普通員工來說,他們現在采集、标注的數據,和穿過的珠子、壓過的電池片沒有什麼不同,都是流水線上的一個部件。
唯一的不同是,他們知道珠子怎麼穿成手串和項鍊、電池片怎麼和其他部件組成對講機,但不知道數據要如何“喂”給機器、機器要如何學習。
張凱到了千機數據之後才第一次聽說“人工智能”這個詞,即便已經升任主管,他對工作的認識也隻停留在“為人工智能提供前期數據”。
在通往公司的樓梯間,貼着幾張巨幅海報,海報上都是機器人和電腦,看起來科技感十足。劉洋鋒把“人工智能如何認識蘋果”的那段話也印在了上面,張凱一次也沒認真讀過。
“萬物皆可AI”
昔日流水線上的工人,成為了教“人工智能”認識蘋果、桌子、椅子的第一位老師,把認知事物的經驗濃縮進一張張圖片中以後,他們對人工智能也開始有了更敏銳的感知。
今年6月,張凱第一次坐上了高鐵。他興奮地發了朋友圈,配了一張高鐵時速304km的圖片,說:“這玩意最快能跑多少?”
進高鐵站時,張凱拿着身份證和高鐵票,經過一道需要人臉識别的閘機,攝像頭對着他的臉掃描了幾秒鐘後,顯示“請通過”。他突然想到,以前做标注時做過人臉标點,會不會應用在了這上面?
兩年前,張凱花8萬塊買了一輛小轎車,出行時,常常用到車載語音系統。現在,他明白了語音系統之所以能順利運作,是建立在大量的語音采集、标注基礎上的。
刷到跟人工智能相關的新聞時,張凱也會打開看。他對一個“5G時代高科技抓逃犯”的視頻印象深刻,視頻裡,地鐵站的監控能捕捉到每一個行人的面部信息,精準地識别出犯罪嫌疑人的樣貌。
偶爾,張凱也有擔憂和恐懼。前幾天,他看到有品牌出了一款能自動系鞋帶的運動鞋,他無法理解,連系鞋帶這樣簡單的事都要靠機器來做,那人該幹什麼?
“科技如果發展得太快,會淘汰掉很多東西”,張凱最擔心的是,機器會取代掉那些流水線上的工人,他們都會失業。
2017年,李開複曾公開表示,“一項本來由人從事的工作,如果可以在5秒鐘以内能對工作中需要思考和決策的問題作出相應的決定,那麼,這項工作就有非常大的可能被人工智能全部或部分取代”。
他預測,翻譯、銷售、司機、家政等工作,未來10年将有約90%被人工智能全部或部分取代。“但是,還有很多人所特有的、綜合素質的技能是無法被取代的。此外,因為人與機器産生了新的協作方式,還會出現新的工作類型。”
同年7月,國務院發布的人工智能計劃提出,到2030年,中國要成為人工智能創新核心。工信部教育考試中心副主任周明曾向媒體透露,中國人工智能人才缺口超過500萬人。
張凱覺得,像他們這樣做數據采集和标注的工人,很難被替代。“畢竟機器還要通過我們來學習,想象一下,如果機器會自己學習,那就說明它們已經無法把控了,這很可怕。”
劉洋鋒也思考過這個問題。前幾天,在接受電視台采訪時,他把人工智能産業比作了一個人,“算法工程師他們負責的是大腦,而我們負責的是四肢”,二者都不可或缺。他們公司采集、标注好的數據,要經過一套特定的算法加工,才能喂給機器,算法是人工智能中最核心的部分。
劉洋鋒也擔憂,畢竟“承接的都是重複性的工作”。他想,随着技術的發展,原本需要一萬張照片數據才能完成的學習,或許隻需要五張照片就能完成,屆時,他們的工作量将會面臨大幅減少的情況。
為了防止這種情況的出現,劉洋鋒開始把業務向高端化、專業化轉移。去年,他承接了一項醫療數據項目,需要對病例進行分析,公司的員工都做不來,他在網上找了幾十個醫學研究生來做兼職。
劉洋鋒擔心被淘汰,他加了很多人工智能相關的學術交流群。來自清華、北大等知名高校的教授和研究生們,常常會在裡面更新研究進展,或是轉發研究論文。
劉洋鋒每條消息都會點開看,再轉到朋友圈。群裡發的很多論文都是英文,劉洋鋒看不懂,就用電腦自帶的翻譯軟件一句一句地翻。有些文章的專業性太強,劉洋鋒就隻看摘要和那些跟數據處理相關的部分。
效果很明顯,“以前都是工程師們說什麼就是什麼,現在我至少可以從專業的角度,來和他們探讨一些東西,比如數據采集、标注的具體要求等等”。
但碰上算法的問題,劉洋鋒就沒轍了。一次,員工們忙活了一個星期,做完了一個人臉标點項目,每張臉上标84個點,一共一萬張圖。對接的部門打包驗收完以後,算法工程師卻說,有幾個點的位置與算法的要求不符,需要調整,必須打回來重做。劉洋鋒隻好帶着員工們多幹了一周,并多發了一份工資。
在劉洋鋒過去的人生中,人工智能神秘、新奇且遙不可及。短短兩年,他發現,“萬物皆可AI”。比如,手機裡的視頻軟件,錄制時的美顔功能要靠人工智能,加特效要靠人工智能,給用戶推送的内容也要靠人工智能。
和張凱不同,劉洋鋒期待那個充滿人工智能的未來。創業這兩年,公司接了很多無人駕駛的項目,框出了數不清的路标、紅綠燈和斑馬線。劉洋鋒看着這些圖片,常常幻想,有朝一日能買一輛無人駕駛汽車,坐進車裡,動動嘴,把目的地告訴系統,然後倒頭大睡,車子便把自己送到目的地。
“那一天一定不會太遠”。(新京報記者 周小琪 實習生 梁文雪)
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!