随着數據衆包産業的不斷崛起,本文從數據衆包産業化中的不同闆塊進行解析,為我們分享數據衆包産業化的行業發展以及發展特征。
在互聯網有一種新的産業正在興起,那就是——數據衆包。要想深入了解什麼是數據衆包就要從它的客戶需求聊起:
“數據衆包”的金主爸爸:産業上遊AI
人工智能(Artificial Intelligence),它是研究、開發用于模拟、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。AI是目前對數據需求量最大的客戶,并且都是大型公司,小企業由于各方面資源的限制很少會使用大數據進行研究。
AI是一個新領域麼?
不是,AI是計算機科學的一個分支,AI一詞最初是在1956 年Dartmouth學會上提出。從神經網絡到人機耦合,當前的AI研究更着眼于從人類産生的數據中分析算法來訓練計算機從事人的工作。
AI現在能做什麼?
- 解放工業生産力:應用于工業領域,例如:使用AI處理工業數據或機器人操作。
- 人臉識别與監控:應用于國防安保、金融加密等。
- 服務行業:智能語音(聊天)機器人替代人類從事24小時客服工作、電話銷售、家庭陪伴等。
- 其他:在汽車、醫療、設計、廣告、影視等領域輔助人類進行工作。
“數據衆包”的甲方大佬:機器學習
機器學習是AI的一個分支。機器學習使用算法解析數據,從中學習,然後對世界上的某件事情做出決定或預測。機器學習與軟件編程最大的區别是——機器學習是在教計算機如何開發一個算法來完成任務而不是編寫程序讓計算機執行任務。機器學習使用分類和回歸、聚類和降維、以及曆史經驗達到學習的目的。
Python
目前做人工智能的公司基本上選擇的都是Python語言。Python是一門解釋型編程語言,方便調試而且可以跨平台。Python語言具有豐富的第三方程序庫,一些平台會面向互聯網用戶提供機器學習的Python應用編程接口。Python也有豐富完整的開源工具包。機器學習中最常用的一些庫:Scikit-learn、Tensorflow、Theano、Pandas、Matplotlib、Seaborn。
大數據
大數據指不用随機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。
大數據的5V特點(IBM提出):
- Volume(大量)
- Velocity(高速)
- Variety(多樣)
- Value(低價值密度)
- Veracity(真實性)
數據就像是機器學習的燃料,5V的程度越高機器學習的效果越好。
數據服務産業化——産業下遊衆包模式
為了給機器學習提供充足的數據進行訓練和驗證,研究人員需要大量的原始數據和标準化數據。提供數據衆包服務的平台也就應運而生。
目前BAT都有了自己的數據衆包服務平台/服務:百度數據衆包平台、阿裡人工智能衆包(公測)、騰訊數據标注采集服務。
其他比較知名的衆包平台還有:螞蟻衆包、有道AI衆包(目前新用戶停止審核)、華為數據衆包、Testin雲測、來打标數據平台。
百度數據衆包服務(圖片來自官網)
數據衆包服務的形式
數據衆包服務分為個人分包和企業分包兩種。
個人分包
即服務商運營衆包平台/app面向普通大衆分派任務,服務商提供便捷易學習的數據标注/拍攝/識别工具,對接包者進行培訓和訓練以達到可以提供标準數據服務的目的,接包者大多是兼職人群,可以提供簡單的操作獲取回報。
個人分包的好處是:價格便宜,服務商可以以低廉的價格獲取處理結果。
企業分包
即服務商将數據任務包分派給合作商,由合作商完成并提供返回符合要求的處理結果。目前阿裡和騰訊基本采用這種衆包方式。
企業分包的好處是:易管理,服務商無需分派過多人手進行分包、驗收等工作。
專職分包商即接包的企業,他們與大數據服務商進行合作,接到任務後或自己組織人手處理數據、或運營平台分配給其他個人或更小的專職分包商。
衆包平台對上遊的依賴
衆包平台上的原始“發包方“基本為BAT以及幾個走在AI領域前沿的大型公司,所以第三方的衆包平台對上遊的依賴嚴重,即失去“發包方”後難以再利用手中的資源創造新的市場。通過衆包形式來采集的數據質量參差不齊,即使衆包平台對采集到的數據進行清洗、整理,仍然無法提高其與适用場景的契合度,這也制約了衆包數據毛利率上升空間。
衆包平台對地域的要求
大多數數據都以文字、音頻、視頻的形式保存,所以衆包平台很難達到跨國經營。所以歐美國家一些成熟的數據衆包公司始終沒有進入中國市場,相比适應中文,他們更願意嘗試拉丁文語言市場。
而由于我國方言種類繁多,數據衆包是否具有嚴格的地域性标準還未可知,我們僅知道目前語音翻譯軟件公司對此有采集要求。
衆包平台自拓市場
為了能夠擺脫“發包方”的絕對控制,衆包平台隻能研發新的服務項目。拓展新的服務對象就是延伸衆包數據市場的一個新手段。
協助政府監控
在過去的幾十年中,政府的數據來源都是自下而上的彙報,部分數據來自于調研。在這個長長的彙報鍊條中,如何避免利益相關者的幹擾,如何得到一手真是數據是一個大問題。數據衆包服務可以發送全民提供數據,即使有部分數據失真,也能保證大數據具有參考價值。
美國公司Premise Data通過上萬名兼職人員,以拍照等形式采集商品的價格。這些數據經過整理後被賣給政府部門用于監控市場上各類商品的價格變動。Premise Data在2017年的估值大約為3.75億美元。
盤活傳統企業數據
傳統企業在經營過程中會産生大量生産數據,這些數據可能就此沉默在檔案庫和電腦中。衆包數據服務給了這些數據盤活的機會。人工分類、人工标注是遠超程序的數據清洗手段,但由于其需要的人力資源巨大,一般企業難以承受。衆包平台可以通過培訓、考核等方法将這一枯燥的工作包裝成兼職,以低價獲得高質量數據。
各大衆包平台/産品
我們可以看出來目前數據衆包是一個大魚吃小魚,小魚吃蝦米的産業鍊。作為一項操作簡單,人人皆可參與的工作,數據衆包在未來可能會遍地開花,一人一台電腦或者一部手機就可以開設一個數據小作坊。
在打字錄入逐漸被計算機替代的今天,數據标注、數據識别等需要人腦進行“無計算感官識别”的工作仍然無法被機器代替。這一新興的、面向“低端”勞務市場的領域目前還在藍海階段,在中國這樣的人口大國如果能設計出一條“數據處理流水線”,也許就能在這個人機耦合時代下打造一個面向全球的數據“富士康”代工廠。
#專欄作家#
無問西東,人人都是産品經理專欄作家。工商管理碩士,貓奴一枚。主導過金融公司台賬系統、多公司OA系統;參與過二手車平台、P2P平台設計。
本文原創發布于人人都是産品經理。未經許可,禁止轉載
題圖來自 Unsplash ,基于 CC0 協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!