前兩篇筆者分别為大家介紹了AI産品經理需要了解的概率論通識、線性代數通識、微積分通識,本篇文章中,筆者将繼續為你介紹AI産品經理需要了解的數據标注,供大家一參考學習。
前幾天參加京東的AI技術沙龍,在提問環節,有個小夥說:
“我是做銷售的,剛才您講的我都沒聽懂,我就知道,現在AI是風口,隻要做AI相關的就能掙錢,您能說幾個現在我們這類人能做到嗎?能掙錢就行!”
台上技術出身的老師自然一時語塞。小夥說的沒錯,百團大戰的時候确實一批刷單公司賺得盆滿缽滿。但是這些投機取巧注定不能長遠。
讓更多人卷進這次AI浪潮的可能就是數據标注了,All in AI的百度擁有大量的标注業務,大部分河南标注工廠用的是百度的标注工具,幹的是百度的活。開始的時候标注的利潤空間可以達到60%—70%。有些企業盲目擴張,一下子招了幾百人;但是陸奇離開後,百度需求減少。準确率又普遍提高至95%-96%,活難幹了。這些工廠隻會百度的标注工具,很難接别家的業務,因此死了一批。
現在來看标注行業是一個苦行業,“如果你和誰有仇,就勸他幹标注吧。”這是标注圈有名的段子。幹标注就像将水倒進一個水桶裡,每拉一個框就是添一碗水。目前,誰也不知道還能添多久,隻有水溢出來時,才知道。
數據是AI公司的必需品。數據對于AI模型的重要性尤為重要,AI建模沒有門檻,數據才是門檻。現階段的人工智能是簡單的認知智能。分類器的構造是個數學問題,就是由數據堆起來的。或者說深度學習本質上是個數學問題,是由大量的樣本空間數據反向構造分類器的系數空間的過程。
數據标注模型
數據标注業務的配置是一個複雜的數學模型。比如,有些任務需要串并聯的工作流,并聯的工作流是多人協同的工作。串聯的工作流是後一個結果是基于前一個結果進行處理的,串并聯的工作流需要平台來實現業務工作流的配置。比如一些NLP型的文本标注作業,需要多個人來标,最後N選一或者投票。串并聯配置涉及到底層數據流的分發等。或者說更像是一個流水線作業流程。
不斷地用标注後的數據去訓練模型,不斷調整模型參數,得到指标數值更高的模型。
數據的質量直接會影響到模型的質量,因此數據标注流程設計和監督糾錯就顯得異常重要。
一般來說,數據标注部分可以有三個角色:
- 數據标注員:标注員負責标記數據。(文本、圖像、視頻)
- 數據審核員:審核員負責審核被标記數據的質量。(抽檢)
- 标注管理員:管理人員、發放任務、跟進流程。
隻有在數據被審核員審核通過後,這批數據才能入庫使用。
一般衆包數據标記流程
- 任務分配:一般數據分配由後台自動分發,根據用戶選擇标注類型每次分發幾條内容,标注完成後再次分發。
- 複核入庫:一般一條任務會分配給大于三個人的基數人員完成,根據少數服從多數原則确定該條數據的最終标簽。
- 質量驗收:一般會根據用戶标注總數量和入庫數量計算該用戶的标注質量,和計算有效标注數量,質量高的和質量低的薪酬計算方法會有差别,以此來淘汰不能完成高質量标注的人員。
數據标注類型
圖像标注-線标注
根據需求标注檢測對象相對應的線型位置,例如:車道線。
圖像标注-邊框标注
标注檢測對象相對應的區域,例如:汽車/行人等各種物體。
圖像标注-3D邊框标注
将圖像中待檢測物體以立體形式标注,例如汽車檢測。
圖像标注-語義分隔
根據檢測區域不同,将圖像标注為不同的像素,例如來自汽車拍攝的圖像。
圖像标注-多邊形标注
根據需求标注檢測對象的形狀,例如:标注圖像中的汽車輪廓(示例圖)或标記污損邊界。
圖像标注-點标注
根據需求标注檢測對象參考點的像素坐标,或者圖像中的關鍵點标記,如人臉。
圖像标注-3D點雲标注
在3D空間中,标注點雲數據中指定的檢測對象,如汽車、行車道等。
視頻标注-跟蹤标注
在視頻或者連續的圖像中跟蹤标注檢測對象,形成有ID關聯的運動軌迹。
文本标注-中英文語音轉寫與校對
英文語音轉中文文本,或中文文本轉英文語音。
文本标注
實體命名,标注文本中的實體。
語音标注-客服語音标注
外呼機器人進行外呼記錄語音标注呼叫成功或者失敗,從而訓練話術。
标注流程
- 需求确認:對标注任務需求确認,标注數據集準備完成,規範标注需求,指定标注模型。
- 人員篩選:确定标注人員及人員角色
- 人員培訓:針對不同角色培訓标注規範和标注标準
- 開始試标:先标注少量數據,試用标注數據,調整标注流程,使得效率最優。
- 正式标注:完成整體标注任務。導出數據。
總結
快速、高效的進行數據标注,是機器學習和深度學習的基礎,現在一些标注工具通過深度學習模型和主動學習技術,通過NLP模型來提高标注效率,集數據标注、數據管理、模型訓練和模型服務于一體,使數據标注更加輕松、更高效。離AI最近的重複複雜的工作,是首先會被機器取代的。
#相關閱讀#
《AI産品經理需要了解的概率論通識:4個概念3個問題》
《AI産品經理需要了解的線性代數通識》
《AI産品經理需要了解的微積分通識》
作者:老張,宜信集團保險事業部智能保險産品負責人,運營軍師聯盟創始人之一,《運營實戰手冊》作者之一。
本文由 @老張 原創發布于人人都是産品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!