編輯導語:作為一名AI産品經理,你需要對自身所負責的業務有所洞察,進而根據具體的業務需求、用戶需求來做好産品架構設計。那麼,你了解AI圖像識别業務嗎?本篇文章裡,作者便結合實際經驗,總結了AI圖像識别的相關業務原理,一起來看一下。
一、靈魂三問
1. AI 業務的盈利模式是否完善、合理?
個人認為這是PM最容易發生的問題,把自己放在已有業務上而喪失觀察相鄰業态的大局觀。因為不夠了解市場的多樣性,限制了擴展業務的思路和眼界。
之前我負責的産品主要服務對象是G端客戶,幫助他們識别圖像中的特征,提高業務效率。後來我在上廁所的時候突然就靈光一現腦洞大開,想到除了G端還可以服務B端,因為很多中小微型企業沒有技術能力來實現這些系統,那麼我就可以給這些企業提供SaaS服務,一來是增加公司盈利,二來是通過市場來檢驗産品。
2. 投入産出比能否達到公司預期?
明确自己負責的産品屬于長線收益還是短線收益。如果是長線,那麼就規劃叠代産品,計劃每個階段的投入和産出,大象無形,大音聲稀,掌控好每個細節自然就會脫穎而出。
3. 産品是否符合公司政策和發展基調
PM直接對公司和需求負責,二者的側重點如同排序一樣,有時候好的産品并不符合公司利益,做個俗人,當斷則斷。
之前我們公司赢利點在G端,但是B端在國内也有大量客戶,公司規劃的發展方向也是逐漸摒棄G端以B端為主,所以我就往B端使勁,不管是不是屬于我負責的業務,都想方設法跟B端産生更多業務聯系。
二、産品架構設計公司資源、業務需求等各種條件都較為複雜的情況下,可以通過劃分維度來設計産品,比如可能涉及到配置層、操作層和應用層。
1. 配置層
用來幫助客戶配置AI産品的規則邏輯等内容。可以包括:
- AI識别模型庫,用來維護識别模型的種類,也是業務中科技含量最高的模塊,便于日後的查詢和管理;
- AI權限模塊,用來管理相關的業務人員進行操作,定義使用AI服務的客戶;
- 人工審核管理模塊,用來管理使用AI識别還是人工識别的規則;
- 事件定義模塊,用來定義事件的判斷結果和觸發條件;
- AI服務周期,用來管理AI服務的有效期。
2. 操作層
對AI識别後的結果進行二次檢查。可以設計AI标注庫,用來校驗AI的識别結果,提高正确率。也可以使用人工标注的數據優化現有算法。
3. 應用層
AI産生的結果直接面向客戶。可以設計通知觸發規則,用來管理通知的内容、觸發頻率和受衆類型等;客戶類型,根據客戶類型給客戶展示識别結果和數據可視化内容。
三、圖像識别原理1. 概念
通過當前已有數據對算法模型進行訓練,總結數據的規則,預測新數據的結果。
2. 學習方式
分為《預測學習》和《描述學習》。
1)預測學習
模型訓練之前,使用人工的方式提取特征并給打上标簽。其目标是在給定一系列輸入輸出實例所構成的數據集的條件下,學習輸入x到輸出y的映射關系。
這裡的數據集稱為訓練集,實例的個數稱為訓練樣本數。對于給定的x,可以對所視察到的值與預測的值進行比較。
例如我們現在有大量的獅子和老虎的照片,首先給每張照片都打上對應動物的标簽。然後把這些帶标簽的圖片喂給模型,讓模型知道獅子長什麼樣,老虎長什麼樣。最後我們找一些新的、沒打标簽的圖片給模型,讓它自己識别圖片裡是什麼。這就是一個完整的有監督模式的機器學習過程。
2)描述學習
直接把數據丢給算法模型,又稱為“聚類”。
在給定一系列僅由輸入實例構成的數據集的條件下,其目标是發現數據中的有趣模式。
描述學習有時候也稱為隻是發現,這類問題并沒有明确定義,因為我們不知道需要尋找什麼樣的模式,也沒有明顯的誤差度量可供使用。為了讓機器能夠理解物體之間的關系,我們最終把現實中的特征轉化為“向量”進行計算。
例如擎天柱,張三和我,如果細分的話,張三和我應該是一類,因為屬于人類;擎天柱屬于機械類。最後三者才同歸屬于生命體類。
3)算法模型
目前所有算法模型都是各有千秋的狀态,沒有一種算法能夠被證明全面優于其他算法,每種算法都是為了解決某一特定場景的問題,隻有某一特定場景更優的算法,可以通過對比找到其中最好的算法。
目前出現的相對流行的算法主要是以對象、區域、上下文等場景的分類算法:
① 基于對象的場景分類
這種分類方法以對象為識别單位,根據場景中出現的特定對象來區分不同的場景;基于視覺的場景分類方法大部分都是以對象為單位的,也就是說,通過識别一些有代表性的對象來确定自然界的位置。
典型的基于對象的場景分類方法有以下的中間步驟:特征提取、重組和對象識别。
缺點:底層的錯誤會随着處理的深入而被放大。例如,上位層中小對象的識别往往會受到下屬層相機傳感器的原始噪聲或者光照變化條件的影響。尤其是在寬敞的環境下,目标往往會非常分散,這種方法的應用也受到了限制。
需要指出的是,該方法需要選擇特定環境中的一些固定對象,一般使用深度網絡提取對象特征,并進行分類。例如PCA算法實現識别人臉降維原理,排除冗餘和噪音的幹擾,試驗步驟如下:
② 基于區域的場景分類
首先通過目标候選候選區域選擇算法,生成一系列候選目标區域,然後通過深度神經網絡提取候選目标區域特征,并用這些特征進行分類。
例如K-means算法,它把N個對象根據屬性分為K個類别,使得結果滿足:同一類中的對象相似度較高,不同的對象相似度較小,定義損失函數如下:
其中Xn為待分類的數據點,μk為第k個類别的中心,Rnk∈{0,1}來表示數據點Xn對于k的歸屬(其中n=1,。。。,N;k=1,。。。,k)
如果數據點Xn屬于第k類,則Rnm=1,否則為0。
K-means通過叠代求解,得到使得損失函數J最小的所有數據點的歸屬值{Rnk}和聚類中心{μk}。
③ 基于上下文的場景分類
這類方法不同于前面兩種算法,而将場景圖像看作全局對象而非圖像中的某一對象或細節,這樣可以降低局部噪聲對場景分類的影響。将輸入圖片作為一個特征,并提取可以概括圖像統計或語義的低維特征。
該類方法的目的即為提高場景分類的魯棒性。因為自然圖片中很容易摻雜一些随機噪聲,這類噪聲會對局部處理造成災難性的影響,而對于全局圖像卻可以通過平均數來降低這種影響。
基于上下文的方法,通過識别全局對象,而非場景中的小對象集合或者準确的區域邊界,因此不需要處理小的孤立區域的噪聲和低級圖片的變化,其解決了分割和目标識别分類方法遇到的問題。
四、圖像識别過程圖像識别技術歸納起來,主要包括4個步驟:
1)首先是獲取信息,主要是指将各類信息通過傳感器向電信号轉換,也就是對識别對象的基本信息進行獲取,并通過“聚類”的方式,将其向計算機可識别的信息轉換。
2)然後是信息預處理,主要是指采用去噪、變換及平滑等操作對圖像進行處理,基于此使圖像的重要特點提高。
3)其次是抽取及選擇特征,主要是指在模式識别中,抽取及選擇圖像特征,概括而言就是識别圖像具有種類多樣的特點,如采用一定方式分離,就要識别圖像的特征,獲取特征也被稱為特征抽取。
4)最後是設計分類器及分類決策,其中設計分類器就是根據訓練對識别規則進行制定,基于此識别規則能夠得到特征的主要種類,進而使圖像識别的不斷提高辨識率,此後再通過識别特殊特征,最終實現對圖像的評價和确認。
五、工作應用作為PM\PO\TPM來說,給到技術大佬們的策略是要清晰完整的,舉例:要識别圖片中的人是否帶帽子,那麼這時我們就要描述清楚帽子的顔色、種類和所在位置等維度信息。
最好用爬蟲的方式爬取大量帽子,然後判斷帽子是否在人的腦袋上。在語音識别中,需要建立字符庫,完善優化字符庫的内容。
通過收集和整理,我們對要産品需求會有一個直觀的認知,但随着調研的繼續,我們還可能會發現其他問題。為了避免有價值的信息遺漏,這個階段我們收集的案例,應該具有更多的發散性。
六、用戶感知提升對于用戶來說,能夠讓用戶感知到的是産品的拟人度。但AI的輸出是否合理,這個取決于人的主觀評判。這也是數據标注工作所做的意義所在——盡可能通過标注讓模型更像真實的人。比如在情景對話中,雖然有些回答聽起來很搞笑,但隻要輸出的結果讓人覺得合理,就依然會被人接受。
- 老巫婆:你說這個世界上最美麗的人是誰?
- AI:是白雪公主!
- 老巫婆:再給你一次重新組織語言的機會!
- AI:是白雪公主!
- 老巫婆:你看清楚了,我手裡拿着刀呢!
- AI:是你,你是世界上最美的人!
PS:與AI算法工程師的溝通小技巧
客觀化、可量化、數字化、就事論事。如下:
業務說:大佬,能不能優化下這個模型,好多地方都不準,客戶都投訴啦。
建議溝通方式:
業務說:博士,這個模型的準确率能不能提高到95%?因為目前圖像上的3個點都屬于特征點,但是沒有識别成功。
本文由 @趙走叉 原創發布于人人都是産品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!