tft每日頭條

 > 職場

 > ai産品架構圖

ai産品架構圖

職場 更新时间:2024-06-27 00:08:15

編輯導語:本文作者根據自己從0到1搭建指尖查詞功能的經驗,以大力智能台燈産品為例,從産品經理的視角,梳理了AI産品(計算機視覺産品)的工作流,感興趣的小夥伴們一起來看一下吧。

ai産品架構圖(AI産品工作流梳理)1

最近在做類似大力和有道的智能台燈産品,從0到1搭建了指尖查詞功能,對AI産品算是有了一些基礎的理解。

本文試圖以産品經理的視角梳理AI産品(計算機視覺産品)的工作流。

一、工作流框架

下圖是一個AI産品的大概框架。這裡面關鍵的認知是,AI能力疊代是跟産品功能疊代平行的、一條需要基于反饋不斷疊代的一個子工作流。

ai産品架構圖(AI産品工作流梳理)2

引用自微軟《人工智能系統》

基于兩者是平行的流程,我們可以借鑒産品經理的工作流,對AI産研的工作流程進行拆解和構建。下面,我們來看一下每個流程中AI産研應該關注的問題。

二、需求分析

在需求分析階段,對AI産研來說,同樣需要了解用戶、場景、需求。接下來舉一些例子。

1. 場景分析

不同的場景對于AI的需求是不一樣的。比如在于指尖查詞項目中,我們需要了解用戶在使用智能硬件産品時的燈光環境,這個涉及到我們對于算法訓練集的選擇。

在學習場景中,可能很多家長或者孩子會在光線很暗情況下看書,但是他們可能自己并不知道。

還有的人家裡的燈光很黃,拍出來的圖像就會顯模糊。還有的圖像會有一些暗光甚至局部曝光。

另外,有些攝像頭會在不同的光線之下自動做白平衡,這會導緻最後出來的圖像差異非常大,這些都會導緻最後算法的準确率很差。

——紙上世界創始人分享

2. 痛點分析

我們需要了解用戶在某個場景下的問題,然後分析AI對此問題能否有效(提升效率、降低成本、提升體驗)。

比如在指尖查詞項目中,用戶原有的解決方案比如查紙質字典,就存在以下問題:

1)便捷性差

字典是個大塊頭,不方便攜帶,一般都放在書桌。

2)查找效率低

尋找一個目标單詞需要先找到首個字母所在的大概位置,然後再進一步去找該單詞,定位比較麻煩。

3)信息維度不夠

比如詞典裡面的單詞音标,目的是教小朋友學習發音,但是低年級的小朋友是沒有學到音标的。所以這些學生要有标準的發音進行引導,除此之外,還需要有發音的口型教學内容。基于計算機視覺的AI能力,類似有道詞典筆的産品可以大幅提升查找效率,這是整個産品能夠成立的關鍵。

3. 可行性分析

除了驗證AI能否有效以外,我們還需要知道我們的AI是否可行。比如在指尖查詞項目中,我們就需要知道用戶對于AI的要求,比如以下指标:

如果我們算法的精度大大低于用戶的預期,則項目無法成功。

三、競品研究

AI能力也需要進行競品研究,我覺得可以從技術的成熟程度來進行對應的競品研究。

1. 前沿技術創新

很多前沿技術雖然還沒有被大規模投入使用,但是已經能産出很多demo了。尋找這一類的競品,我覺得可以在github上面找到。

比如,我跟算法同學聊了指尖的軌迹跟蹤,立馬丢給我一個github的軌迹跟蹤的項目deepsort。

ai産品架構圖(AI産品工作流梳理)3

類似這種,github上的技術,對于自研AI的團隊來說非常重要,一方面這些内容能夠讓我們了解技術的能力邊界,另外一方面,基于這些開源的算法,我們能夠快速搭建demo。

2. 業界成熟的技術

這一類可以從AI平台找到,比如百度、華為、阿裡、騰訊這種AI大廠的開放平台,就展示各種已經成熟的AI能力,以及成功案例。

比如以百度AI為例,其官網就有非常多的技術,值得學習。

ai産品架構圖(AI産品工作流梳理)4

四、算法設計

在算法同學進行算法設計時,我們AI産品需要知道算法,這樣有利于我們進行産品設計,我覺得以下兩個是一個好的切入點。

1. 整體框架

對于AI産品來說,雖然不需要寫算法,但是知道整個算法的框架有利于産品設計。

比如在指尖查詞項目中,如果在客戶端部署了指尖檢測的算法,我們就可以在檢測到指尖時,給予用戶及時的狀态反饋,而不用等到整個文字識别結果返回才給到反饋。

ai産品架構圖(AI産品工作流梳理)5

推測大力的整體框架

對于算法,我們産品經理不應該把它當做黑盒子,而是應該了解,然後在此基礎上做出更好的産品。

2. 接口文檔

除了整體的框架,我們AI産品還可以通過了解接口文檔,來增進對于算法的了解。

比如我們看了百度OCR的接口文檔,我們發現AI能夠識别文字的角度。基于這個能力,我們可以在發現用戶書本方向放錯時,給予用戶及時的反饋。

ai産品架構圖(AI産品工作流梳理)6

五、需求文檔

在需求文檔這塊,除了傳統的需求文檔模塊之外,AI産品(計算機視覺産品)可能需要需要在以下幾個層面進行深入。

1. AI交互細節

大力台燈在指尖查詞上的交互給業界定了一個标杆。具體而言,大力定義了幾種交互狀态:

  1. 開始檢測:方括号開始閃動
  2. 檢測到用戶的手指:方括号内出現手指
  3. 識别到手指後,開始進行文字識别:方括号開始出現轉圈

ai産品架構圖(AI産品工作流梳理)7

大力交互厲害的地方在于通過對三個圖标(方括号、手指、加載圓圈)進行簡單的組合,就構建了一套交互體系,給到用戶即時反饋。

整個解決方案,對于用戶來說學習成本比較低,是一個比較優雅的解決方案。

2. 異常情況處理

由于算法在早期的效果是不夠理想的,所以我們要界定一些超出AI能力的異常情況,也就是黑話“兜底”。

比如計算機視覺中一直沒有返回圖像識别結果,對話機器人中一直無法判斷用戶是否說完話或者用戶意圖,等等。大部分的兜底策略就是用開玩笑的口吻回應用戶,比如“這個單詞還沒學會”、“這個技能還要再練習”。

3. 指标需求

一些關于AI能力的指标需求,常見的指标如下:

  • 準确率、錯誤率
  • 精确率(查準率)、召回率、F1
  • ROC曲線、AUC
  • 計算速度、結果返回耗時、魯棒性
六、冷啟動策略

1. 算法冷啟動流程

算法最終會達到一個正向循環,即上線後拿到用戶數據,對這些數據标注後,訓練算法,提升算法性能,然後會有更好的體驗,會有更多的用戶使用,接着拿到更多的用戶數據,走向正循環。

但是剛開始的時候,沒有大量數據進行訓練的時候,算法性能是不高的,需要慢慢達到正循環,再次之前的過程,我理解為算法的冷啟動。

ai産品架構圖(AI産品工作流梳理)8

2. 接入服務 vs 自研

如果我們是接入百度、華為等大平台的AI能力,那冷啟動的過程相對來說要快很多,但是一個要注意的問題是大平台的服務相對來說是通用的,可能對于我們自己的垂直場景沒有做過優化,估計數據表現也不會很好。

百度有一個EasyDL的平台,是專門解決這個問題的。

如果我們的深度學習算法是自研,我們可以通過以下幾個層面的行動進行算法的冷啟動:

算法層面:把開源的算法拿來用,進行遷移學習,從而快速達到一定的算法精度。

數據采集/标注:

  • 購買市面上已有的數據集
  • 機器合成對應場景的數據,快速生成訓練集
  • 通過人工或者工具産品的方式,收集對應場景的真實數據,進行标注

3. 場景容錯性判斷

我們知道算法的精準度等指标剛開始是不理想的,尤其是在自研的情況下,我們需要讓用戶先用起來,然後收集數據之後,再進行訓練和疊代。

其實這個跟産品的MVP很像,剛開始發布的第一個版本,也不是一個完美的版本,需要用戶用起來之後進行疊代才行。

但是在冷啟動的時候,要考慮場景的容錯性。比如自動駕駛領域,可能對于計算機視覺的能力要求非常高,出錯了會造成乘客的生命危險,這個場景的容錯性是很低的,所以這種産品内部要做很多測試,達到較高的标準之後,才能發布給用戶體驗。

但是,對于很多場景容錯性相對較高,比如娛樂遊戲場景,則标準比較低,可以盡快上線,接受用戶的反饋。

七、算法疊代

1. 準備測試集

我在做指尖查詞的産品過程中,跟着算法工程師一起把算法的準确率從70% 提升到了90% ,可以分享一下整個過程。

深度學習作為監督學習,需要大量數據進行訓練。這些數據分為三個部分,訓練集、驗證集和測試集。

  • 訓練集:相當于課後的練習題,用于日常的知識鞏固
  • 驗證集:相當于周考,用來糾正和強化學到的知識
  • 測試集:相當于期末考試,用來最終評估學習效果

對于AI産品經理來說,我們需要測試集,這樣方便我們對深度學習算法進行評估。

2. 分析測試集數據

準備測試集之後,我們基于算法的框架,使用漏鬥模型,得出每個節點的準确率。

比如,對于指尖查詞來說,算法從開始識别,到最終識别成功,可以用以下的漏鬥模型進行表示。

ai産品架構圖(AI産品工作流梳理)9

通過測試集的數據分析,我們發現,主要的問題出現在3-4層、4-5層漏鬥中,即指尖識别的坐标錯了(識别到别的字了)、文字識别錯誤(類似把apple識别為abble)。

更具體而言,整個測試集樣本中,有12%的樣本是指尖識别坐标錯誤,有6%是因為文字識别錯誤,所以我們第一個版本的準确率大概隻有70%左右。

3. 找到改進機會點

1)指尖識别坐标錯誤

算法同學對于錯誤的樣本原因進行分析,發現對于指尖識别坐标錯誤這一類型,是屬于算法優化的點。

主要理由是,算法同學判斷指尖附近内容的方法存在問題。優化之後,後面幾乎沒有坐标識别錯誤,正确率一下子提升了12%個點。

2)文字識别錯誤

對于識别錯誤,算法同學同樣對錯誤的樣本進行分析,并且分類。如下面所示:

ai産品架構圖(AI産品工作流梳理)10

主要的解決方案是針對細分場景,準備更多的數據進行訓練,或者基于更優的規則,以提升準确率。

4. 疊代算法

經過一個周期的努力,我們把算法的準确率從70% 提升到了90% ,用戶的體驗有了質的提升。

八、用戶體驗管理

早期算法還不是很厲害的時候,我們需要主動做一些用戶體驗管理。我覺得可以從以下幾個層面進行管理:

1. 預期管理

基于我們場景的容錯率,我們的産品要在滿足用戶的最低要求後,才能給到他們使用。發布之後,最好也要進行預期管理,告知目前哪些場景可以支持,準确率怎麼樣,哪些又不能支持,希望能夠給到用戶合理的預期。

2. 容錯設計

比如指尖查詞場景裡面,當算法不确定用戶是指哪一個單詞時,我們可以把兩個相近的兩個單詞都給出來,方便用戶進行挑選。

類似以下場景中,大力台燈把【朱】【旭】都展示出來,用戶可以通過切換得到自己想要的詞。

ai産品架構圖(AI産品工作流梳理)11

競品的指尖查詞(圖來自藍鲸教育)

3. 用戶反饋問題入口

某些場景我們的算法确實搞錯了,則可以留一個入口給到用戶。一方面給到用戶一個宣洩的渠道,另外一方面也可以作為一個樣本給到我們去判斷底層的問題。

4. 規範用戶行為

有一些場景AI功能還未覆蓋,則我們需要規範用戶行為,告知目前不支持這些場景。

比如,我們的OCR識别還不識别手寫體,則用戶拿手寫體過來時,則要告知用戶不支持手寫體,不然用戶會很有挫敗感,類似還有:

  • 燈光過暗
  • 字體過大或過小
  • 書本折疊
  • 手指蓋住單詞
  • 識别非目标語言的文字

5. 系統思考:不止AI

不能把所有的體驗問題都歸咎于AI算法,比如在識别過程中的耗時問題,除了AI算法可能存在問題外,我們的app可能在攝像頭打開、識别結果數據庫對比等環節都存在耗時過多的問題。

我們要進行系統思考,這樣才能定位到真正的問題。

以上就是從産品經理的視角梳理AI産品的工作流,請多多指教。

本文由 @小明的産品筆記 原創發布于人人都是産品經理,未經作者許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关職場资讯推荐

热门職場资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved