tft每日頭條

 > 職場

 > 産品經理是怎麼做數據分析的

産品經理是怎麼做數據分析的

職場 更新时间:2025-01-05 01:20:55

編輯導語:自然語言理解俗稱“人機對話”,AI領域分支科學,以語言學為基礎,涉及心理學、邏輯學、聲學、數學和計算機科學。其算法和邏輯的設計和實現自然十分複雜和困難,作為智能語音系統的産品,本文作者今天從産品的視角和大家簡單的聊一聊“自然語言理解”及其周邊知識。

産品經理是怎麼做數據分析的(産品經理視角下的自然語言處理)1

一、名詞解釋

1. 語音交互“三駕馬車”

1)ASR

語音自動識别,把外界的聲音轉寫成文字,相當于人類的耳朵。

2)NLP

分為NLU和NLG兩部分, NLU負責理解内容,NLG負責生成内容。

前者是對外界輸入的理解,後者是根據理解的内容生成對應的輸出,相當于人類的大腦。

3)TTS

語音合成,NLG生成的文字由TTS由不同音色播報出來,相當于人類的嘴巴。

2. 自然語言理解

1)語料

語料是構成訓練集和測試集的基本單位,可以是句子、短語,通過對大量語料學習幫助模型識别用戶的意圖。

2)訓練集和測試集

顧名思義前者是用來訓練模型進行意圖識别的,而後者是用來測試模型學習效果如何的,二者都是由語料構成。

3)置信度

人為設定,超過了模型的置信度表示模型就會去理解(結果可能會理解錯或理解對),小于置信度,強制模型不去理解。

3. 模型及算法

1)機器學習模型

通過算法使得機器能從大量曆史數據中學習規律,從而對新的樣本做出智能識别或對未來做出預測,相當于培養模型“舉一反三”的能力。

2)神經網絡模型

通過大量的簡單計算單元構成的非線性系統,在一定程度上模仿了人腦神經系統的信息處理、存儲和檢索功能,是對人腦神經網絡的某種簡化、抽象和模拟,相當于“由淺入深”的學習過程。

二、語音交互的應用場景

從目前商業市場劃分來看,語音交互主要應用場景及細分賽道衆多:智能家居、車載場景、醫療場景、教育場景和客服場景等。

從有無硬件載體上可簡單粗暴的分為兩大類:

1. 聊天機器人

産品定位于日常的“人機閑聊”。

可掌控簡單或複雜場景人機交互,依賴于ASR、NLP和TTS,通常使用嵌入式系統與硬件完成對接,如常見的天貓精靈、Siri和車載機器人等,主要應用在智能機器人領域。

産品經理是怎麼做數據分析的(産品經理視角下的自然語言處理)2

2. 語音外呼

産品定位于“完成任務”,業務屬性更強。

上遊通過呼叫中心(FS)、電信運營商拿到路線和号碼資源,下遊觸達用戶完成活動營銷、欠款通知和生活服務,主要應用于智能語音外呼和呼入,通常會有固定的“業務流程“作為客戶引導手段。

産品經理是怎麼做數據分析的(産品經理視角下的自然語言處理)3

目前智能語音行業由于應用場景、業務要求、客戶體驗或監管要求等原因都會使用封閉問答集來約定與客戶交互的邊界。

如在保險營銷的業務中,客戶若是詢問了和業務不相關的内容(今天氣溫是多少度?晚餐有什麼推薦的嗎?)機器會使用提前設定好的固定的“兜底”話術來應答(你說啥,我不懂,請回答業務相關的内容)将用戶重新拉回業務流程中,而不會與客戶進行“不相關領域”的閑聊。

産品經理是怎麼做數據分析的(産品經理視角下的自然語言處理)4

由于業務屬性的特殊性,客服性質的外呼業務對監管和用戶投訴格外關注,B端客戶對應答話術的要求及意圖識别的準确率要求較高。

所以除了使用語料來訓練模型,基本上還會使用正則表達式和關鍵字的策略進行意圖匹配的輔助。

三、自然語言理解

NLP(自然語言處理)被譽為人工智能的掌上明珠,究其原因“交流”在人類社會演進中起到了最重要的作用。

作為“交流”最重要的途徑和方式之一,語言伴随着人類社會的發展,曆久彌新,形成了博大精深、非常複雜的體系。

不同的職業領域、不同的曆史時期、也就是我們常說的“自然語言”,就像平常媽媽和你說話一樣,不需要完整的語法、不需要主謂賓定狀補的限定,拟人比喻倒裝誇張對偶各種修辭一起來。

讓孔子來理解我們今天的“語言”他其實也不知道我們在表達什麼意思,更何況是機器人呢。

和媽媽交互的場景,在機器人眼裡以下對話可能是這個樣子的:

  • 媽:“把你那豬窩收拾收拾,和你爹一個熊樣”!
  • 機器人的理解:你和你爸都是熊,你倆長得很像。你養了一隻豬,豬窩太亂你需要整理下。

如果沒有具體的對話場景,而且對于一個沒有感情的機器,很難讓他理解我們人類日常生活中的語言。

但是,我們可以教他,就像兒童成長過程一樣:你媽第一次罵你“和你爹一個熊樣”你也不知道是什麼意思,但是罵的多了加上她罵人時的表情、語氣、情緒等你就知道了“和你爹一個熊樣”實際上是在罵你。

四、理解和優化過程

産品經理是怎麼做數據分析的(産品經理視角下的自然語言處理)5

1. 訓練模型

如上圖“不想上班“标簽的訓練集的語料内容,都是表明作者不想上班的意思,并把其中的80%語料作為訓練集扔給模型,讓其去學習(可以抽象成将複雜的非向量化的文本内容歸一化為可以計算的數學模型,之後再轉換為機器可以理解的0和1,具體的實現過程作者也了解過,其中涉及到很多的數學内容,較為複雜感興趣的同學可自行學習)。

最終,機器可以明白了其中的大部分意思。

2. 測試模型

不能機器說學會了,我們就認為它學會了,還要使用測試集對它進行“考試”,使用上述語料中剩餘的20%作為測試集進行測試,得到模型的“識别率”。

識别率和“訓練集”和“測試集”中的語料内容很大的關系,需要合理的進行分配。

否則結果會出現“過拟合”(考的恰好都是我會的,不會的都沒考,成績很高)和“欠拟合”(考的都不會,成績很低)的現象。

最終考試成績好,皆大歡喜;考試成績不好,回家優化。

3. 模型結果優化

1)停用詞

“停用詞”指在一句話中沒有實際意義,即使去掉對句子的整體理解(句式除外)也不會造成影響的詞。

如啊、哦、吧這種語氣詞或是出于具體的業務考量可以忽略的詞語,在語料預處理階段會将這些詞語忽略掉以增加語料的“純粹性”。

2)添加語料

模型識别的基礎是語料,盡可能多的添加優質的語料,保證模型在更好的“教育環境“下學習,通常在業務前期的語料積累階段,添加語料是提高準确率最直接的方法。

理想的場景是在模型訓練之前将完整的語料庫準備好,以供第一次就可以訓練好,但是語料的收集和整理也是耗時耗力且枯燥的工作,需要大量人工的投入。

3)模型參數調節

參數(超參數)不僅僅包括一些數字的調整,也包括了相關的網絡結構的調整和一些函數的調整(前面的停用詞也可以理解為預處理階段的一種參數),如對學習率、正則化方法、初始化權值的調整。

不同的模型類型,可調節的參數不同,需要算法工程師給出具體的優化意見。

4. 其他手段

在對模型的優化達到瓶頸之後,若是還不能達到理想的正确率,可以從其他方面想辦法和提高,如增加“完全匹配”、“正則表達式”等其他手段。

1)模型識别的問題

與語料相同的用戶回答可能也不能正确識别出意圖。

如:語料中有”周六怎麼還要加班呢“,客戶也回答”周六怎麼還要加班呢“,有時并不一定會識别出“不想上班”的意思。

作者剛開始并不理解為什麼會這樣?

這是因為模型将所有語料都進行了向量化,所以對模型來說是不存在”相同文字“的概念。

我們可以這樣想,模型對語料的訓練集内容拟合為一條曲線,離曲線近的内容可以識别出來,離曲線遠的内容識别不出來,完全相同的語料恰巧很遠。

産品經理是怎麼做數據分析的(産品經理視角下的自然語言處理)6

2)完全匹配

為了規避這種場景的出現,增加完全匹配,隻要和語料完全相同的内容在模型之前會進行一輪意圖識别。

3)正則表達式

與完全匹配類似,使用正則來表達複雜但是具有統一格式規範的句子,如<.*不想上班.*>,可匹配“我今天不想上班了”、“他們是一群不想上班的産品經理”等,可以理解為完全匹配的一種特殊形式。

正則的使用通常可以大大的簡化對封閉性問題的語料編輯,節約工作量,适用于封閉性問題且需要使用着對正則有一定的書寫和理解基礎,不适用大規模的使用。

4.5 未識别的處理

前面所說的方案都是為了提高意圖理解的準确性,即使加上了完全匹配和正則的情況下,目前不存在實際場景下100%識别準确率的模型,部分内容還是會給出錯誤的判斷。

但是在交互過程,尤其是在真實業務場景(催收、營銷、續保、欠費通知、物業報修,餐飲訂座)中觸達用戶中“不懂裝懂”可不是一個很好的現象。

  • Question:“你吃飯了嗎?”
  • Answer:”不想上班就沒人給你發工資“

這樣的體驗肯定是不行的,不會的問題就說不會,所以我們會設置模型的“置信度”。

模型分值高于置信度(參數的一種),我們相信模型識别對,低于置信度的我們會設定“兜底”的話術來進行應答,如“主人,我不懂你的意思唉”、“可能是信号不好,我沒聽清楚”,既靈活的敷衍了自己不明白的尴尬局面,又表達了你說的太難了我不懂的意思。

産品經理是怎麼做數據分析的(産品經理視角下的自然語言處理)7

最後,不論是主動學習還是被動接受,語音交互已經深入到我們生活的各個角落,雖然目前語音交互過程通常會有“所聞非所答”、“這個機器人真笨”的感覺,發展過程中出現的坑,總會前赴後繼的被填平并駐成山峰。

希望文章會各位在對自然語言理解的過程中有一定的幫助。

本文由 @Jira狂想曲 原創發布于人人都是産品經理。未經許可,禁止轉載。

題圖來自 Pexels,基于 CC0 協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关職場资讯推荐

热门職場资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved