tft每日頭條

 > 生活

 > ai語音和ai聲控

ai語音和ai聲控

生活 更新时间:2025-02-12 02:13:51

ai語音和ai聲控(被嫌棄的AI語音)1

大家好,我是最近對智能語音意見很大的 Mr.Yu。

不久之前,我們在這個專題的第一期《被嫌棄的 AI 語音(一)——不隻是因為它像個傻子》裡,對語音的現狀、槽點、僞需求和背後的成因進行了一番探讨。

總地來說,智能語音是個被打包得很好的産品概念,同時也存在太多需要祛魅的地方。

正因為一開始就認識到了這一點,所以我們也沒有将讨論的空間局限在車内。

這次我們依然會就 「既然都說智能語音好,為什麼還是有這麼多人不喜歡它?」 的問題,以及更多的背後故事進行讨論。

ai語音和ai聲控(被嫌棄的AI語音)2

為了更多維地了解問題的全貌和本質,我約了來自汽車行業不同鍊條的朋友們,抛開偏見和刻闆印象,一起聊聊。

為了盡量保持内容的全面和易讀,這個系列将會采用還原對談内容的方式進行呈現。不是正式的專訪,交流中也會有一些我個人的觀察和思考。

文章涉及很多人的從業經曆和個人觀點,所以被強烈要求匿名,這次依然稱他為 Mr.K。

這次的主角第二位 Mr.K,是一位在汽車語音領域深耕的人士。根據他的自述,在進入汽車行業之前,在語音行業頭部大廠做過許多年的車載語音運營。

借用一下梁文道先生《八分》節目的 slogan—— 不保證成功,不一定有用。對于從業者來說,不停止思考才更重要。

以下是對談的實錄,Mr.Yu@GeekCar 是我,另一位是 Mr.K。

ai語音和ai聲控(被嫌棄的AI語音)3

圖片來源:Unsplash

Mr.K:

我看了你們寫的一期讨論智能語音為什麼智障的文章,還挺有意思的。

上一位 Mr.K 是位資深的座艙産品經理是吧?那這次我就以一個在語音大廠的車載業務運營崗位上工作過的人,來跟你讨論這些問題,我可能跟上一位 Mr.K 在很多觀點上會不太一樣。

Mr.Yu@GeekCar:

你肯輸出不一樣的觀點就太好了。

其實上一位 Mr.K 也私下跟我說過,希望看到這個系列做下去,看看來自行業不同鍊條的大夥兒會有什麼樣的真知灼見。

Mr.K:

你們是從讨論什麼是智能語音開始話題的,那我更直接一點:我認為倚重語音的車,不算智能汽車。 也就是說,智能語音不會是智能汽車的一個必備條件。

讨論汽車智能的大前提是什麼?是自動駕駛吧。

你想想,L4 甚至 L5 級别的自動駕駛都上來了,服務于駕駛的交互都沒了,我要語音幹什麼?

ai語音和ai聲控(被嫌棄的AI語音)4

Mr.Yu@GeekCar:

你的意思是,眼下我們之所以倚重語音,甚至将語音好當做賣點,是因為用戶無法脫離駕駛行為,才衍生出來的。

之前我在寫 Robotaxi 報道的時候提到過,商用自動駕駛的座艙裡面空無一物,甚至設備高度定制化,也是一種可能性。本質上是以「我愛幹什麼就幹什麼」為核心,而不是别人決定我在座艙裡面幹什麼。

ai語音和ai聲控(被嫌棄的AI語音)5

圖片來源:Unsplash

Mr.K:

對。順着你的話說,到時候連那塊屏幕都沒有了,我在車裡坐着就可以拿手機來做事情,所有的交互和需求都可以通過手機來完成,我還要語音幹什麼?

在上一個十年,我們會把車上放個支架、夾上手機當做很平常的事情。到現在語音已經成了新車标配,我們或許可以一定程度上放下手機了。

所以說,語音到底是一個階段性産物,還是趨勢?

你要讓我說的話,語音是趨勢,而且很明确。但現在語音的性質變了,被人們當做了一個時髦的東西。這裡面要區分清楚,時髦跟趨勢是兩個完全不同的概念。

Mr.Yu@GeekCar:

時髦和趨勢,我覺得這個話題可以展開說說。

大家能明顯感覺到,有的内飾設計師傾向于把無線充電闆「藏」到不顯眼的地方,大概就是想讓你開車的時候少碰手機,多用車機。

Mr.K:

咱們後面總結的時候再讨論,聊下來你就明白了。

回到文章想讨論的核心議題,語音為什麼看起來像個傻子?

很多車廠和語音供應商在規劃産品的時候,他們開發的核心其實是依賴場景的,就是基于場景來開發功能。語音如果沒有場景化,對用戶來說是很難區分的。

ai語音和ai聲控(被嫌棄的AI語音)6

你們上次提到了能力邊際的問題,這就很準确。很多普通用戶對車上的語音,尤其新車的語音是沒辦法掌握能力邊際的。所以大家對車的期待,淺層心理上就變成了對活人的期待,覺得語音能聽得懂我所有的話,并且落實。

一個特别典型的例子,我可能上一秒還在讓語音助手給我導航,下一秒我就問它「你爸爸是誰」。也就當前的行業水平上來了,對這類交流還能應付。

其實這種不确定性,就是人類之間交流最自然的狀态之一。你有什麼辦法呢?

一旦不好用的話,中國有句話怎麼說來着?好事不出門,壞事傳千裡。一旦有一點不能滿足我的訴求,我就會覺得你不好,我就會覺得語音不聰明,像個傻子。

所以咱們認真地說,語音的好與壞,它有量化标準嗎?

ai語音和ai聲控(被嫌棄的AI語音)7

圖片來源:Unsplash

Mr.Yu@GeekCar:

也許沒有标準,但是大家都在追求,或者說追逐。

就像咱們人類的日常交流裡很自然的東西,車廠會将之特意标簽化,而且會一定要說出來。

Mr.K:

對。宏觀上來看,其實人們自然而然地把終極目的變成評斷語音好用不好用的标準,就是能不能達成使用者的目的。《一代宗師》裡葉問怎麼說的來着?「功夫,兩個字,一橫一豎。對的,站着。錯的,倒下。隻有站着的才有資格說話」。

語音作為工具來說,不可能在最開始就開發出所有的場景。所以廠商智能針對高頻的場景和應用去打磨,導航、聽歌算吧?打電話、問天氣算吧?盡可能地在他們覺得高頻的場景上面去做、去打磨。

但是我們需要正視一點,做了相應的工作,并不意味着開發的東西上了車就一定好用。

Mr.Yu@GeekCar:

這是為什麼?

Mr.K:

咱們把買車的人統統叫做「用戶」,但用戶也是十分細分的。

比如說有開卡車的,有開皮卡的。有開豪車甚至坐豪車的,也有自己一個人開迷你小車短距離通勤的。不同的群體對語音的訴求不一樣,關注的點也不一樣。

所以我想表達的第二個觀點就是,其實好的語音産品是需要運營的。

舉一個很簡單的例子,科大訊飛以前有個類似智能音箱的東西叫阿爾法蛋,你有印象嗎?

Mr.Yu@GeekCar:

我記得像是個早教機那樣的智能音箱。

ai語音和ai聲控(被嫌棄的AI語音)8

科大訊飛 阿爾法蛋 S

Mr.K:

對,這個東西現在賣得還很好,隻不過不是賣給成年人的。對象是誰?從小小孩兒到義務教育階段的孩子都是目标用戶。

它有個核心功能,就是小孩子會每天問它問題,那它肯定會有答不上來的時候對不對?

所有這些答不上來的問題,都會返回平台。平台裡面就會有人針對這個問題去編輯,告訴 AI 以後怎麼回答。

比如有人問 GeekCar 的 Mr.Yu 是誰,它今天沒有回答上來。然後過兩天有人去編輯了一下,之後所有問這個問題的人都會得到答案。

Mr.Yu@GeekCar:

我想到了上一篇我們說的那句話,有多少智能就有多少人工。

Mr.K:

對,我要說的就是這個。

我當然知道大家都是當笑話或者自嘲來說的,但要是當真的話,我會覺得并不是特别恰當。

因為要是這樣的說法被當真了,就相當于抹殺了做算法的科技工作者們的價值和辛苦。

其實語音運營的本質,就是和用戶一起,在調教好一個像小孩子一樣的語音。你告訴它什麼是正确的,它會記住,然後在再次碰到的時候告訴所有人。實際上,這個效率是不低的,而且并不是說特别深層次的人工介入才能完成。所以,我要反駁下上一位 Mr.K 的觀點。

語音就像個小孩子,你越教它,它就越聰明,越好用。 所以為什麼說運營很重要?運營其實就是在教它,後面可能是幾十甚至上百人的團隊在運轉,在教語音怎麼去做事。

行業都說小鵬、蔚來的語音做得好,為什麼?因為背後有人在處理這些細節。

ai語音和ai聲控(被嫌棄的AI語音)9

Mr.Yu@GeekCar:

聽起來非常的養成系。

Mr.K:

對,很準确的形容。能看得見的流程,就包括了錄制、轉寫、語義理解這些步驟,每個步驟都有自己的難點。

尤其語義,後面有大群的人去做語義理解,要靠人工去标,包括很多語言學家。

就像你們都知道的語音頭部大廠裡面,有大概十幾位語言學家在跟他們一起工作。

為什麼?因為語言太複雜了,要靠語言學家才能總結出規律。單純的靠人力一個一個去搞,那不會提升,也總結不出規律。語言學家要去發現這裡面的規律。

說個很好理解的例子。「媽媽」這個音在全世界都是媽媽的意思,這就是規律。

語音團隊的語言學家就是要去發現和定義這些規律,讓程序員去實現它。

然後就是上下文的環境和理解,這就很有意思了。比如說,合肥方言裡的「麻個」就是明天的意思,這叫特質。單獨拎出來不好理解,但要是把語義理解做好了,就有可能實現。所以能夠成體系地做方言的語音,是件很厲害的事情。

ai語音和ai聲控(被嫌棄的AI語音)10

Mr.Yu@GeekCar:

聽你說的這些我突然想到一個笑話,就是北京人說的「卧槽」到底是什麼意思。不同的語調和語氣,不同的重音,到底是罵人?還是表示驚歎?還是不屑?就很複雜了。

Mr.K:

對,這個例子很典型。幫 AI 弄清楚這些,就是團隊裡的語言學家要做的事情。

咱們接着說,AI 已經理解語義了,接下來要做的就是下發指令。語音要想跟整個座艙連接起來,要去給所有相關的零部件發送指令。這中間的關鍵問題是語音能夠訪問哪些控制器,哪些訪問不了。就像有些車型為了安全,會主動屏蔽車機傳遞指令或訪問控制器的權限。

比如語音絕對訪問不了方向盤、變速箱、刹車,你也不能跟它說「換擋」,對吧?

我們能看到, 跟安全相關的東西,語音是無法觸及的,這才合乎基本邏輯 ,也是為什麼說語音不是萬能的。基于這點,為什麼有時候你們做座艙評測說的語音功能不完整,往往就是語音沒能觸及應該觸及的部件。

我再舉個例子。現在大家工作生活節奏都很快,很多人喜歡在車裡午休。你看包括新勢力在内,很多車都早早地推出了午休模式,對吧?想要休息的時候,我會跟語音助手說進入休息模式;而不是一項一項地跟它說,關上車窗、座椅放倒、空調多少度、播放舒緩音樂等等這些碎片化的繁瑣指令。

從這裡就可以看出, 語音的核心目的還是要做好「助理」這個角色,調配車上相應的軟硬件資源,特别是座艙的資源。 是不是有的人說,智能化就是車上夾個手機?我當然知道這是調侃,但即便作為玩笑,這句話也是禁不住推敲的。

ai語音和ai聲控(被嫌棄的AI語音)11

圖片來源:Unsplash

Mr.Yu@GeekCar:

照你這麼說的話,為什麼語音能實現的效果又是參差不齊的?

Mr.K:

原因很多,我舉一個簡單的例子。

人們覺得語音沒有大用的原因,很大一部分是供應商開發出了一個标準版,然後給到主機廠。主機廠也不投入力量去運營,反正就是把它作為功能往車上一裝,然後就不管了。「反正我有了」,其實這是個不負責任的做法。

于是就變成什麼了?兩年前出的車,語音就是那個鳥樣子;兩年過去了,一點兒都沒變,一點兒提高都沒有。沒有與時俱進,這種僵化的思維實際上相當坑人。

Mr.Yu@GeekCar:

理解。你說的這個現象,讓我想起了很多辦「正經事」的網站。設計陳舊就不說了,框架也不怎麼合理。有的時候你要想把流程走完,還會對浏覽器版本有要求,不能太新,不然的話不兼容,指不定就在哪個步驟那裡卡住,前面的東西全都白白填寫和上傳。

Mr.K:

對,你倒推幾年再看,主機廠還有一套思維很有意思,就是有些主機廠會把語音當做一個時髦的東西去運營。友商沒有的我可以沒有,但友商有的我也得有,這就是時髦。

就好像我看到有人染了一撮綠頭發,我也要染,但為什麼染綠的,我不會去深究。代入到汽車行業的話,你可以看到特斯拉搞的一體化車身,國内很多車廠也有樣學樣地開始搞起來。

的确這樣會提高生産性,省了很多模具跟焊接的成本。但大家想清楚為什麼要這麼幹沒有?特斯拉的智能駕駛已經很厲害了,它能規避掉很多小磕小碰,所以它搞一體化車身完全沒問題。我們的傳統車可以嗎?具備這個能力嗎?大家都搞一體化車身,撞了怎麼辦?也像特斯拉一樣,三十萬的車,撞一次修起來就要二十多萬?

說回到我們讨論的問題上,語音的核心目的是什麼?

Mr.Yu@GeekCar:

你這麼問的話,我覺得

肯定不是因為不用動手。畢竟語音沒有上車之前的上百年裡,人類開車都這麼開過來了。

ai語音和ai聲控(被嫌棄的AI語音)12

圖片來源:Unsplash

Mr.K:

這是你們第一期對談的時候沒有聊到的一個點,咱們今天可以說說。

也不賣關子了,我認為是核心價值是提升效率,交互的效率,指令的效率。其實語音是個組合技,這是個很遊戲化的說法。以前我要好幾步操作的交互,現在一句話就達成了,這就是效率的提升,也是它真正産生價值的部分。

為什麼說做語音要謹慎,不能大吹特吹?你跟車載 AI 說,聲音大一點、小一點,不如你自己動動手指來得更快和準确。你讓座椅放倒或立起來,這東西怎麼用語音量化?還是物理按鍵更加方便和直觀,對吧?

說到這裡,大家又會把語音跟所謂的虛拟形象搞到一起去了。

Mr.Yu@GeekCar:

車載 AI 的虛拟形象難道不也是一種時髦嗎?我一個不用抖音跟小紅書的人,都能經常看到社交網絡上流傳的,一些蔚來車主精心打扮 NOMI 的圖片,很有意思。

Mr.K:

那麼你覺得車載 AI 為什麼要具象化呢?

Mr.Yu@GeekCar:

我可以引用下蔚來最開始做 NOMI 時候的說法,是解決了人在車内沖着空氣喊話的尴尬。

Mr.K:

要讓我說的話,還是為了讓人喜歡。你看現在是個車就有車載 AI 助手,就有虛拟形象,車廠們花了幾十上百萬去做設計,甚至用戶還能跟 QQ 秀似的玩定制,一個比一個精美。

但是 NOMI 有個讨巧的地方,就是它都是表情符号,足夠簡單,留出了足夠的想象空間,而且能讓人以最快的速度 get 到點。用郭德綱相聲裡的話做,叫做「一想之美」。不用特别具體,你覺得他怎麼好看,他就是你覺得好看的那個樣子。

因為人的審美是特别特别細分化。有人喜歡粉色,就有人喜歡藍色;有人喜歡長臉,就有人喜歡圓臉。越具象化的東西,就越難讓更多的用戶真正地去喜歡它。所以說 NOMI 這種形态占了個便宜,就是用表情符号來表達感情,對應了用戶很容易在頭腦中自然而然地産生對他自己來說最美好的場景。

咱們在比如說,有人喜歡二次元美少女,就有人喜歡看帥哥,還有人喜歡拟人化的非人類形象,大家的審美都非常具體。但是當車裡出現一個特别具體的形象在那裡,就意味着要舍棄掉模糊的形象帶來的神秘感,也要舍棄掉不喜歡這個形象的那部分人的好感。

所以我今天為什麼一直說 NOMI 很讨巧,是因為這類設計不會進入細分的審美區間。 用戶可能并不 care 車裡的語音助手長什麼樣子,但用戶明确知道,自己不喜歡什麼樣子的 。

我這裡隻是舉個例子,通過這個例子來發現主機廠做語音的時候,為了趕時髦而做出的一些選擇。 現在又把虛拟形象和語音結合到的一起,甚至強調虛拟形象,實際上也是脫離了本質。語音的本質還是像我剛才說的,簡單、高效、一鍵直達。

ai語音和ai聲控(被嫌棄的AI語音)13

Mr.Yu@GeekCar:

那你對通過語音炫技是什麼看的呢?車廠總會有傳播層面的訴求,炫技是個制造話題的利器。

Mr.K:

我們剛才聊了時髦。炫技就是你時髦,我要比你更加時髦,就好像街面上那些穿着誇張的衣服改了車輛排氣管「炸街」的人一樣。

當然我的比喻可能有點偏激,但差不多就是這個意思。既然語音是強調效率和準确性的工具,那我們去實現細節和功能不好嗎? 真正地去識别車裡需要用到的場景是哪些,把這些場景做精,比起把所有場景都做一遍更加靠譜, 就是你們上次在讨論僞需求的話題時講的:小而精,而不是大而全。

比如北京有簋街,合肥有罍街,讀音有些相近,字也都很難寫。但語音發起導航,是不會把這兩個地方搞混的對不對?就是這種細節上的不斷完善,高頻場景做好了,大部分人的需求得到滿足,用的人才會越來越多,後台運營人員收到的正常情況才會越來越多。

用戶用得越多,運營人員遇到的問題越多,越會去解決和優化,之後的體驗就會越好。體驗越來越好,用戶會越來越信賴,用得就越多,這是一個慢慢建立起來的正向循環的模式。

相反,我的智能語音什麼場景都有,什麼場景都做不精。用戶試了兩次,不是反應很慢,就是表現得像個智障,那也就不會再用了,後台什麼數據也沒收到,運營更加無從談起了。

Mr.Yu@GeekCar:

你覺不覺得智能語音之所以在國内走得快,跟車企之間的競争,和他們對于産品力的行業焦慮有直接關系?

Mr.K:

我最近還看到一篇文章,說中國的車企現在很瘋狂。瘋狂到什麼地步?不是幾年出一款車,而是一年出幾款定位相近的車。現在中國六七萬的車型裡面,有的都已經能達到外國中端車的電子配置。什麼 L2 級别的輔助駕駛、什麼語音、大屏,能上的都給他整上去。

這些東西都做上去了,然後現在的年輕用戶會覺得,你這個東西連個變道輔助都沒有,連個語音都沒有,扯淡呢吧?

對于現在的 90 後甚至是 00 後,這一波人馬上就要步入汽車高消費主力群體的時候,你會發現他們的關注點已經跟以前的用戶不一樣了。

ai語音和ai聲控(被嫌棄的AI語音)14

Mr.Yu@GeekCar:

你說到這裡,我就想起來之前的一個詞叫做「千元機」,現在這個說法很少用了。

就智能手機來說,我們現在經常會說高端品牌、旗艦機型這些定位。兩千元以内的手機,消費者對它的預期和要求,就沒有高端機型那麼苛刻。不要求它有很強的性能,或是很好的設計。該有的都有,用起來不掉鍊子就行。

然後我們看到随着時間的推移,硬件性能的提升,品牌對體驗的理解也在提升。現在的千元機可能跟幾代之前的旗艦機型相比,用戶能獲得的體驗實際上差不多太多了。

Mr.K:

所以說,中國車企和外國汽車品牌走的路已經岔開了。中國的汽車市場的确大,很多外企覺得這邊隻是它們賺錢的地方,而不是創造需求的地方。

國内的用戶基數大,這樣的市場環境決定了,産品形态的誕生和發展速度都很快,在法律法規框架允許的範圍内,有很多東西也更容易玩兒起來。正因為這樣,智能化是中國車企彎道超車的利器,這點不容否認。

OK,大家都卷起來。一個功能一個産品形态,一家主機廠有了,一個自主品牌有了,跟這家品牌接近的三家主機廠很快就來了,然後再遠一點的主機廠也來了,然後整個行業都有了。

現在我們的手機可以導航,車機可以導航。以前的導航什麼樣子?車裡有 I-Call 的話,打電話給呼叫中心的人工坐席,讓人家在電話裡給你導航,或者給你推薦餐廳。當然,性質跟 E-Call、B-Call 這種重要且緊急的遠程支持還是不太一樣,也不是所有品牌都能做。

Mr.Yu@GeekCar:

某種程度上就這一部分的讨論來說,其實現在的用戶是行業内卷的受益者?

ai語音和ai聲控(被嫌棄的AI語音)15

Mr.K:

對,時間倒推一下,好多年前,先是上汽榮威的某款車搭載了語音,很快奇瑞、江淮、長安、廣汽這些傳統品牌都有了。等 4G 通信時代來的時候,流量超級便宜,然後我們開始上在線的語音。因為能調用雲端的算力,更高的識别率、更好的效果、更豐富的體驗都有了。

稍稍回顧一下這個發展過程就會發現,語音的價值,第一是解決用戶剛需,第二是讓用戶的用車體驗更好。隻有實現了這些,不管是作為交互形态,還是作為産品,它才能鋪開。

所以現在行業把語音的基礎能力卷完了之後,就是咱們現在看到的多音區、可見即可說、情感豐富拟人等等這些了。

Mr.Yu@GeekCar:

所以總結下,我們所說的智能語音,本質上來講其實和鼠标鍵盤遊戲手柄這些一樣,是用戶和系統溝通的手段,并不是說誰比誰高明許多。

當然我并不是否認語音的技術含量。我知道語音和計算機視覺一樣,都是人工智能這門綜合科學裡最高深的部分。

隻是過度鼓吹某種交互的價值,或是向用戶傳達無法實現的不合理期待,這些是需要慎之又慎的。沒有無緣無故的愛,也沒有無緣無故的很,用戶不會一直無端地給予你信任。

Mr.K:

對, 我們看到了炫技和基礎能力之間的矛盾,這其實是時髦和趨勢之間的博弈。

對于炫技和能力,我們到底應該選擇哪一個?那我們肯定選擇能力,而不是炫技。

因為炫技不産生任何價值,能力才産生價值。茶葉的包裝再精美,茶葉本身品質不行,你也賣不上價。你賣上去價,用戶也隻會覺得你騙了他。所以最後還是個如何實現價值的探索。

寫在最後

感謝看到最後的每一個人,這次的内容不算短。

說實話,我也沒想到一句作為自嘲而流傳甚廣的「有多少智能,就有多少人工」,會被提出異議。

在這個年代的我們,已經太習慣于被故事打動。但事實上就像這次對談裡聊到的,用戶沒有那麼寬容,好與不好,用或不用,沒人在乎背後的故事。所以,講了那麼多故事,到底是感動了用戶,還是感動了自己?

跟第二位 Mr.K 關于時髦、趨勢和價值的讨論,是否更加接近這個系列話題的本質了?

對于這些問題,我在第二位 Mr.K 這裡得到的也不是答案,而是代表了一位從業者基于自己的經驗和思考,而得出的結論。

我想,我仍然更期待在下一位聊起這些的 Mr.K 身上,聽到些不一樣的聲音。

ai語音和ai聲控(被嫌棄的AI語音)16

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved