tft每日頭條

 > 寵物

 > 重新定義siri

重新定義siri

寵物 更新时间:2025-01-26 20:22:06

重新定義siri(搜狗版Siri是如何煉成的)1

2011年年底搜狗組建了一支語音識别團隊;

2012年6月上線了首款語音搜索引擎;

8月3日,搜狗推出語音搜索引擎——“知音”,并融合了吞音優化、語音糾錯以及多輪交互三個全新的功能。

第三方的實測數據顯示,搜狗語音和科大訊飛的性能保持在同一水準,而這樣的成績顯然超出了搜狗語音團隊創立之初的預期。

風口下的搜狗語音

2012年前後,語音識别的概念還未得到普及,也沒有太多互聯網公司湧入進來,而科大訊飛在當時已經初露鋒芒。

搜狗以輸入法和搜索發家,在輸入法産品完成了多次叠代并逐步走向成熟之後,搜狗CEO王小川試圖切入語音識别市場,不過公司最初沒有打算獨自研發。

剛好科大訊飛的高層找到了我們,希望強強聯合推出一款更好的語音産品。

搜狗語音交互技術中心負責人王硯峰說。

重新定義siri(搜狗版Siri是如何煉成的)2

搜狗語音交互技術中心負責人

搜狗有輸入法和搜索引擎,科大訊飛有語音技術儲備,二者合作的确是個雙赢的局面。但這次談判并不順利,雖然科大訊飛方面答應在語音助手産品上展開合作,即由搜狗提供後台的服務,科大訊飛負責前端的産品。不過,雙方利益沒有達成平衡,合作談崩。

王硯峰表示,“科大訊飛希望通輸入法切入互聯網站穩腳跟,而我們也準備進軍移動互聯網,不可能會把輸入法的優勢讓給别人。”

合作的告吹給搜狗留下了第二條路——研發一款搜狗專屬的語音識别産品。公司内部很快就達成了一緻——“時間不等人,這件事就快速自己做起來吧!”

拿定主意後,搜狗便開始招兵買馬擴張團隊。但語音技術的積累不是短期内可以完成的,所以搜狗第一步還是選擇倚靠有技術功底的隊友,即谷歌。2012年上半年,搜狗借助谷歌的引擎,由谷歌負責收集數據,産品的研發進度非常迅速。

“1月份開始做這件事,到6月份就做出了一版準确率還行的引擎,在第三方的實測數據上顯示,這一版引擎在地圖上的準确率已經超越了百度。”

地圖引擎後來居上,準确率超越了百度,這對僅在語音識别涉足半年的搜狗來說是一份趨近完美的答卷。

盡管如此,這版産品依然存在一些問題,體驗還有很大的提升,與科大訊飛還有一定的差距,所以搜狗沒有讓其在輸入法上測試。根據王硯峰的說法,地圖應用場景相對收斂,對語音的要求比輸入法要低得多。

半年之後(2012年11月),随着搜狗輸入法數據的積累,公司放棄了谷歌的引擎,在輸入法上用上了自家的引擎,并将語音識别延伸到了輸入法上。

随着Siri的走紅,語音識别産品也逐漸俘獲了大量的C端用戶。2013年一年,搜狗輸入法的數據量積累到了1.5萬個小時,依靠這些數據、深度學習以及日漸成熟的團隊,搜狗的語音識别性能已經基本保持和科大訊飛持平,微信和百度,而第二梯隊則是雲知聲和思必馳等公司。

新起點:搜狗版“Siri”降臨

擁有輸入入口,對一家做語音識别的企業來說是得天獨厚的優勢。

在數據量上,搜狗、百度都對其它公司都與明顯的優勢。不過相比科大訊飛和百度等品牌,業界鮮見搜狗語音對外發聲,直到“知音”的發布。

“知音”對搜狗語音的重要性不言而喻,說其為後者的代名詞也毫不為過,正如度秘至于百度、GoogleNow之于谷歌、Siri之于蘋果...

從搜狗官方的介紹來看,“知音”擁有吞音優化、語音糾錯以及多輪交互三個功能。雖然還算不上創新,但從技術角度而言,這三個功能都含金量十足。

吞音優化

吞音問題來源于用戶,如果說話時語速過快會有吞音問題,而機器自然也不會适應這樣的發音。

如果需要準确地識别快語速的語音,那就需要技術和豐富的語料支持。王硯峰表示在語言模型訓練時選擇大量吞音的語料,另外在建模上做一些吞音的優化,這是解決吞音的基礎。

用“知音”舉個例子:

知音發音部分的建模使用的是LSTM CTC的模型,對發音本身以及發音間的差異性做了細緻的描述;

另外知音還使用了基于深度神經網絡的語言模型對識别結果進行了修正,依賴更長的曆史信息将吞音對識别結果的影響盡量降低;

除此之外,知音在數據層面也做了篩選以及生成的工作,通過調整數據分布優化吞音識别的效果。

語音糾錯(修改)

通俗點講,語音修改是為語音識别錯誤填坑而存在的,它可以幫助用戶使用自然語音的方式來修改錯誤的識别,而不需要手動操作。

修改過程包含了語音識别(識别用戶糾錯的命令)、語義分析(分析用戶修改的意圖)、文本修正(執行相應的修改命令)三個步驟,整個系統性能的優化是一個聯合優化的過程,語音識别盡管面向的是垂直類别,但是語言模型嚴重依賴于語義分析模塊的知識。

在語義分析的基礎上,還需要輸入法和搜索的知識,例如輸入法拆字庫如立早章、海量詞庫如硯台的硯,搜索知識圖譜如清華的邱勇等。

多輪交互

多輪對話一直都是語音識别難點,雖然有不少語音産品宣稱自己具備多輪交互的能力,但實際表現如何又是另一回事了。

如果隻表達一個命令,隻會涉及到機器學習當中的分類問題,但多輪交互的問題就複雜了。他需要結合上下文,而用戶行為往往是不可預測的,會産生出很多新的行為範式,反映出來的就是狀态機會增加更多的狀态以及狀态之間的邊,那麼如何根據用戶産生出來的數據,動态的不停的構建或者調整狀态機,這是多輪交互裡面最大的難點。

要實現多輪交互就需要強大的知識圖譜以及技術架構。

“如果沒有好的知識圖譜和技術架構,你的語音産品隻會是一個玩具。”王硯峰如此形容。

從各家語音識别産品的叠代情況來看,體驗的較量已經上升到了一個新的level,但可以确定的是未來産品的差異不會體現在技術上,而是數據的積累,至于搜狗會把“知音”帶到一個什麼樣的高度,我們拭目以待。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关寵物资讯推荐

热门寵物资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved