tft每日頭條

 > 生活

 > 科大訊飛智能語音基地

科大訊飛智能語音基地

生活 更新时间:2024-11-20 11:30:59

近年來随着AI技術的迅速發展,人機交互變得越來越頻繁,“語音合成”就是人機交互中的重要一環。語音合成技術又被稱為文語轉換(TTS)技術,就是可以将文字信息轉化為流暢标準的語音,其所合成的聲音既可以是模仿某個人的聲音,也可以是包含特定風格的聲音,甚至能摻雜一定的情感成分。基于這樣的特點,語音合成技術能夠應用到許多領域,既可以改善人機交互困難的情景,使人類與計算機的交流更加方便快捷,也可以幫有身體障礙,隻能通過語音來交流的特殊人群。

但是,在人機互動之外,語音合成的商業化一直是個隐藏在人工智能後面的神秘角色,但大體來講,可以分為兩種類型:一種是借着技術優勢做賦能,代表為科大訊飛的訊飛開放平台;另一種是貼近需求做應用,代表為出門問問的魔音工坊。

科大訊飛智能語音基地(語音合成商業化)1

配圖來自Canva可畫

隐藏在人工智能背後的狹小市場

語音合成市場是個極為細分的狹小市場,與之并列的還有語音識别、語音分析等,說到底,語音合成不過是人工智能在應用過程中的副産品罷了。但也正是因此,語音合成技術就處在了一個“難者不會,會者不難”的尴尬區間,所以市面上的語音合成技術基本上都來自人工智能廠商,至少是對人工智能有所參與的廠商。

例如各大雲服務廠商就都有語音合成的服務,包括騰訊雲、阿裡雲、百度AI開放平台以及字節跳動的火山引擎。

“語音合成”用最簡單的方式理解,歸根結底不過是讓機器将文本“說出來”。雖然語音合成總是與人工智能相關,但其實隻要用戶需要,就能成為一種應用場景,因此語音合成的應用範圍十分廣泛,同時遍布消費級和行業級——而且,在不同的應用場景中,消費級和行業級也顯示出截然不同的特點來。

消費級應用場景中的語音合成,面向的對象往往就是消費者自身。近年來随着短視頻的興起,配音成為部分短視頻創作者工作流中必不可少的環節,但是絕大部分的短視頻創作者并沒有接受過專業的配音訓練,因此其配音要麼效果不盡人意,要麼效率極為低下——某些生手甚至需要30分鐘來配1分鐘的文案内容。

在這樣的情況下,語音合成恰好彌補了消費級用戶自身能力的不足。由于大部分消費級需求以配音為主,使得消費級語音合成可以通過标準化、通用化的方式來降低制作成本。也正是因此,在消費級領域耕耘,對語音合成廠商的技術要求沒那麼高。

行業級應用場景中的語音合成,面向的對象往往需要是“消費者的消費者”——與消費級用戶很不同的是,行業級用戶自身其實并不需要語音合成來滿足什麼需求,但它們的語音合成産品一般都要面向數以萬計的用戶,對使用頻次和産品質量都有更高的要求。

因此行業級語音合成産品往往采用定制的方式,不僅制作周期長,制作難度高,而且産品單價高,替換成本高。這種時候對語音合成廠商的技術要求和制作水平就大大提高,一般都是由大型人工智能廠商,或者專精語音技術的廠商來完成。

訊飛:技術驅動行業級市場

科大訊飛是典型的技術驅動型企業,它的語音技術當屬世界一流,它旗下的“訊飛開放平台”是以語音交互為核心的人工智能開放平台。因此,訊飛開放平台提供的語音合成服務實際上隻占了它自身很小的一部分。

在這樣的情況下,訊飛開放平台幾乎和其他雲廠商的開放平台一樣,不能提供面面俱到的通用化和标準化産品,也正是如此使其無法提供通用型産品。對于訊飛開放平台來說,技術才是第一位的,因為隻有技術力足夠強,才能滿足上門的行業級客戶,尤其是這些客戶的需求比消費級客戶複雜得多。

對此,訊飛開放平台隻能提供以通用的服務模型,即某種成熟的方法論,來實現行業級客戶的複雜需求。為了便于區分行業級用戶的需求,訊飛開放平台依舊将語音合成服務分成了三個闆塊:在線語音合成、離線語音合成以及發音人自訓練平台。

其中在線語音合成能夠将文字轉化為自然流暢的人聲,超過100個發音人可供選擇,并且支持多語種、多方言和中英混合,同時能夠靈活配置音頻參數。這種模式廣泛應用于新聞閱讀、出行導航、智能硬件和通知播報等場景,這在海爾的電話客服、追書神器和央視新聞APP的“早啊!新聞來了”有聲欄目都有應用。

離線語音合成引擎滿足無網絡環境下的轉語音需求,SDK輕巧方便,能夠做到實時響應,相當于APP内置的“朗讀者”,在語音導航、新聞聽書和提示播報等場景具有廣泛應用。耳熟能詳的KA有高德導航、滴滴打車、起點讀書和智慧樹考勤機等。

最後,發音人自訓練平台則是基于科大訊飛最新語音合成深度學習技術,隻需要提供少量的幹淨錄音數據,機器就可以快速學習并生成可使用的語音合成音庫,提供專屬的合成聲音。适用于智能客服和教育培訓等領域。

結合以上數據不難發現,行業級客戶對于語音合成的需求,更多的體現在人機交互方面,簡單來說就是需要手機APP“會說話”,而不像消費級用戶那樣基本上隻對配音後的音頻有需求。

因此,在将語音合成模塊嵌入應用的過程中,訊飛開放平台就完成了它的商業化。在行業級應用場景中,音庫定制、服務量、裝機量、發音人、并發數以及有效期都是可選的收費選項,而且價格相較于消費級服務來說,算是十分高昂了。

魔音工坊:應用驅動消費級市場

相較于母公司出門問問,魔音工坊可能更加出名,它是專門針對消費級市場進行特化的語音合成平台。正如前文所述,消費級語音合成市場的基本需求——同時也是最大需求——就是配音。所以魔音工坊幾乎就是針對配音來設置不同闆塊和各種功能。

對于魔音工坊來說,技術并不是第一位的,如何利用現有技術與消費者需求進行匹配才是第一位的。以功能最為完整的網頁端來說明,魔音工坊共設置5個闆塊:軟件配音、真人配音、聲音商店、效率工具以及聲音克隆。

其中聲音商店是聲庫,内置了魔音工坊自制的不同聲源。共計367個配音師,和817種風格,因為主要受衆是國内用戶,因此基本覆蓋了各地區方言,和少量不同音色的英語聲源。魔音工坊通過标準化和通用化的聲源,足以滿足絕大部分用戶的配音需求了。

而軟件配音和聲音克隆闆塊給予用戶分别自定義文本和音源的權利。其中文本的自定義過程中,可調的參數細緻到多音字讀音、語速和停頓等真實場景中的;而音源的自定義則與訊飛開放平台類似,需要提供真人聲源。

最後,效率工具和真人配音則為用戶解決在配音過程中可能遇到的問題。效率工具提供了文案提取、自動打軸、背景音處理、人生處理、一鍵去水印和封面制作等工具,而且基本上都是免費試用;真人配音則進一步節省了用戶花在配音調參的時間。

不難發現,從聲庫到自定義聲源,從軟件配音到真人配音,魔音工坊幾乎将用戶的每個痛點都抓住了,雖然技術可能不比科大訊飛,但在對消費級用戶的友好度這一塊,魔音工坊絕對不輸。

同時,魔音工坊的商業模式可以很好地嵌套在從尋找聲音到完成配音的過程中。從用戶打開魔音工坊那一刻起,收費就已經開始了——首先是售價289元的年費會員,緊接着聲庫的聲源基本上都是會員專享或者付費使用,價格從199-899/年不等,其次聲音克隆和真人配音亦需要額外付費,具體數額視不同情況而定。

技術與應用的博弈與殊途同歸

行業級語音合成廠商與消費級語音合成廠商“井水不犯河水”,幾乎是泾渭分明地守着各自的一畝三分地。但實際上,在訊飛開放平台和魔音工坊決定服務不同的人群的時候,語音合成的技術面以及應用面的博弈就開始了。此時,技術已經不再是決定性因素了,如何與需求對接才是重中之重。

因此,我們可以将訊飛開放平台和魔音工坊之間的區别,看作是語音合成滿足不同消費者需求的不同路徑。行業級用戶往往需要語音與應用相結合,其中重點在于“結合”,在于為它們自己的用戶提供足夠差異化的使用體驗;而消費級用戶往往需要的是語音合成出的音頻,重點在于“結果”。這之間的微妙差異,正是技術力稍弱的語音合成廠商生存的空間。

但是,在這些差别的另一面,也能看到消費級與行業級用戶需求是殊途同歸的。說到底,無論是某個APP需要内置語音,還是某個短視頻創作者需要配音,這都是以“語音合成”這項技術為基礎的。像是許多将别家技術打包,拿過來就用的“二道販子”,無論如何都不可能經營得長久。在這種時候,語音合成就變成了一個楔子,它就變成了這個市場的“入場券”。

總的來說,以訊飛開放平台和魔音工坊為代表的兩類語音合成廠商将會繼續共存下去。這也象征着語音合成技術驅動和應用驅動的統一,無論如何,滿足消費者需求才是語音合成商業化的關鍵要素。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved