tft每日頭條

 > 生活

 > ai語音技術如何實現

ai語音技術如何實現

生活 更新时间:2024-07-04 09:15:07

從圖靈測試到 AlphaGo 擊敗圍棋世界冠軍,AI 在近 10 年間再次進入新一輪的高速發展期。與以往不同的是,随着數字化的發展普及,AI技術開始進入千行萬業,從技術界的熱點寵兒,變成移動應用的常客。

AI 在行業應用中較為普及的,是使用 AI 中自動構建分析模型的機器學習技術(Machine Learning,ML),用于人臉、文本等圖像類識别,例如電商物流的智能分揀、智能安防監控、工業智能質檢等。随着機器學習模型的發展強大,AI 正在用于語音等更複雜的信息識别,并逐漸應用于智能家居語音控制、智能交互等場景。不過,快速發展的AI 應用和機器學習模型,既是技術發展的焦點,也需要投入高成本、人力去開發,而聚焦自身業務場景的技術開發者更需要的,是可以輕松調用、通用的機器學習與 AI 應用技術。

ai語音技術如何實現(AI改變千行萬業開發者如何投身)1

HMS Core ML Kit 機器學習服務,交付前沿 AI 應用體驗

AI 已經成為 IT 技術廠商需要重點打造的能力,例如在華為提供端、雲開放能力服務的HMS Core 中,重點為開發者打造了 ML Kit 機器學習服務,覆蓋了文本類、語音語言類、圖像類和人臉人體類等各類 AI 場景和能力,涵蓋了常用的基礎 AI 應用能力和場景,例如海外旅遊出行使用 ML Kit 文本識别和翻譯以獲取路标、菜單,視頻會議使用ML Kit 圖像分割能切換虛拟會議背景。在文本識别、文本翻譯、圖像分割、人臉檢測、手勢識别、文本嵌入這些 AI 能力之外,ML Kit 還擁有更前沿的算法模型才得以實現的 AI 能力。

例如在 HMS Core ML Kit 人臉人體識别服務中,除了靜态人臉識别,還提供快速捕捉動态人臉信息的活體檢測能力。ML Kit 活體檢測甚至已經做到不需要用戶配合做動作,就可以判斷是真實人臉,還是惡意人臉圖片攻擊。另外 ML Kit 活體檢測還可以将模闆人像和人臉進行高精度比對,輸出相似度值,進而判斷兩者是否為同一個人。

ai語音技術如何實現(AI改變千行萬業開發者如何投身)2

活體檢測可在幾秒鐘内識别人臉

ML Kit 的活體檢測采用全新的一個模型多個任務技術,聯合華為“昇騰”推理庫對AI模型的加速效果,量化後模型僅有 0.2M 大小,CPU 推理時延低至 0.01s;端到端同時檢測人臉框和人臉關鍵 68 關鍵點,可以實時檢測動作例如搖頭,響應時延達到毫秒級别;在安全性方面可以有效防範各種類型打印攻擊,視頻攻擊,面具攻擊。

在實際應用中,例如對安全性和精準度要求更高的金融場景裡,采用 ML Kit 活體檢測,比對用戶身份證照片和人臉檢測結果,可以判斷用戶信息真實性,實現快速安全的身份核驗流程,讓 AI 識别可以真正有效助力互聯網遠程開戶、刷臉支付等金融業務的開展。

再例如用于文本、文檔、身份證、銀行卡等文本類信息識别中,HMS Core ML Kit 文本識别彙聚了華為在 OCR 技術上的最新研究成果,支持任意角度的文本識别,能夠對橫豎排,彎曲文本精準識别的同時,還能對文本段落進行準确劃分,對文本内容精确定位。

ai語音技術如何實現(AI改變千行萬業開發者如何投身)3

目前身份證識别是對精度、延時要求較高的 OCR 場景

另外在保證最高識别精度的同時,ML Kit 的文本識别在端側已經支持 11 種文字檢測,在雲側支持 20 多種文字,基本覆蓋主流語種,能夠服務全球用戶。這種文本識别的廣度,背後需要大量算法和研發工作去支撐。

對于更加抽象的語音數據的識别,由于增加了時間維度,使用機器學習識别也更加複雜。其中 TTS(Text To Speech 文本到語音)是 AI 聲音識别中重要的應用場景,也是 AI 識别發展的重要方向。現在,HMS Core ML Kit 的 TTS 音色定制已經實現個性化的 TTS,模拟定制多種真人音色。TTS 語音要達到高度拟人、自然流暢(而不是早期 AI 語音的機器化和頓挫感),背後是華為技術團隊采用深度神經網絡技術對 TTS 模型訓練、精細地調優,付出大量研發精力才得以實現。TTS 音色定制的應用場景非常廣泛,在新聞小說的閱讀、智能硬件、地圖導航、服務類應用中,開發者都可以集成 TTS 能力,為用戶提供實時、可替換、多音調的語音播放,極大提升和創新應用的交互體驗。

ai語音技術如何實現(AI改變千行萬業開發者如何投身)4

TTS 音色定制的應用場景非常廣泛

除了 TTS 音色定制,HMS Core ML Kit 采用語音識别、文本翻譯、語音合成等多項 AI 能力,推出了音色模拟的 AI 同傳解決方案。具體實現過程是将現場演講者聲音實時識别并轉換為文本内容,對文本内容進行翻譯,最終通過語音合成技術輸出翻譯後的音頻流。在這個過程中,HMS Core 語音識别技術能夠迅速将語音轉換成文字,首字時延最低為 350ms;文本翻譯技術則将文本以最快 200ms/300 字節文本的速率快速翻譯。更具特色的是,通過 AI 音色定制,HMS Core AI 同聲傳譯實現了用演講者自己的音色進行同聲傳譯,展現逼真同傳效果。它還可支持跨語種個性化音色的快速定制,最快 5 句話即可極速定制個人喜好的音色,滿足包括同聲傳譯等不同場景不同用戶的個性化訴求與合成體驗。

ai語音技術如何實現(AI改變千行萬業開發者如何投身)5

HMS Core ML Kit 同聲傳譯 APK 界面

像活體檢測、TTS 音色定制、同聲傳譯,這些都是 AI 應用技術發展中較為熱門和重要的領域,而現在華為 HMS Core ML Kit 将這些需要大量算法模型支撐的 AI 能力開放出來,為開發者生态提供了及時和前沿的 AI 技術服務,賦能千行萬業各類開發應用的 AI 智慧和創新體驗,所有這些工作,也讓華為 HMS Core 正在成為 AI 開發生态的重要主力軍。

ai語音技術如何實現(AI改變千行萬業開發者如何投身)6

立即預約 HMS Core Discovery 直播,創造你的 AI 智能語音世界

為了做好開發者技術與服務,華為 HMS Core 提供了豐富和詳實的開發文檔、技術資料,在開發者中形成了良好的口碑。現在,華為 HMS Core 又在重磅打造一檔針對開發者服務的技術解讀系列直播欄目——HMS Core Discovery,每一期直播都會邀請行業大咖或者合作夥伴探讨熱門技術、HMS Core 場景解決方案與案例。開發者可以非常直觀高效地去了解目前熱門開發技術與 HMS Core 開發能力特性。直播通過與開發者的互動交流與“對話”,對 HMS Core 生态技術競争力深度解讀,最終幫助合作夥伴實現用戶和流量的增長與發展共赢。

現在,最新一期的 HMS Core Discovery 直播第 16 期将在 7 月 28 日 19:00 正式開播,主題《與虎墩一起,玩轉 AI 新“聲”态》,就是聚焦于目前 AI 語音語言的熱門應用領域,本次直播将重點分析講解 ML Kit 機器學習服務的語音語言類能力,如上文提到的 TTS、文本翻譯、同聲傳譯這些前沿的機器學習場景和應用,進一步展示 HMS Core 在 AI 與機器學習領域賦能開發者的前沿技術。

ai語音技術如何實現(AI改變千行萬業開發者如何投身)7

HMS Core Discovery 第 16 期:與虎墩一起,玩轉 AI 新“聲”态(掃碼即可預約直播)

在直播中,ML Kit 同聲傳譯能力将全新亮相,嘉賓将為開發者揭秘底層技術和設計,另外嘉賓也将為開發者講解 ML Kit AI 翻譯能力升級後的功能,例如語種擴充情況和翻譯播報的功能。

除了技術講解,直播還邀請到了抖音網紅 IP“虎墩小镖師”,“虎墩小镖師”同時也是 HMS Core ML Kit 機器學習服務中 TTS 語音的合作夥伴,通過與抖音網紅 IP 的破圈合作,HMS Core ML Kit 希望将最熱門和真實應用場景的智能聲音提供給開發者使用。

通過直播的内容,開發者可以了解到 AI 語音識别原理、應用場景、技術調用等實操細節,還可以獲得 ML Kit 已經訓練完成并開放的“虎墩小镖師”聲音,去定制個性化的音色,應用于自己的業務場景中,為用戶帶來新鮮和具有創意的新體驗。

AI 熱潮正在深入千行萬業,AI 應用開發的機遇窗口稍縱即逝,建議開發者持續關注 HMS Core Discovery 技術直播,深研開發熱點背後底層技術邏輯,玩轉 AI 新“聲”态。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved