tft每日頭條

 > 圖文

 > airpods pro怎麼語音喚醒siri

airpods pro怎麼語音喚醒siri

圖文 更新时间:2024-12-23 20:07:16

據産業分析師預測,2019年蘋果AirPods出貨量将超過5000萬台,2021年更是有望破億!這款從發布被人嘲笑,到後來成功引領市場的産品,早已成為各家追趕超越的對象。

耳機行業近幾十年來沒有發生重大變革,TWS耳機的出現讓整個市場未來将有數百億美元的成長空間。

AirPods已經成為蘋果增長最快的配件産品,在手機銷量整體滑坡的現在,每一個手機廠商都在找自己的突破點,如何重新占領市場先機成為了尤為重要的關鍵。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)1

AirPods這種TWS耳機不僅使音頻市場重獲生機,也成為了蘋果這樣的手機廠商的救命稻草,由AirPods引出的:語音交互、骨聲紋識别支付、加入eSIM獨立使用等已成為TWS耳機下一個戰場。

TWS耳機被稱之為2019消費電子市場最大亮點,智能語音識别的加入将TWS耳機市場蛋糕持續擴大,更是吸引了五大玩家入局:

運營商入局:聯通、移動,讓耳機産品獨立使用成為可能;

互聯網巨頭搶占入口:亞馬遜、谷歌、微軟、百度;

電商與支付加入:微信、支付寶,骨聲紋識别、安全支付,由手機支付到骨聲紋支付的變革。

手機廠商持續加碼:蘋果、華為、小米、三星、索尼、OPPO、榮耀、一加、魅族,均已推出自家多款耳機産品。

内容平台緊跟其後:QQ音樂、網易音樂、喜馬拉雅FM,為TWS耳機提供源源不斷的生命力。

市場很久沒有這麼熱鬧,仿佛回到了智能手機爆發初期的繁榮階段,接下來八仙過海,各取所需,各顯神通。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)2

上一輪的智能音箱争奪戰中,我們看到以蘋果、谷歌、亞馬遜、百度、阿裡、騰訊、小米等為代表的先頭部隊,這些巨頭的加入,讓中小企業隻能選擇站隊,投靠到各自的陣營,以獲取内容、流量、補貼等賴以生存的資源。

通過我愛音頻網分析,智能耳機的風口比音箱将要來得更猛,更觸手可及,今天我們一起來探讨如何抓住智能耳機的風口。

一、TWS耳機飛速發展,蘋果靠Airpods領跑市場

IDC最近發布的2019年第一季度全球智能手機市場的調研報告。數據顯示,全球智能手機出貨量為 3.108 億台,同比下降 6.6%。其中排在全球出貨量前六位的廠商也大部分處于同比下降的狀态,Apple甚至下降超過了 30%。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)3

與手機市場的遇冷相比,TWS藍牙耳機則是以一種不可思議的速度在發展。根據Counterpoint的數據顯示,在2018年第四季度中,AirPods的出貨量占到了市場的60%,達1250萬台。

據Above Avalon報道,最近三年假日AirPods在谷歌上的峰值搜索興趣,索引為100(代表最大搜索興趣)。2016年的峰值為10,2017年為20,2018年為100,同比增長了500%,這樣的增長速度實在令人吃驚。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)4

由此可見TWS耳機的市場容量的巨大,音頻和手機廠商也都紛紛加入這個領域,勢必也要從這塊巨大的蛋糕上狠狠切下一塊。

而在2019年的3月20日,Apple推出全新的TWS真無線藍牙耳機——Airpods2,這次升級,主控芯片換成了全新的H1,而功能上除了支持了無線充電之外,還有一個非常重要的一點,那就是語音喚醒。

二、TWS耳機語音喚醒方案實現的細節

Airpods的成功源于其優質的體驗,而Airpods2代此次升級了語音喚醒,語音喚醒是智能語音非常重要的一環,手機上面早就大量支持比如iPhone的Hey Siri、小米9的小愛同學、samsung galaxy S10的Hi Bixby等等。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)5

而在耳機端,大量的耳機依然使用的是觸摸或者按鍵喚醒的方式來激活語音助手。物理觸摸或者點按的方式與語音激活,兩者體驗的差距當然是不言而喻的。

Apple率先支持了語音喚醒,那麼其他廠商是否能夠跟上,又要如何實現。又有哪些技術細節需要去考量?

首先TWS 耳機本地喚醒詞的應用由語音辨識及誤喚醒處理 2 個部份組成:

1、喚醒詞語音辯識(本地語音命令亦同)

喚醒詞辯識需由前端信号處理把用戶聲音與背景聲音的信噪比拉高以利在不同應用場景讓喚醒詞識得到最高喚醒率,我們列出從麥克風采集到用戶的聲音信息數據開始,至喚醒詞識别結束。

依序完成喚醒詞識别所需要的算法排列如下:

MIC→(LPSD 或 VAD)→(BF)→(NS 或 NR)→(KWD)

算法名稱及參考供應商

LPSD 或 VAD, LPSD(Low Power Sound Detection), VAD(Voice Active Detection),參考供應商 DSPC,Seneory;

BF, BF(Beam Forming) 參考供應商 DSPC;

NS 或 NR, NS(Noise Suppression, Noise Reduction) 參考供應商 DSPC;

KWD, KWD(Key Word Detection) 參考供應商 Sensory, AI Speech, Nuance, Cyberon。

眼下市場上真正能提供出足夠算力,使用單一藍牙芯片就能集成上述算法并低功耗做到本地喚醒詞功能的有高通的:QCC512x 及 QCC302x。

絡達、瑞昱、恒玄等芯片産品建議搭配QuickLogic S3、Ambiq Apollo2、 Apollo3 或樓氏 IA-610、IA-611 智能麥克風芯片以達到在高算力低功耗要求下,滿足本地喚醒詞的功能。

所有的算法或芯片都必須以合法的方式取得使用權力及各種必要技術支持,這些供應商内 Quicklogic 的 EOS S3 是最早與宇恒互動 OVVP 算法做全面系統整合應用于實際客戶産品上的,S3 芯片内部還帶有 891 個可編程的Logic Cell,設計非常獨特,可以滿足特殊硬件接口的需要。

2、喚醒詞或語音命令誤喚醒誤觸發處理

誤喚醒或誤觸發的定義:

TWS 耳機用戶,非用戶本人說出喚醒詞或語音命令後,語音助手不回應或語音命令不動作,自己說出喚醒詞後,卻能喚醒或運行戴耳機用戶的語音助手或語音命令。

市場上幾個不同方案的說明:

2-1、基本處理

一般在喚醒詞算法群内,BF 可以起到一定減低誤喚醒率的作用,但與聲源的方向有關,在雙麥克風的間隔距離夠遠,産品結構聲學架構調試恰當狀況下 DSPC 的 BF 算法可以做到3db~6db。

這部份細節可以請教 DSPC 代理商聆感智能科技,他們有很專業的聲學專家及實驗室可以給需要的 TWS 耳機業者充分的聲學相關設計服務。

2-2、使用 vpu 骨傳導傳感器

參考HUAWEI華為 FreeBuds2 Pro 應用 vpu(Voice Peak Up)。

vpu 嚴格說起來是使用一種 壓電材料技術(因無法從datasheet内得知相關信息,隻能從類似産品推論)的單軸加速度傳感器(Voice Pick Up Sensor is a high performance accelerometer 引自Sonion Datasheet Description),主要是用來感測聲帶運動使用,是Sonion(聲揚)公司的産品。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)6

以-25dbv/g 這條輸出強度線來看,最大帶寬可以從 100hz 到 8khz 完整的含蓋了人的聲譜範圍,整段頻譜的響應并不平坦(特别是 3khz~5khz 剛好在人聲的高頻段),需要後段用加了高頻負反饋的放大器整平。

這個傳感器還有個優點就是低功耗(VDD=1.8V 時隻要 55ua 電流),由于輸出的是模拟信号,同時電平不足,拿來做 VAD 時若 A/D 采樣的分辨率夠,有機會可以不通過運放先做個 VAD 讓傳感器 Always On 感測到人聲後才打開麥克風,這樣可以達到降功耗的效果,但因 vpu 是模拟輸出需要搭配芯片内的 A/D 轉換器及算法,這還得看芯片的功耗換麥克風的功耗是不是劃的來。

這類單軸骨傳導傳加速度感器在産品結構内的放置點,需要考慮用戶使用過程中松脫後導緻 vpu 輸出聲信息強度滑落的補償問題。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)7

HUAWEI華為 FreeBuds2 pro需要支持骨聲紋支付,所以要較好的保證取到能做聲紋辯識用的聲音,在 vpu 保證不了足夠的動态範圍條件下,聲帶寬範圍的放大器是免不了的,這樣在功耗,器件數量及組裝工藝,測試難度上都會有相當的增加。

加了高頻負反饋放大器後拉升了低頻加大了動态範圍,同時也把人體運動低頻信号又給拉了上來,vpu 自帶天然的高通濾波效果又變差了,後面還又要加上高通濾波算法,過濾掉因人體運動引起傳感器機械瞬态變化引發的多次諧波幹擾,另外在通話,音樂應用場景下喇叭振動的串擾問題還得要處理解決。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)8

所以從我愛音頻網拆解的HUAWEI華為 FreeBuds2 pro 闆上證實确實有運放,并且還加了個 DA14195 來處理各種算法及 A/D 的接口,這款産品使用喚醒詞的感度大約 76db(在 OVVP 感度規格區間内)。

而喚醒詞誤喚醒處理可以達到19db~22db(在 OVVP 的語音強隔離護罩規格區間内)也是挺不錯的,使用加速度骨傳導傳感器感測聲帶振動與隻使用麥克風感測用戶說話聲音的差異是,在說喚醒詞或語音命令時肯定,聲量要大一些(差約 7db 左右),這大廠設計出來的産品還是很有代表性。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)9

另外這個産品也有幾條本地語音命令,科技感十足外還充分發揮了 vpu 的優勢,跟蘋果不同的是用戶說話要稍微“大聲一點”,但誤喚醒處理又比蘋果強很多,且沒有聲源方向限制,任何方向都可以。

但使用 vpu來感測用戶說話聲音,輔助完成安全度需求較高的支付功能,不知道無“清音”的語音聲譜結構缺陷是不是比較嚴重的影響了用戶體驗。

使用骨傳導傳感器,未做清音補償狀況下會讓,Recode 聽成 code,Strange 聽成 change,HUAWEI 聽成 AWEI,,河聽成了鵝,,福聽成了無,錢聽成了言。

聲結構的改變會讓人工智能語音識别産生嚴重錯誤,知乎上看到很多關于這方面的投訴,用戶很刻意的大聲說都沒辦法完成支付或聲紋學習,似乎感覺這個問題解決的并不好,當然也可能 Freebuds2 pro 内的字詞識别引擎處理的不好或某種不良所導緻。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)10

從産業角度看 HUAWEI 起了個好頭領先蘋果超過數月,将 TWS 耳機智能化腳步推快了幾步,并在耳機産品數十年關注音質好壞,噪聲水平之外,注入了智能語音應用的亮點與活水,教育了群衆,活絡了産業,讓産業有了再擴張及引動新浪潮的可能。

2-3、使用 MEMS 加速度計骨傳導傳感器(上行降噪)

Apple Airpods,使用多重手段(LPSD、BF、骨導降噪)在背了“不改變用戶使用習慣”的大鍋條件下,喚醒詞誤喚醒處裡約有 7db~9db 的效果(用戶背後 0.5 米環境噪聲 45db 與僅做 BF及 NS 處裡的喚醒詞開發闆對比)。

AirPods支持喚醒詞(本地,雲端或本地 手機),所有的語音命令都在雲端,在雲端的優點是詞彙的彈性無限,隻要語義近似全都能用,識别精度更高,抗噪能力較強,占用本地芯片的資源較少,缺點是無法聯網或聯網品質不好時使用體驗急速劣化甚至無法使用,響應速度較慢。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)11

市場上能用于上行降噪的加速度傳感器除了使用壓電材料的 vpu(模拟輸出)外,ST 意法半導體使用 MEMS 技術的LIS25BA(TDM 接口)是市場上唯一的産品,LIS25BA 是一個全數字産品,内含 A/D 及 TDM 接口,相關信息可以向 ST意法半導體索取。

雖然市場上有傳感器可用,但受限于權利保護覆蓋面強大嚴謹的蘋果專利及擔負改變上行聲音數據聲結構所造成風險的技術難度,眼下市場上還沒有可流通的專用降噪算法,DSPC,Sensory,高通這些知名算法大拿都還沒有明顯動靜,但一些國内 MEMS麥克風的廠家及一些國内算法公司已隐隐傳出動靜。

下面将對骨傳導上行降噪算法的難度提出一些看法,因技術能力與知識範圍有限,謬誤之處還請包涵指教。這裡簡單的談下骨傳導與麥克風融合的上行降噪技術。

在進入主題前首先為大家介紹一篇來自肖新華先生在 2009 年提出的研究生畢業論文,讓大家對後面提及的”TWS耳機語音算法技術難度”有個衡量基礎:

《國防科學技術大學研究生院工程碩士學位論文:面向骨傳導語音消噪算法及硬件實現技術研究》

資料來源、論文作者:肖新華

這是一篇以非負稀疏編碼 NNSC(Non-Negative Sparse Coding)為消噪核心主體并帶上一個使用AMDF (Average Magnitude Difference Function)技術的 VAD 算法配合消除風噪,槍炮聲,摩擦聲。

這并非蘋果公司使用的降噪技術,但可以讓大家對骨傳導降噪或 VAD 做個初步了解,這篇論文以人為可懂度衡量對象,用骨傳導傳感器感測的聲帶振動為主聲源,一個傳統麥克風做噪音拾取噪聲源,通過算法完成降噪處裡。

但現在可懂度的衡量對象除了人還有機器(語音識别算法),而機器對于可懂度的要求要比人高很多,因為機器對語音識别的整體智能還遠不如人。

這裡整理了一張對照表,以蘋果的 TWS 耳機做為參照标準,比較使用 2 種完全不同性質的聲傳感器所感測到的聲音信息數據在處理完降噪問題後要等于 1種聲傳感器所感測到的聲音信息數據,将可能将要面臨到多少問題及挑戰。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)12

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)13

下面依據上表把問題做文字條列叙述式的整理:

1)雙麥上行降噪算法技術的終極目标:隻留下用戶說話的聲音,最大程度消去或壓制,非用戶

本人聲帶運動所發出的所有聲音,但必須讓降噪處理後的上行聲音信息數據與使用傳統麥克

風拾取到的用戶原始說話聲音信息數據完全相等。

2)算法使用了加速度骨傳導傳感,改變了過去由空氣介質傳導聲能量,推動某種材料做成的

膜體轉換成電能,改成了軟骨肌肉皮膚介質來傳導聲音,但算法仍用到 2 個使用空氣介質傳導

的麥克風來補償加速度骨傳導傳感器感測不到清音的缺陷,空氣傳導穩定度高變數少,并經多

年應用對其了解較為透徹,而通過軟骨肌肉皮膚介質來傳導聲音,除了不穩定變數多另外相關

應用還在積壘過程,全球積壘最多應用經驗的非蘋果公司莫屬。

3)下面我們列了幾個算法需要完成的等式:

-1、加速度骨傳導傳感器 雙麥克風=雙麥克風

-2、(軟骨肌肉皮膚汗液,油漬,粉塵介質傳遞變數) 空氣溫濕度介質傳遞變數=空氣溫濕

度介質傳遞變數

-3、單獨濁音 (濁音 清音)=濁音 清音

-4、産品結構及耳廓結構嚴重影響 産品結構影響=産品結構影響

-5、人體運動嚴重影響 人體運動不影響=人體運動不影響

-6、人為算法融合拼接補償 2 種不同材料,不同傳導介質結構,不同響應相位嚴遲,低頻調

制=嚴絲合縫混然一體

4)對于麥克風上行信息數據來說,這些是信息數據是用來聽的,可存儲的,可傳遞信息的,是具有廣闊延申再應用的聲音信息數據,并且需滿足現存于市場上千百個聲音應用軟硬件的需求。

項目決策者必需慎之又慎,規劃項目時慢 2 步決定,然後系統性的觀察謹慎的測試為上。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)14

蘋果公司在 2012 年以前啟動研發并于 2012 年 9 月 28 日提交 13/631,716 号專利,2014 年 4 月 3日提出WO 2014/051969 A1 專利,2016 年 9 月 8 日 Airpods 上市,2019 年 3 月 20 日 Airpods二代上市。

這麼大的龍頭企業漫漫 8年的歲月積壘,别小看這個技術,更何況現在國内市場上這些可能的算法供應者,都不可能具備蘋果公司這樣長期的積累,要實現彎道超車還有待觀察。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)15

從這裡可以合理推測,蘋果公司在 W1 或 H1 芯片内這個上行降噪技術可能是用到最大算力的程序,其中 H1 芯片估計還保留了一定的算力資源給未來做下行環境降噪用。

現在市場上的TWS 耳機藍牙芯片産品,在低功耗的要求下,需要滿足這個算法的算力需求,高通最高階 QCC512x 的 DSP在次功耗的限制下,要實現也需要持續努力。

5)加速度骨傳導傳感器加入各種了機械瞬态變化及環境應力老化的物理特征,很多聲應用信息技術與算法模型,需要更系統性的重新摸索探究,而其中因補償清音及拼接融合2個不同傳感器感測到的聲音信息數據,導緻聲諧波組成的結構變化,對現存雲端語音語義識别算法的可懂性能造成多大影響?需要仔細測試評估,人耳不易聽出來的變化但對語音識别算法來說确可能緻命。

6)在 Airpods 1代上市的過去幾年裏 DSPC,Sensory 這些大咖算法供應商并沒有下一步動作。這是一個有很大算法需求的高報酬市場,這些供應商的保持沉默,這背後原因值得去細思探讨。

7)算法需要解決相位失真,總諧波失真壓制,信噪比保證,非用戶語音的噪聲判斷轉換壓制比(純濁音,純清音),算法延遲,骨導聲與麥克風聲在不同情緒,音量條件下融合自适應或權重變化曲線,人體運動信息低頻調制及多次諧波抑制,清濁音互換響應狀态,降噪處理後的聲諧波結構變化,耳機松脫後音量頻響包絡補償。

8)算法要解決加速度骨傳導傳感器感測到的濁音聲帶運動與雙麥克風在不同情緒,音量條件下所感測到的濁音 清音 2 個不同聲音間的實時同步,重疊,拼接,融合處裡所産生的諧波失真修補,平滑,濾波或壓制。

9)上行降噪最重要的應用場景就是在通話場景,使用骨傳導與麥克風融合降噪技術在大音量通話場景下就像把擴音器的麥克風貼在喇叭上,相移量足不足夠可能引起嚴重的串擾,所以不能隻盯在降噪上。

對于器件密度極高的 TWS 耳機來說,使用骨傳導傳感器來感測完整人聲的應用,被自身加噪才是最大問題,同時還需要用麥克風聲信息數據來補償清音的聲音缺陷信息數據。

在通話場景時關掉降噪算法或降低融合權重,做個僞骨傳導降噪或者用戶能拿到廠家給的有蘋果50%降噪效果功能的算法産品,卻需承擔 100%的侵權風險可能!

喇叭造成的串擾圖

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)16

10)為穩定的取得最完整的用戶聲帶運動信息數據,如何最佳化設計耳機結構,找尋加速度骨傳導傳感器所在的位置及适當使用導聲材料,單軸的 vpu在位置,導聲材料,産品結構,運動松脫,耳廓結構,生産工藝問題上影響遠大于 3 軸的 LIS25BA,這是所以蘋果用了 3 軸加速度計的可能原因。

11)利用不同人發出不同音量大小的/ s /,/ sh /,/ f /,/ he /……等純清音,單由雙麥克風檢拾出來的聲音,對比融合骨傳導聲音信息及麥克風聲音信息降噪算法後的聲音,驗證融合算法自适應權重調整的處理效果,這裡是一個兩難的選擇,因為清音處理的越好降噪效果就要打折,降噪效果越好清音就越聽不清楚。

若因而導緻喚醒詞,語音命令或雲端語音辯識服務器,手機語音輸入法,翻譯,語音轉文字 APP 的辯識效果打了大折扣,在解決這個問題前,去使用到Amazon,Google, Microsoft,百度,阿裡,騰訊,科大訊飛語音助手雲端語音辯識的産品就要面臨比較大的風險。

骨傳導上行降噪在形成實際産品前有很多細微的研發生産測試支節參數需要仔細琢磨調試,耗時極長,大家可以從 iFixit 拆解 Airpods 從其内大量使用黏着劑固定,就能看出為了滿足測試和維持性能指标,其組裝工藝的巨大難度,一個帶骨傳導上行降噪的産品,在相關技術确定成熟了的條件下,從外觀規劃開始到出貨花個 1 年估計算快的了,或許遠遠不夠。

2-4、使用 ST LIS2DW12(SPI 接口)加速度計傳感器 OVVP 算法(骨聲紋用戶說話識别)

傳感器選型:OVVP 算法因為對噪聲密度,分辨率,帶寬,ODR 及傳感器内部高低通濾波器有一定的限制及要求,眼下需指定搭配性價比最高的 ST LIS2DW12 傳感器。

OVVP 算法與手機聲紋識别比較說明:

這是我們客戶曾經提過的一個代表性的問題,使用貴司的 OVVP 算法看起來跟使用手機 上的聲紋識别效果類似,為何還要多此一舉呢,下面我們做個對比 :

1)聲紋識别需要針對特定字詞做學習訓練 OVVP 不用 ;

2)聲紋識别隻能對用戶訓練過的字詞做局部保護,OVVP 則是對每個字詞做全局性保護,

3)聲紋識别的安全級别遠高于 OVVP;

4)聲紋識别易受用戶環境,情緒,聲啞病痛影響,OVVP 不會;

5)聲紋識别隻能對用戶訓練過的字詞産生語音強隔離效果,OVVP 則對每個字詞都能強隔離;

6)OVVP 算法是使用用戶既有的加速度傳感器與聲紋識别一樣不需外加硬件成本;

7)OVVP 算法可同時并存雙擊,計步,心率……等算法,聲紋識别則無關;

8)聲紋識别沒有伴聲記号,OVVP 的伴聲記号可以用來做 2 次研發延展應用;

利用伴聲記号與手機語音應用APP,強聯結提升用戶體驗:

伴聲記号是經由加速度傳感器感測到用戶說話時的聲帶運動,通過 OVVP 算法處理後,随着用戶說話的字詞産生的信息數據,最大的特征是隻有戴耳機的用戶“說話的時候”才會産生這個信息,戴耳機用戶旁邊的人說話聲音小于語音強隔離護罩時,是無法産生這個信息數據的,我們客戶産品語音強隔離護罩,能做到 50cm 100db 的程度。

伴聲記号用法:

伴聲記号(下圖),是與麥克風聲音數據一同通過藍牙傳送到手機端,通過 2 者同步後相互參照,可以知道用戶何時說話及說了什麼話。

翻譯軟件很多人用過,特别是谷歌翻譯,相當好用, 翻譯軟件選擇好翻譯的語種後,說話前要先按下屏幕上的麥克風按鍵,然後說一句話,說完後停下等待翻成另一個語言,然後從手機喇叭播出,這個按下屏幕上的麥克風按鍵可以用伴聲記号取代。

隻要用戶說話就自動壓下屏幕上的麥克風按鍵,停止說話就翻譯成另一個語言,通過喇叭播放出來,不用去按麥克風按鍵的翻譯軟件是不是更自然方便。

而帶着伴聲記号的用戶說話聲可以讓語音辯識算法,除了肯定是近場拾取到用戶自己說話的聲音之外,快速得到聲音的起點,停點這 3 個重要信息可以有效優化語音識别算法的應用體驗。

這類語音應用軟件除了翻譯軟件外還有很多,如,微信語音短信息,錄音機,語音輸入法,語音助手,語言學習,手機駕駛模式,語音轉文字……等。

而與伴聲記号同時存在的聲音強隔離護罩,更是讓用戶在多人高密度及較吵雜環境,語音識别算法不用兼顧遠場拾音問題,可以得到相互最低影響的效果。當然若能再有骨傳導上行降噪能力,肯定是美事一樁,完美的不要不要的了。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)17

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)18

伴聲記号可以通過藍牙送到手機端,搭配麥克風信息數據,用在語音助手,自動錄音,自動翻譯,自動發送微信語音信息,語音輸入法,駕駛模式,遊戲……等各類語音相關應用。

OVVP 應用到的相關技術:

OVVP(Own Voice Vibration Peak-up)技術在應用上尊循一個最大的原則,就是不改變任何原有的聲音處理路徑上的信息數據參數結構,因為這些是多年積累下來的經驗與技術結晶,任何的改動都有機會引發不可收拾的風險,碰觸到衆多人的利益,所以我們另辟一個新路徑以輔助性角色為客戶的 TWS 耳機在人工智能語音應用區塊,以最完整專利配套零風險的為客戶創造價值。

下方是在 TWS 耳機内 OVVP 的運作框架圖:

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)19

OVVP 算法技術細節簡述

1)算法涉及卡爾曼濾波,FFT 極窄帶聲譜面積分割計算,曲線拟合,為了不驚動藍牙芯片原廠能讓算法直接用于藍牙芯片應用層。通過泛化,降維,查表,不斷優化簡省整體延遲時間,使用内存資源,功耗及算力,從算法做出功能到給客戶做測試, 1年多的時間才逐漸成熟,更别說骨傳導上行降噪了。

2)加速度傳感器感測到 感測到的X,Y,Z三軸聲帶運動信息數據,亦涉及X,Y,Z 三軸信息亦涉及互相關及歸一化。

3)在最少影響極窄帶區間頻響的條件下,如何有效的将加速度傳感器感測到的聲帶運動信息數據與用戶自體運動所帶起的多次諧波及喇叭串擾間進行分辨與壓制。

三、語音算法各家公司專利保護重點分析

蘋果專利的完整程度及保護範圍級為完美, WO2014051969A1,201380046944.6 這2個專利把使用加速度傳感器本地喚醒詞與上行降噪應用保護的滴水不漏,從帶算法芯片,方案,模塊,産品到銷售整個鍊條都被包含進去。

知名上市公司需要非常慎重的對待,對提供使用傳感器做骨傳導降噪或 VAD 應用的一定需要查詢清楚是否有足夠保護的專利或請對方提出具備閃躲蘋果專利的具體對策,簽署不侵權保證書,同時給出承擔被訴後損失的承諾,項目負責人簡單的問方案商有沒有專利問題。

另外對于使用 vpu 做 VAD 當然就需要查看确認華為的 201811199154.2 專利,要特别提醒的是蘋果的2個專利一樣覆蓋到了 vpu 基本上耳機用任何加速度骨傳導傳感器的上行降噪或 VAD 都被包含在内。

當然,用MEMS 加速度傳感器做 VAD 宇恒公司的 200910190129.2,201810437831.3 也是特别需要去關注的。

專利侵權的判斷中許多人員(特别是工程師或技術人員)會容易遇到認知誤區,認為使用的技術比權利要求上的技術特征多,方法不完全相同,就不侵權。

其實侵權的判定是隻要專利證書有效合法,滿足權力要求内所有技術特征或技術框架,不管再往上疊加多少技術,不管你知道這個技術或應用技巧再久,專利沒有被無效之前,侵權都是成立的。

另外技術特征或技術框架的判定有相同(完全一樣)及等同(相似),“等同”這裡允許一定的模糊空間,若有争議則可以再從專利說明書内去補充或其他行業信息内去舉證。

之所以以前行業内專利侵權訴訟不多或經常不了了之,是因為舉證成本,審理時間相對于産業變化速度及回報效益不成比例。

但現在整體智識産權維權大環境有了結構性的改變,就算不能短時間内在法院取得勝訴判決,在電商渠道卻可以很快的斬斷侵權者的利益,商譽及市占率的大量丢失。

特别是 TWS 耳機 AirPods目前已經成為蘋果公司營收最重要的上升機會,該公司應對侵權會實施更加嚴苛的方式。

上市公司或知名企業的項目負責人需要慎重,以免對任職企業造成巨大傷害,而解決專利侵權的辦法隻有自己提早佈局創新,或合法取得授權及購買擁權産品,别無他法。

下方列出近 一年國内專利保護較重大的變化:

1、2019 年 1 月 1 日開始實施的電商法(關聯法條 41 條~45 條)

2、38 個部門和單位聯合印發《關于對知識産權(專利)領域嚴重失信主體開展聯合懲戒的

合作備忘錄》

3、深圳經濟特區知識産權保護條例(經市第六屆人民代表大會常務委員會第二十九次會議于

2018 年 12 月 27 日通過,并将于 2019 年 3 月 1 日實施其中關聯法條 19~27,43~46)

新的仲裁單位與訴訟法院有:

3-1、2018 年 12 月 25 日成立的中國(深圳)知識産權保護中心

3-2、2018 年 7 月 28 日在琶洲環球貿易中心成立的廣州互聯網法院

3-3、2018 年 9 月 09 日北京互聯網法院挂牌成立

四、專利侵權分析

1、蘋果公司專利 201380046944.6

使用專利摘要,專利說明書及個人音頻設備唯一獨權内的技術特征做分析,專利内用了一個模糊的字眼,骨傳導拾取換能器,在說明書[0005]條尾端也提到了加速計,這個專利适用的對象是 TWS 耳機成品制造商,隻要用到骨傳導拾取換能器(包含了 MEMS 加速度計及 vpu),并用到專利中的 20 條權利要求中的某條權利,基本上就會導緻侵權。

其中很關鍵的地方是,使用“軟材料”在殼内填充改善傳感器取得聲帶振動所産生聲波的效果,這點要請聲學研發人員特别關注,這是搞聲學的人最常用的手段,而下圖表示 TWS 耳機廠家可能拿骨傳導拾取換能器來做的 6 種功能,都在蘋果專利的保護範圍内。

airpods pro怎麼語音喚醒siri(你想知道的都在這裡)20

蘋果公司專利 WO2014051969A1

使用專利摘要及 2 個獨權及權利要求 2.5 内的技術特征做分析,這個專利用了 37 個權利要求主要保護 VAD,噪聲抑制及清濁音互融的應用,基本上隻要用了加速度計(MEMS,vpu 都算)及麥克風就滿足權利要求的技術特征,其中權利要求 5 把麥克風陣列給補充了進去。

所以看到這幾個權利要可以很明确的說,不管骨傳導上行降噪算法的提供者用的是 MEMS 或vpu 加速度傳感器加上麥克風(不管是 1 個或多個)都是侵權。

當然,若是不用麥克風或加速度傳感器其中任何一種傳感器,就有機會閃躲掉這個專利,更好的辦法是擁有比蘋果更早的專利做保護,這個專利強的地方是判斷侵權非常簡單,不用找專業鑒定單位就可以做出清楚的侵權判斷。

目前推測蘋果公司有 2 個方法可以選擇:

方法1:

拉出電商法,通過各電商平台的維權渠道投訴,就可以很快的讓侵權産品下架,判斷方法是,先看産品規格或功能介紹有沒有 VAD,噪聲抑制功能若有,則再看産品内有沒有加速度計(MEMS 或 vpu),若有,就是侵權了。

上電商平台投訴渠道買個侵權産品拆解拍照寫好侵權對比書,上傳,15 天内被訴商家提不出反投訴或相應不侵權證據,侵權産品就等着下架吧,省錢有效。

方法 2:

直接從市場取證,鑒定,上法院起訴,交壓金,封所倉庫。

知名品牌廠商如:HUAWEI華為,VIVO,OPPO,聯想,小米客戶群體與蘋果重疊面積較大,蘋果的更為重視。

關于華強北的市場,因為客群與蘋果不重疊,被投訴主體太小,可以起到幫蘋果培養未來潛力客戶。

這項專利很嚴格,需要市場上的同行謹慎規避。

2、華為公司專利 201811199154.2

使用專利摘要及 1 個方法獨權 14 及權利要求 15 内的技術特征做分析,華為這個專利可以用圖窮匕見來形容,前面系統獨權 1 及權利要求 2~13 基本上好閃好躲又多屬芯片内的處理或算法軟件,不易取證鑒定,但是方法獨權 14 及權利要求 15 同樣的非常嚴格,容易涉及侵權。

把重點突顯在使用骨振動傳感器來控制拾音設備開始拾音,這個權利要求滿足 TWS 耳機行業内極為關鍵的低功耗要求,華為在專利說明書[0047]條裡提到 Sonion 公司的骨傳導傳感器,就是 vpu 了。

所以華為這個專利侵不侵權很好判,首先确定是否有 vpu,然後用實體耳機通過量電流的方式确認,說話前後的電流差别及比對麥克風的拾音時機即可。

所以想利用 vpu 做 VAD 來降低功耗的方案,估計不好實現,另外這個專利的權利要求 2~13 條其内每條都是算法或功能性軟件,華為将這些算法或功能軟件逐條拆解成權利要求,也方便他日後使用專利維權打擊對手。

3、宇恒公司專利 200910190129.2

使用專利摘要及 2 個獨權内的技術特征做分析,使用加速度傳感器,感測聲帶,雙擊或計步運動,通過算法處裡計算後,查找(判斷,對比)是否落在預設閥值區間,得出用戶“何時說話”判斷結果,協助決定語音助手鍵碼或何時說話判斷結果(命令字)是否要通過藍牙傳送到手機。

隻要依據加速度傳感器獲取用戶聲帶運動的 VAD,做為“是否傳送出語音助手鍵碼的參考或何時說話判斷結果”,不管是否還帶有上行降噪功能都算是侵權,這個專利的申請時間落在 2009 年,是個能夠攻防一體的專利。

宇恒公司專利201010224769.3,201010224780.X,201010224803.7,201010230464.3,

201010243048.7,201120374763.4,包含進去了加速度,陀螺儀,地磁儀,氣壓計多種慣性傳感器感測聲音的應用,申請時間都落在 2010 年~2011 年,能在傳感器 VAD 應用上,起到絕佳的防禦作用。

有興趣做骨傳導上行降噪算法的團隊或公司,宇恒互動有興趣将專利提供出來,一起研究如何用這些專利組合找出方法,至少先在中國突破蘋果專利封鎖,增加談判籌碼,降低自己及未來客戶的風險。

宇恒公司專利 201810437831.3使用專利摘要及 2 個獨權與權利要求 16 内的技術特征做分析,使用 1 個或 2 個,單軸或多軸,模拟或數字加速度傳感器來感測聲帶振動和/或人體面部皮膚肌肉及肢體運動,産生傳感器 VAD 的控制信号,不管用的是 MEMS 或 vpu 加速度傳感器及是否還帶有上行降噪功能都算是侵權。

使用 MEMS 或 vpu 加速度計做 VAD 或上行降噪應用,先把專利風險考慮完,再看這些應用是否滿足功能指标要求,系統性充分全面的測試過再用聲結構的改變是非常難實現的。

海内外知名人工智能語音應用巨頭,在對OVVP算法了解過程中,非常着重要求專利說明,顯然這個問題對這類企業來說影響很大。

我愛音頻網總結

随着旗艦手機逐漸取消3.5mm接口以便實現輕薄化的趨勢,續航、傳輸、音質、價格等痛點得到了改善,對整個TWS耳機市場的放量帶來了巨大的成長空間。

根據GFK數據,2016年無線耳機出貨量僅918萬台,市場規模不足20億元。到2018年無線耳機出貨量同比增加41%,市場規模将達54億美金。到了2020年TWS無線耳機的市場規模将達到110億美金。

智研咨詢預計2018-2020年全球TWS耳機将實現高速增長,出貨量分别達到6500萬台,1億台和1.5億台,年複合增速達51.9%。預計随着 無線耳機音質,功能性持續改善及與人工智能語音APP應用深度擴展聯結,未來無線耳機的滲透率有望繼續提升。

這樣巨大的銷量增長空間,讓每一個想要入局有實力的廠商都有可能抓住商機,風口起飛。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved