tft每日頭條

 > 生活

 > 為什麼喊了嘿sirisiri不說話

為什麼喊了嘿sirisiri不說話

生活 更新时间:2024-07-05 04:34:01

為什麼喊了嘿sirisiri不說話(你怎麼聽見我在叫你)1

現代生活已經産生微妙變化。在節日期間,我們會與家中的智能音箱對話:“愛麗絲,請播放些聖誕歌曲”,“Google,請打開美妙的燈光”,“Siri,請問烤火雞還需要多長時間出爐”,就如同與家裡成員一樣對話,而這種無形的指令幾乎是瞬時得到執行。

包括亞馬遜、谷歌、蘋果的這類裝置已經出現在英國五分之一的家庭中。2019年,全球已經銷售了1.47億套,2020年銷量預計會增加10%。令人驚訝的是,智能音箱已經達到了很高的語音識别能力和精确性。這些都歸因于高靈敏度的語音傳感器和用來解釋語音的複雜機器學習算法。

從正常講話轉換為文本需要兩個過程:(1)一個語音傳感器将接收的聲波轉換為電信号;(2)使用軟件識别出語音中的詞語。對于第二階段,電信号首先由模拟信号轉換為數字信号,然後用快速傅裡葉變換找出不同頻率信号随時間的振幅變化。用算法語言将單音(phones)與标準的音素(phoneme)進行比較,由此構成完整講話。在語音識别過程中,機器學習非常重要,可以用來提高精确度。計算程序會記住我們對所說話的修正,因此在解讀我們個人的聲音時變得更加精确。

Audrey項目與電容式傳感器

靈敏度聲學探測器源于19世紀末。最初的聲音傳感器是碳粉接觸式麥克風,由美國的 E. Berliner 和 T. Edison,英國的 D. Hughes獨立發明。這種麥克風将碳粉顆粒壓縮在兩片金屬闆之間,然後在兩側加上電壓。傳入的聲波使得其中一個金屬膜片産生振動。在壓縮過程中,碳顆粒變形而增加了相互接觸面積,使接觸電阻下降引起電流增加。随着膜片運動使得聲音可以通過電流變化記錄下來。

然而,直到1952年才首次實現語音識别技術。美國的貝爾電話實驗室設立了 “自動數字識别機”(Audrey)項目,可以在普通電話中識别數字0—9,用于語音撥号,然而需要對用戶聲音進行訓練,以及許多其他電子儀器。

從Audrey設立以來,語音識别的計算方面已經有了長足的發展,語音傳感器也接受了嚴格考驗。出現了鋁帶式麥克風、動圈式麥克風、碳粒麥克風等,但先後淡出市場,而電容式傳感器卻一直是主流。1916年美國西部電子工程實驗室的 E. C. Wente 發明了電容傳感器,利用一個電容器平闆之間的電壓與間距有關的物理效應。在一個固定的背闆和一個運動的薄膜兩面加上電壓,随着外部聲波振動的薄膜引起電容兩端電壓的變化,由此可以計算出不同頻率聲波引起的振幅變化。

貝爾電話實驗室的 G. Sessler 等人于1962年發明了駐極體電容麥克風(ECM)。駐極體材料(如聚四氟乙烯)具有本征的表面電荷,可以在電容器兩端保持固定的電壓,從而降低了輸入功率。直徑為 3—10 mm的 ECM 占據了麥克風市場大約50年時間。然而,減小傳感器尺寸會導緻信噪比和穩定性下降,特别是在溫度變化的環境中。

為什麼喊了嘿sirisiri不說話(你怎麼聽見我在叫你)2

與時俱進的語音傳感器。自從19世紀E. Berliner (左),T. Edison和D. Hughes首次發明了碳粒麥克風以來,語音傳感器經曆了很大進展;(中)駐極體電容麥克風;(右)MEMS電容式麥克風

當用于語音識别時,多數ECM傳感器已經被微機電系統(MEMS)電容傳感器所取代。智能音箱中的這種傳感器直徑約 20—1000 mm。MEMS傳感器與ECM的區别在于内部的模拟—數字轉換電路。與ECM相比,MEMS器件對電子噪聲不敏感,尺寸也更小,采用半導體工藝線加工,因而更易于批量制作。MEMS 傳感器的缺點是壽命不長,不适于惡劣的工作環境。沉積在膜片的顆粒、雨水和附着在膜片表面的空氣層都會降低其靈敏度。

新的解決方案

盡管電容式傳感器已經在工業界占據了數十年主導地位,但并非是未來發展的首選。美國Vesper公司設計了壓電語音傳感器,成為新的解決方案。這家2014年建立的公司最初的設計是源于公司CEO Bobby Littrelld 博士的研究。

壓電語音傳感器采用壓電材料制成的膜片,如锆钛酸鉛壓電材料,将機械能直接轉換為電響應。當壓電薄膜接收到聲波,其内部離子間距離會增長,從而産生電偶極子,使得結構中的離子形成能量最低的分布。這種偶極子隻能存在于非中心對稱結構晶體單胞中。偶極子在晶體中的累積效果會産生電壓,電壓随着晶體内應變的變化而變化。

與電容式語音傳感器相比,壓電式傳感器具有的優勢是不會沾上污染物、空氣或者水分,因此壽命更長。另外,這種器件是自供電的,節省了用于電池的空間。

然而,像這樣的薄膜設備——以及電容式設計——往往很難制備,需要在高真空甚至超高真空環境。需要選擇合适的襯底,按照單胞的某一晶體取向生長薄膜,以便在機械應變條件下生長的偶極子均朝向同一方向。需要高溫來提高原子的遷移性,使得原子在襯底的最低能量位置上形成理想點陣。然而,單晶的薄膜必須生長在有序的結構上,而柔性襯底是非晶結構,難于生長單晶薄膜。

向大自然學習

在語音識别領域中,韓國KAIST的團隊發展了一種新的模仿人類聽力的壓電傳感器。他們的壓電傳感器具有與人類耳蝸的基底膜類似的形狀,因此,可以收集常規電容式傳感器兩倍的信息。這一優勢源于,不僅可以收集含有所有頻率的單一信号,從中提取頻率與振幅信息,而且能在薄膜不同的位置獲取多個信号。豐富的信息使得語音識别更加準确。這種設計的精确度和靈敏度占優勢,可以獲取遠處的音頻信号,并且能夠分辨單個聲音。

他們研究中的棘手問題是分析來自這些通道的信号,給出不同頻率信号的相對振幅,這是由于振幅受到了通道共振行為的調制。該團隊認為已經找到了适于這種探測器的通道數,但是必須在收集更多信息以提高精确度與适當大小的處理器之間取得平衡。

喉部傳感器

語音識别技術并不限于将傳感器放置在房屋各個角落,或者你的口袋裡。用于探測喉部振動而不是探測聲波的傳感器,對于聲音幾乎無法傳播的場合是非常重要的,如在嘈雜的工業環境,或者人們佩戴笨重的防毒面具時。2019年韓國浦項科技大學做出了突破性工作,研制出柔性并且可以貼在皮膚上的電容傳感器。這種傳感器通過探測喉部環狀軟骨上的皮膚振動來感知人的聲音。由于喉部皮膚的加速度與聲壓存在線性關系,因此,可以通過測量電容值的變化感知喉部加速度,進而轉換為聲壓。團隊制備了厚度小于 5 μm 的環氧樹脂薄膜,用以模拟自然界中柔性的聚合物材料。

語音識别探測器的未來是面向應用的智能裝置,如靈敏度高,能夠識别作為密碼或者指紋的個體聲音信息。

本文選自《物理》2021年第1期

(北京大學 朱 星 編譯自 Pip Knight. Physics World,2020,(12):25)

原标題:智能音箱與語音傳感器

來源: 中國物理學會期刊網

為什麼喊了嘿sirisiri不說話(你怎麼聽見我在叫你)3

編輯:觀山不易

1. 2. 3. 4. 5. 6. 7. 8.

10.

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved