【新智元導讀】你能想象的到,連蚊子飛過的聲音也可以被錄到嗎?近期,某科技博主的一支關于拾音器的評測中,30分貝悄悄話的場景下,訊飛的谛聽系列産品拾取的内容清晰,且音質聽感較好,表現完全不輸國際語音巨頭森海塞爾、舒爾等。未來,谛聽不僅僅停留于前端,還将成為鍊接各種智能圖像、視頻應用的紐帶。
在法力即将耗盡之前,身受重傷的海姆達爾使用黑暗魔法将浩克傳送回了地球。
《複仇者聯盟3:無限戰争》中,很多人都對這位彩虹橋的守護神印象深刻。作為雷神的好友,海姆達爾也在幫助「複聯」的過程中被滅霸殘忍殺害。
身為守護者,海姆達爾擁有極其敏銳的感官,他的眼睛可以看清數十億光年外一隻蝴蝶翅膀的振動。
實際上,除了擁有「千裡眼」的能力外,海姆達爾的聽力也非常靈敏,據說他的耳朵連草木、羊毛生長的聲音也可聽到,而且日夜不休息也不會疲憊。
海姆達爾這樣「神級」的聽力固然隻存在于神話和科幻故事中。但在現實生活中,對于聲音的高質量拾取需求卻是真實存在的。
例如,作為萬物互聯的入口,已經走進千家萬戶的智能音箱、智能家電等智能語音産品,在使用的時候卻常常因為距離遠或者噪音大等因素,效果差強人意。喚醒智能語音設備的前端——拾音引擎如果能足夠精細,也許會綻放更多精彩。
深耕于人工智能與智能領域多年的科大訊飛近期推出了全新的拾音品牌——谛聽,據官方介紹,結合自主可控的智能語音與人工智能降噪算法,可以精準識别低至30分貝的微小聲音,并且也可以做到7×24小時日夜不休。
30分貝是什麼概念呢?普通人正常說話的音量是50分貝左右,一隻蚊子飛過的聲音大約40分貝,也就是說訊飛谛聽甚至可以捕捉蚊子飛過的聲音。
運動式瞄準「聲源」,再小的聲音也值得被傾聽
谛聽是如何長了順風耳,實現「蚊過留聲」的?
雖然語音識别相關的深度學習已經逐漸成熟,在實驗室中也取得了不錯的效果,但是現實中仍然有很多場景,語音識别、語音轉寫的效果差強人意。
識别的不準,轉寫效果自然不好,而識别準确的前提,是獲得一個高質量的音頻。
通常情況下,我們要麼改善拾音的環境,要麼改善拾音設備的性能。而拾音的環境是很難控制的,因此改善拾音設備的性能就尤為重要。
往往很多IoT産品隻注重更多樣化的功能,卻忽視了最初的原點。訊飛谛聽能着眼此處,未免讓人欣慰。
針對目前拾音市場的痛點,訊飛谛聽系列配備了32路麥克風,可實現7×24小時全天候、全方位、無死角拾音,精準拾取低至30分貝的超小音量。
當然,如此精準的拾音除了硬件的支持外,還得益于谛聽的自動聲源定位和自主研發的降噪算法。
我們知道,聲音在傳播過程中會發生衰減,不同方位的聲源會導緻所拾取語音音量和效果差異較大,而谛聽采用了全自動聲源定位和自适應波束形成技術,使得谛聽可以輕松拾取運動的聲源。
波束形成技術,如同一個槍手,可自動「瞄準」運動的聲源方位,相對于那些需要預設和限制區域才能拾音的設備來說,訊飛谛聽的優勢十分明顯。
拾音準确隻是獲取純淨語音的第一步。現實環境往往更複雜,各種幹擾噪聲不斷,再加上回波和混響,使得語音信号的處理更加困難,所以後期降噪也是重要一環。
面對噪音的挑戰,訊飛谛聽首先通過聲音定位技術精準拾取音源,進行語音增強實現初步降噪,然後通過波束形成和基于深度學習的語音增強算法,對非方向性和方向性的噪聲進行抑制,最後對音量大小自動增益并根據人耳的聽覺特點進行優化,使輸出的聲音更加飽滿。
在拾音領域,德國的森海塞爾、美國的舒爾都是行業巨頭,那麼,訊飛谛聽跟它們相比會有什麼樣的表現呢?
前段時間,某科技博主的一支關于拾音器的評測視頻引發了大家的關注,在和德國森海塞爾、美國舒爾的較量中,谛聽表現出彩,毫不遜色, 評測頻顯示:
在模拟30分貝悄悄話的場景下,森海塞爾拾音穩定,内容清晰,舒爾拾取的聲音非常小且難以分辨說話内容,訊飛的谛聽系列産品拾取的内容清晰,且音質聽感較好。
接着,評測者又分别模拟了環境噪音為70分貝和90分貝的情況,結果顯示即使是90分貝的極端噪音環境,谛聽都能有效抑制,對話内容依舊清晰。
谛聽系列産品的出色表現,離不開科大訊飛21年來始終如一地對源頭核心技術的自主創新。
2018年至今,科大訊飛已獲得30項人工智能國際競賽的冠軍,涵蓋語音識别、語音合成、機器閱讀理解、手勢識别、圖像識别等諸多領域。
今年7月,在DCASE 2020挑戰賽的聲音事件定位與檢測任務中,科大訊飛A.I.研究院聯合中科大語音及語言信息處理國家工程實驗室摘得桂冠。
長期以來,拾音器這類專業語音設備一直被海外品牌所占據,實現源頭可控意義重大。
科大訊飛作為智能語音行業的佼佼者,一直堅信「中文語音技術應由中國人做到最好」,訊飛谛聽或許正是其20多年專注于源頭核心技術的最佳體現。
除了語音的精準拾取和噪聲抑制,訊飛拾音硬件還可以與其相關談話系統結合,賦能于政法、交通、安防等特殊場景和關鍵部位,實現說話人分離。
該技術可以将自然交談或者會議場景中的多個說話人自動區分開并轉寫記錄,使得音頻、文字的利用更便捷高效。
融合了精準拾音、深度降噪和說話人分離等先進技術的谛聽,将為更多使用場景帶來全新的暢想空間。
配備谛聽的安防設備不光有了攝像頭這個鷹眼,還長了「順風耳」,視頻無法捕捉的情景,谛聽可以聽到,語音和視頻被有機的結合起來,再也不用對着「默片」猜唇語、對口語了。對于安防領域來說,将會是一個巨大的革新。
谛聽聽到的是聲音,而聲音最能體現人的情緒,結合視頻中的圖像行為判斷,音視頻多模态智能對群體性和違規事件可以有很好的預警,單視頻采集的視野盲點也可以得到有效補位。
未來,谛聽不僅僅停留于前端,還将成為鍊接各種智能圖像、視頻應用的紐帶。
據了解,科大訊飛拾音産品已經廣泛應用于公安、檢察院、法院等政法系統以及智慧園區、智慧交通的建設中,讓城市能更好的「傾聽」每一個角落的聲音。
根據艾瑞咨詢的數據,2018年中國智能語音市場解決方案形式業務規模達到了33億,預計2022年将超過100億。
以谛聽為代表的智能語音技術突破性的進展,為AI應用帶來了新的機遇,音頻、視頻與文本的結合,也讓智能語音成功出圈,跟圖像和文本一起,走向更通用的智能。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!