不論是“勒是霧都”的重慶,還是遍地“靓女靓仔”的廣東,“吳侬軟語”的江浙,方言都是各地極具特色文化名片。一方面,方言附着極大的親切感,另一方面,方言也承載着各地強烈的情感認同與文化價值。
科技發展中的語言交流,不能遮蔽地方性的文化和知識。
考慮方言識别存在文化保護的更高立意,同時也在将老年、弱勢群體并入科技生活。思必馳放大全鍊路語音系統應用在方言的識别、理解、合成上,在家居、銀行大廳等應用場景落地,形成了能聽懂“方言”的醫療陪伴音箱、智能客服機器人等多樣化的産品,可識别粵語、四川話等多種方言。
語音識别的“軟肋”-口音、方言語音識别好比機器的“聽覺系統”,讓機器通過識别、理解,将語音信号轉變為可理解的文本。漢語語音識别的研究起始于70年代,經曆四十餘年發展,得益于技術的演進和海量數據的積累,一般場景下普通話識别都能達到較好的識别效果。但“口音、方言”仍是全球諸多人機交互公司共同面對的挑戰。
為了探究方言、口音對語音識别系統的影響,2018 年華盛頓郵報,Globalme 、Pulse Labs (語音研究公司)合作,對市場主流智能音箱進行測試,事實證明智能音箱不能對方言“通吃”。
方言識别究竟難在哪?
多音多義,使用情境各不同。以中文為例,不僅是在文字使用習慣上(例如,“老後悔了”),讀音上也存在差異性(“插”讀“擦”,“胡”讀“福”)。标準普通話由21個聲母和39個韻母組成,上海方言中卻包含34個聲母和54個韻母,不同方言就是不同數量的聲韻母組合。同時,語音識别是一個強場景關聯的技術,不同使用情境,方言識别效果存有差異。針對性的聲學模型 語言模型訓練是一個長期的過程。
需要豐富的語料用以訓練。可以理解為機器的“詞彙量”,思必馳基于多年語音交互領域的研究,積累了大量基于場景化的數據,铢積寸累地汲取方言語料,不斷更新、完善語音數據資源庫的建設。
需要持續地研究文化、語素、音素,專業人士、方言專家的參與,會讓方言識别效果事半功倍。
低資源環境,如何保證識别準确率?面對低資源環境,如何提升語音識别準确率?思必馳研發了多種跨語言預訓練、聯合學習、遷移學習的技術,使用較少的數據,來實現方言識别效果的提升。
跨語言預訓練模型
跨語言預訓練,簡言之,就是利用大量的有監督或無監督文本,例如用普通話來作為它的基底得到通用的預訓練模型,在此基礎上疊加少量的方言數據進行模型訓練。伴随後期積累起來的方言、垂直場景數據。“煉丹爐”就可以不斷提高模型性能表現,從而提升識别率。
多語言聯合學習,例如考慮到貴州、四川地理位置上的接近性,因而語言近似性較高。在方言數據樣本低資源下,思必馳将近似性語言進行聯合學習,從而降低模型的識别難度。
自研的小樣本遷移學習技術,用較少的數據量,可以快速實現場景體驗優化。例如使用少量帶标注的文本數據,即可對标點斷句進行優化,相對傳統模式調優,節省了83%的數據量。
使用聯合學習和遷移學習的識别後處理技術
在實際應用中,滿足大規模快速自定制的模型,是企業方的切實需求,一是低門檻快速定制,二是能擁有足夠的自主權。思必馳方言識别技術,同時具備快速高效的場景化定制能力。通過數據的快速收集和場景模拟,結合自主研發的識别模型自訓練系統,短時間内顯著提升方言識别模型在應用領域的效果,滿足業務需求。
對于有多語言混合需求的集成商,思必馳運用多混合識别模型,在完成識别特定方言的同時,還可識别普通話,最多支持十多種方言的識别。例如,中川混讀模型可以同時識别四川話和普通話。
目前,思必馳提供基于雲 端混合引擎的連續語音識别,支持四川話、粵語、上海話、閩南語、陝西話、山東話等十幾種方言識别。
輕松識别方言,讓交互更有溫度探索人機交互的自然、流暢發展,語言的交流一定要足夠人性化。
重慶農商行客服機器人刷屏朋友圈,TA能聽懂四川話,順暢完成餘額查詢、轉賬等操作,面對說慣了四川話的老一輩人們,這個功能太友好。
基于廣泛的生活場景,思必馳與合作夥伴一起将人性化交互的主動權交給用戶,聆聽更多“新聲”。
在家裡,美的空調/熱水器烤箱等産品均支持多種方言(粵語,四川話,山東話,上海話)識别,方言轉普通話等模式,各色鄉音無縫交流。思必馳智能醫療音箱亦能聽懂方言、重口音普通話,充當家庭醫生安心相伴。
汽車裡,支持四川話的語音識别服務,導航都略帶一絲“麻辣味”。某城市地鐵站内,自助售票機支持普通話/中英混合/英語/粵川滬等多語種及方言的識别,準确識别“(lei)崗站、“東湧(chong)站”等冷門、多音字的站名,乘客語音問詢、購票更自由。
會議室裡,語音識别入鄉随俗,用“方言”的特技展現出出色的工作能力。
伴随AI語音技術普惠式發展并逐漸下沉,讓不會拼音、不會普通話,隻會方言的老年人,可以通過方言識别實現無障礙交流,這是可見的事實。廣袤的華夏大地,科技反哺傳統,正守護着多彩語言文化的燦爛文明。
當下來講,加強對“方言字詞”、“方言音标”标準化建設,讓TA更懂人們的聲音。未來随着語音識别自适應能力越強,不受特定人、口音、方言的影響的識别技術将指日可待。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!