閩南話識别系統界面。
一位女士正對着手機用閩南話進行語音輸入。
用閩南話對着手機語音錄入“愛拼才會赢”,語音輸入後屏幕上立即顯示“愛拼才會赢”字樣。近期,一款名叫“閩南話識别”的軟件在網絡上走紅。隻要是日常對話的語句,不管你說的閩南話是廈門口音、泉州口音,或是漳州口音,它基本都能識别出來并翻譯成文字,識别準确率高達85%。
這款軟件是廈大信息科學與技術學院副教授洪青陽、廈大人文學院中文系助理教授許彬彬帶領的科研團隊合作研發的。目前,這一軟件已經過多階段的内部測試,并開放供廣大市民免費試用。
記者與幾位同學分别用廈門口音、泉州口音、漳州口音的閩南話,對着軟件語音輸入:“今天天氣很好。”不到2秒,系統翻譯出了相同的對應文字。記者又以略微不同的表達方式對着軟件語音輸入“今天天氣很好”,系統依舊能準确識别。
近日,記者采訪了軟件背後的科研團隊,為您揭秘軟件開發過程。
調查
采集多地語音資料連國外也不放過
首先,該軟件背後的語音資料庫就很強大,這是基于許彬彬近10年來的研究成果。許彬彬帶領團隊借鑒、整理了大量語音資料——囊括福建省内廈、漳、泉多地的閩南方言、文本,甚至收集了國外多處講閩南話的地點的語音材料。
除了廈大的語音資料庫外,每到寒暑假,許彬彬團隊還會去各地進行田野調查。“省内的漳浦、東山等,以及菲律賓北部城市、美國的東部地區,每一個地點至少要停留5天,盡可能全面地描寫該地區語音面貌。”她說。
整理
标注每個音節發音錄入不同口音
有了豐富的“食材”,烹制好這道“菜肴”還需要“配菜”。為此,許彬彬團隊做了大量的整理工作。在許彬彬的電腦裡儲存着大量文檔。“我現在有5台電腦,10個硬盤,全都裝滿閩南話文件。”許彬彬說,閩南話的聲母有15-18個不等,韻母有73-90個不等,聲調有5-8個不等,都要逐一整理,錄入系統。
别以為隻是簡單的标注,每個音節的發音以及發音時長,都必須詳細标注下來。以“他們坐車去台北”為例,許彬彬就标注了16個音素,音素與發音時長還要逐一對應。而這隻是一個句子的其中一種口音。
許彬彬告訴記者,單單是廈門地區,細微的語音差别就有十幾種。“思明區鹭江街道是一種口音,廈港街道又是另外一種口音,海滄東孚街道的口音又接近漳州口音,這些都要逐一标注。”她說,系統錄入的不僅僅是廈門口音,還有泉州口音、漳州口音、潮汕口音等。
建模
收集十萬句日常對話邀志願者測試
為了讓這一系統的閩南方言數據盡可能全面,洪青陽團隊又曆時一年,先後收集近十萬句閩南話日常對話。
除了許彬彬所提供的語音資料外,測試階段,他們還邀請了幾百名志願者參與測試,讓系統“學習”不同口音的閩南話。待系統基本“學會”不同口音的閩南話後,洪青陽又給系統加大了難度——文讀和白讀都要會。
閩南話中存在大量多音字,有着複雜的文讀白讀現象,以“大學”這一詞為例,就有文讀和白讀兩種讀法。該團隊對閩南話語音識别采取了特定規則的發音詞典标注,并用革新後的算法建立了閩南話語音識别模型。
鍊接
将實現閩南話與普通話無障礙溝通
當發音速度不一、吞音等情況出現時,軟件如何準确識别?系統的背後還有一位“把關人”。當遇上系統無法識别的語音時,許彬彬團隊就會進行分析,把新的表達整理成文檔,擴充詞典和句子語料。與此同時,洪青陽團隊在系統後台不斷完善算法,以學習到更多口音和生僻詞彙。現在,系統依舊在不斷完善升級。
據了解,基于深度學習方法,他們目前正在研發閩南話合成系統,最終可以實現閩南話與普通話之間的無障礙溝通。洪青陽說,該系統預計在今年上半年上線。
聲明:轉載此文是出于傳遞更多信息之目的。若有來源标注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們将及時更正、删除,謝謝。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!