來源:人民網-人民日報海外版
内蒙古自治區呼和浩特市特殊教育學校的聽障學生在上課中用手語回答問題。 丁根厚攝(人民視覺)
天津理工大學鲸言創益無障礙智能科技研發團隊正在讨論項目進展情況。 天津理工大學供圖
在湖南省長沙市馬欄山政務中心,聽障人士使用雙向無障礙溝通平台。 長沙千博信息科技有限公司供圖
騰訊智能創作中心的遊戲AI主播研發團隊正在讨論相關問題。 騰訊供圖
每年9月的第4個星期日是國際聾人日。第二次全國殘疾人抽樣調查結果顯示,中國聽力障礙殘疾人數約2780萬。龐大的聾人群體不甘願“沉默”,他們渴望能和其他人順利溝通。為幫助聾人群體更好融入社會,企業、高校齊發力,研發相關設備和系統,讓聾人群體能夠“聽見”與“被聽見”。國際聾人日來臨之際,本報記者分别走訪了一些企業和高校,為您講述相關品牌研發背後的暖心故事。
讓更多聽障人士被“聽”見
本報記者 李家鼎
電視畫面中,主持人侃侃而談,一旁的“AI手語主播”同步出鏡,将包含大量冬季體育運動專業詞彙的語言一一翻譯……這一幕,發生在北京冬奧會期間。在央視新聞冬奧直播特别節目中,“AI手語主播”的出現讓人眼前一亮,受到不少聽障人士的歡迎。
“能将科研成果帶到舉世矚目的冬奧會上,服務于電視機前的聽障觀衆,我們感到十分自豪。”天津理工大學聾人工學院副院長袁甜甜告訴記者,“AI手語主播”的背後,隐藏着一個龐大的手語視頻資料庫,過去5年,她帶領學校鲸言創益無障礙智能科技研發團隊克服重重困難,構建起30餘萬條的視頻語料庫。如今,他們打造的“複雜場景下中國手語實時翻譯系統”已受到科創領域的不少關注,在未來各種應用場景下,更多聽障人士被“聽”見,正在走向可能。
“為什麼一定要把手語翻譯成文字或語言呢?現在語音識别軟件這麼多,聽障人不會說,打字給健聽人看不就行了嗎?” 項目啟動之初,不少人曾對這項研究的必要性提出懷疑。“這些語音識别軟件,邏輯出發點永遠繞不開健聽人,對聽障人來說,他們更渴望的是自己的‘語言’可以被社會聽見、聽懂。”袁甜甜說。
不久前,天津市急救中心工作人員聞訊找到袁甜甜:“你們的項目能否考慮在急救領域落地,我們太需要了!”在急救工作中,遇到聽障人士是常有的事,生死垂危之際,很少有患者還有意識在手機上打字,而要求醫生和急救人員會手語更不現實。
“要想讓這套系統應用于更多場景,就需要讓語料庫變得更加豐富。”團隊成員、聾人工學院網絡工程專業2018級學生王建源的主要工作就是搭建語料庫,“招募會手語的志願者來錄視頻,反反複複地錄。”王建源介紹。兩年時間裡,王建源和夥伴們幾乎每天都會出現在學院三樓實驗室,有時忙到很晚,幹脆席地而睡。他們已經收集到30餘萬條語料,“經過測算對比,距離中國漢語水平考試的4級水平僅差100多個詞了。”王建源“說”完,一旁的顯示屏上準确顯示出上述文字。
手語是一門視覺語言,有它特定的語法、語序。手勢、表情、肢體動作自由排列組合,表達的是不同的意思。“比如說‘陽光總在風雨後’這句話,手語的語序是‘風/雨/結束/陽光’,讓健聽人看得懂,就要用到計算機算法。”計算機學院研一學生孫悅說,在算法模型搭建中,他們漸漸總結出規律,能夠将一段手語中的手勢、表情、肢體動作全部識别到位,“通俗地講,就是我們給計算機編了一套‘教材’。”在孫悅看來,這套“教材”正是他們找尋的聽障人溝通外界的那座“橋”。
“這套系統已經涵蓋教育、法律、餐飲、交通等應用場景,在光線充足的環境下,識别率可達95%。”袁甜甜說,系統還在飛速升級,“我們目标是100萬條語料,基本覆蓋社會生活的常用場景。”
“溝通永遠是雙向的,我身邊的這些孩子們不是殘障,他們隻是‘不一樣’。我們要做的就是,用科技的力量讓他們被‘聽到’、被‘聽懂’。”袁甜甜說。
辦事過程比想象的還方便
本報記者 申智林
走進湖南省長沙市開福區政務中心,來自吉林省的姑娘李麗打算咨詢一下殘疾證異地換新的相關流程。由于存在聽力方面的障礙,她做好了因溝通不暢而辦不成事的準備,卻沒想到,整個辦事過程遠比想象中要方便。
大廳裡,工作人員見李麗隻能用手語交流,便将她引導至載有“樓層業務導引”功能的屏幕前進行辦事分導。
令李麗驚喜的是,點開一級菜單,屏幕左上角立刻彈出一個小窗口,裡邊赫然出現一個虛拟人物“千語”。每當李麗往下劃動,虛拟人物都會迅速而準确地打起手語,充當導引内容的翻譯。很快,李麗就找到了對應的辦事專窗。
沒有一個懂手語的工作人員,也沒有配專職手語翻譯,開福區政務大廳的工作人員駕輕就熟地打開“千博手語雙向無障礙溝通平台”,先是借助預置業務内容的手語翻譯,同李麗溝通交流;深入溝通中遇到困難,又聯系平台後方的實時翻譯,對李麗做好釋疑解惑。不到半個小時,相關業務就全部辦理完畢。“有了這套系統,我們溝通更順暢了。”李麗表示。
“這套服務系統目标是打通語音文字到手語手勢、手語手勢到語音文字的雙向映射,實現聽障人無障礙獲取漢語及文本信息,聽障人與健聽人之間無障礙溝通。”長沙千博信息技術有限公司技術總監郭松睿介紹。
2018年,湖南大學信息科學與工程學院教授、長沙千博信息科技有限公司主要創始人高春鳴帶着郭松睿在内的研究團隊,在一次同北京聯合大學的教師開展技術交流時,得知聽障人士有對智能手語實時轉譯等功能的迫切需求。
“這正是我們擅長的内容。”郭松睿說,彼時,團隊在計算動畫領域已經積累了十餘年技術經驗,“說起來,智能手語可以視為計算動畫的一個具體分支,其中涉及的文本處理、語義分析等程序,需要用到的大數據、雲計算等技術是完全相通的。”
要做到從文本語音到手語的精準翻譯并不簡單。“首先得理順漢語同手語在詞彙及語法方面的對應關系。”郭松睿說,以詞彙為例,2019年,最新版的《國家通用手語詞典》收入了8214個手語詞彙,“但在日常生活中,要滿足溝通需要,至少還需要增加三四千個詞語的手語表達範式。”為此,研發團隊開展了廣泛的基礎語料搜集工作,并從中提煉出一些比較通用的手語詞彙,補充到數據庫中。
而語法方面,情況更加複雜。“一開始,我們想當然地認為,中國的手語和漢語普通話在語法規則上一緻。”郭松睿說,可實際上,不管是語序還是語義邏輯的表達,各地都千差萬别。比如簡單的一句“我不喜歡吃蘋果”,因為語序和語義表達上的差異,可能有很多種表達形式。“在海量語料的基礎上,充分利用大數據計算,我們逐步歸納手語語法特征。”郭松睿說。
在研發團隊不懈努力下,如今,對于新聞播報等較為規範的文本、課堂教學等有章可循的語音報送以及類似政務服務等程序性較強的溝通場合,千博信息推出的“千語”虛拟人物,已經能夠做到實時精準的手語翻譯。
“下一步,我們重點在于提高從手語到文本語音的智能識别和實時轉錄,減少對人工的依賴。”郭松睿說。
終于能“聽”解說了
本報記者 康 樸
“這個操作失誤了”“放了一個大招”……在一場王者榮耀遊戲比賽直播間,主播語調激昂地解說着緊張刺激的對戰場面,視頻畫面右側,一個AI主播雙手不停變換動作——這是騰訊研發的手語AI主播,形象取自遊戲中的角色“雲纓”。她的解說,讓生活在無聲世界裡的遊戲愛好者很開心。
其實,人工智能手語主播在今年北京冬奧會上也有過亮相,騰訊3D手語數智人主播“聆語”就用手語傳遞了中國冬奧健兒争金奪銀的激情與喜悅,溫暖了無數人。
“在很多體育賽事中,專業、準确的賽事解說是觀賽體驗中的關鍵所在,但對聽障人士來說,如果沒有實時手語解說,就很難充分感受到比賽現場的激情。”騰訊智能創作中心相關研究人員說。目前許多新聞資訊、文娛節目中都缺少手語翻譯,手語主持人、手語主播是稀缺資源,如何更好地讓聽障人士獲取更多信息?
騰訊把目光投向人工智能:造一個AI主播,跟着解說同步比手語。可問題是,程序員對手語一竅不通。
“我們請來專業手語老師上課,啃下《國家通用手語詞典》,逐漸形成對手語的基本認知。”騰訊智能創作中心研發團隊相關負責人告訴記者,他們還跑了很多趟聾啞人學校,與師生交流,聽取他們意見。
研發遊戲AI主播的想法就是在這樣的交流中萌生的。“在聽障群體中有很多人喜歡遊戲、喜歡電子競技,經常收看電競直播節目,但即便主播聲嘶力竭,他們依然無法感受到解說的魅力。”研發團隊相關負責人說。
研發團隊不僅僅要學習手語,更大的挑戰在于把手語的手勢、表情、唇動、姿态、眼神等圖像信息轉化為計算機可懂的編程語言。
不了解手語的人,也許會認為手語僅僅需要手部動作。其實手語是一門視覺語言,表情、體态等也是其表達的關鍵。比如“明白嗎?”這個問句,就需要身體朝向、表情、眼神、口型聯動,才能有效傳遞出疑問的語氣。
為了實現更加準确、自然的手語表達效果,騰訊智能創作中心建立了漢語-手語翻譯系統,可以通過機器翻譯生成手語表征信息,基于多模态端到端生成模型進行聯合建模及預測,生成高準确率的動作、表情、唇動等序列。
在體育賽事中,一到緊張激烈的時刻,解說員語速都會加快,這時,打手語就有可能跟不上了。“把解說語音識别為文本,用算法進行取舍,抽取關鍵信息,保留主體意思,再通過語料庫轉換為手語文本,最後渲染成手語視頻。”騰訊智能創作中心研發團隊相關負責人說,系統還會根據解說員語速來判斷是否需要壓縮和壓縮多少語義,以達到更好的呈現效果。
“目前我們在和一些省級電視台合作,讓手語數字人亮相更多電視大屏,先為省級新聞聯播等節目做好相關服務和支持,再逐步拓展場景。”騰訊智能創作中心研發團隊相關負責人說,“随着技術不斷進步和場景不斷完善,聽障人士會越來越便捷地獲取更多信息,我們的工作很有意義。”
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!