11 月,國内人工智能龍頭企業科大訊飛在多語言理解、多語種語音識别領域連下兩城!
看懂更多的語言:在覆蓋 40 種語言的世界權威多語言理解評測 XTREME 比賽中以總平均分 84.1 的成績奪冠,并刷新世界紀錄。聽懂更多的語言:在國際低資源多語種語音識别競賽 OpenASR 中,參加 15 個語種受限賽道和 7 個語種非受限賽道,以顯著優勢一次拿下 15 個語種 22 項第一。
圖|在國際大賽中所獲榮譽(來源:科大訊飛)
這标志着科大訊飛多語言理解與跨語言遷移能力再上新台階,在實現人機交互更自然、人人溝通無障礙的探索征程中又邁出了堅實的一步,也為中國多語種語音語言技術的國際領先、中國智能制造的全球化奠定了堅實的基礎。
目前,人工智能正面臨着場景驅動、數據支撐、技術驅動等新機遇,以人工智能助力解決社會重大命題,源頭創新持續引領人工智能發展方向,成為科技企業當下之時代命題。
據統計,2018 年至今,科大訊飛已經在語音識别、語音合成、機器翻譯、自然語義理解、圖像識别等方面取得 39 項世界冠軍。
從零到數個世界第一獎項殊榮背後,科大訊飛的技術創新密碼何在?
近日,DeepTech 深科技深度對話科大訊飛高級副總裁、研究院院長胡國平。他總結:解決時代命題,重點要進行技術的系統性創新。“在科大訊飛的理解中,系統性創新有三個關鍵要素:一是重大系統性命題到科學問題的轉化能力;二是從單點的核心技術效果上取得突破,跨過應用門檻;三是把創新鍊條上各個關鍵技術深度融合,最終實現真正意義上的系統性創新。”
攻堅 “四大源頭” 技術,推動 “AI 科技樹” 成長作為一家科技創新型龍頭企業,科大訊飛一直堅持源頭核心技術創新,用科學的方法合理有序地構建科技樹,從而保證科技樹的根基穩固,以及多個技術職業之間的高效協同。
正是這些科學問題的引導,使得科大訊飛研發投入始終保持在相對正确的方向,而通過系統性創新方法論的指導,不僅可以将單點技術一步一步踏實做好,同時也要把大部分技術做到保持引領。
一年不到,科大訊飛攜手各行各業的開發者與合作夥伴,已澆灌出一片 AI 科技樹密林。是什麼牽引了訊飛 AI 科技樹的構建?又是什麼推動着訊飛科技樹的成長?
胡國平說:“科大訊飛堅持在人工智能的技術層面進行源頭技術的突破和多技術的融合,來推動實現系統性創新。”
圖|科大訊飛高級副總裁、研究院院長胡國平(來源:科大訊飛)
胡國平認為,各種具體技術的生長和發展,都需要強大的源頭技術突破和滋養。在過去的幾年,科大訊飛特别關注并持續投入在以下 4 個方面的人工智能更源頭更底層的技術上突破。
第一個關鍵技術是端到端的建模。在深度學習的框架下,端到端的建模可以有效的緩解分段建模所帶來的信息損失,以及錯誤的級聯傳播問題。
複雜場景語音識别是人機交互向更多場景拓展必須要攻克的難題。今年針對實際語音交互場景中可能出現的音樂、人聲等各種複雜多樣的噪聲背景,科大訊飛提出了前後端一體化的語音識别框架。以電視語音交互家庭或賣場的複雜場景為例,新方案語音識别效果由 35% 提升為 88%,語音喚醒效果由 40% 提升到了 90%,可以說科大訊飛重新定義了複雜場景語音識别。
圖|複雜場景下的前後端一體化語音識别(來源:科大訊飛)
另外把端到端建模的技術成功運用到語音的翻譯任務上,實現了 CATT 語音翻譯技術,實現了語音識别和機器翻譯任務的統一建模,緩解語音識别錯誤對翻譯效果的影響。
第二個關鍵源頭技術是無監督訓練。在無監督的源頭之上,科大訊飛也實現了兩個方面的關鍵突破。一是基于海量原始數據,二是充分借助其他弱标注的指标,将弱監督數據更好地實現了模型優化訓練。
今年,科大訊飛還提出了全屬性可控語音合成方法。首先,從海量數據中無監督的學習這3個屬性;其次,使用互信息約束訓練模塊,使得 3 個屬性相互解耦,實現了從海量語音數據中無監督的學習發音内容、情感和音色這三個屬性。
為了對海量文本數據的充分利用,基于語音和文本統一空間表達的半監督語音識别技術,最終可以實現 100 個小時的有監督數據,加上大量的無标簽的文本數據,就可以達到1萬小時有監督語音數據的效果。
圖|基于統一空間表達的半監督語音識别技術(來源:科大訊飛)
除此之外,科大訊飛還在七大民族語言的語音語言技術上取得了非常好的進展。
第三個關鍵的源頭技術是多模态的融合。人機交互就是多模态融合的典型應用場景,如在多模态免喚醒的交互系統中,每次交互前均需要喊喚醒詞,非常不自然,為此,科大訊飛提出基于多模态的免喚醒交互。
以車載交互為例,通過多模态技術,可以隻關注目标人和目标人語音,降低語音誤觸發;通過端到端意圖理解,可以實現人人交互和人機交互的區分;而且,通過視線檢測能夠得到駕駛員的視線聚焦方向,進一步區分駕駛員是在和人聊天還是在跟機器交互。這種方式不僅提升了模型性能,更增加了模型的泛化性,減少了對有标簽數據的依賴。
科大訊飛基于多模态信息融合的技術,不僅使用題目中的相關的語義的信息,還用到了各種版面的特征。
例如“表示質地大小”這樣的視覺特征,“表示縮進居中”這樣的空間特征等等,最終實現了不同場景下文檔結構化的精度的提升。類似于教育場景下的教輔作業的語義結構化的精度,語義結構化精度從 92% 提升到了 98%。
圖|多語種語音語言技術突破(來源:科大訊飛)
第四個關鍵技術是知識與算法的融合。科大訊飛在這方面做了兩個關鍵技術突破,首先,在語音交互任務中把人類的常識、知識總結為事理圖譜,融入到整個交互的系統中,從而實現機器能夠與人的主動交互。
其次,科大訊飛将海量醫學文獻知識和病例的診療推理進行融入,并且使用圖神經網絡對于圖譜進行編碼,基于深度實時的推理網絡,可以綜合決策并給出最終的治療結果。
破局系統創新難題,加強多技術融合創新除以上單點技術上持續進步外,訊飛也關注三個方面的系統層面的技術挑戰,畢竟人工智能是一個複雜的系統。胡國平認為,從單點技術的創新到深度融合的複雜系統演進,需要攻克以下三個方面的系統層面的技術挑戰:第一,面向全局目标的技術架構的解析能力;第二,全鍊條貫穿的多技術融合的這樣一個創新能力,以及人基于人機耦合複雜系統的自進化能力;第三,基于人機耦合的智醫助理系統叠代演進。
圖|AI賦能實際應用場景(來源:科大訊飛)
在胡國平看來,人工智能落地必須要滿足真實可見的實際應用案例、能規模化推廣的對應産品和可用統計數據證明的應用成效等條件,他以三個具體複雜系統的構建案例做了進一步闡述。
第一,解釋面向全局目标技術架構的能力。以低延時下的多技術融合的語音同傳系統為例,訊飛已經建立模型,端到端的實現了從語音到文本的自動翻譯;接着是把傳統句子級别的語音合成系統改造為流式的語音合成,對實時輸入的片段文本進行合成;同時實現基于一句話的語音合成系統的音色遷移,使得合成的語音人能夠保持原始說話人的音色,實現更好的同傳體驗。
為提高類似于大會演講上語音識别和翻譯的效果,還進一步把大會演講 PPT 中的文字全部 OCR(特别是相關的專業術語),并且實時送入語音識别系統進行實時的優化,最終在盡可能保證翻譯效果的同時實現低延時的同傳翻譯。目前訊飛最新的翻譯系統的平均延時已經從原來的 8 秒下降到 4 秒。
第二,新推出多模态虛拟人交互系統。以情感維度為例,訊飛實現了基于多模态信息的情緒感知,基于情緒的回複對話文本生成以及可展現對應情緒的虛拟人的表情和語音合成。基于全局的系統性的規劃設計,以及全鍊條單點技術的有效配合,造就愛加有情感、有個性的多模态虛拟人。
第三,推出訊飛自研系統。以智醫助理的系統為例,智醫助理系統在基層醫生的診斷過程中就直接提供包括診斷建議、合理用藥、進一步問診問題等核心的功能,幫助基層醫生實現更好的診療。兩年來,智醫助理和所服務的 5 萬多基層醫生的 3 億次的持續互動,機器的自動診斷的正确率從 95% 進一步提升了 97%。基層醫生的診療水平在機器輔助下,從 70% 提升到了 90%。
更值得關注的是,針對複雜的科學問題,科大訊飛也在不斷探索技術融合的方式,結合場景大膽的布局,通過應用叠代來快速驗證技術的可行性。
胡國平表示:“科大訊飛作為一個緻力于推動人工智能技術實現持續進步的公司,要進一步在人工智能更遠的源頭,包括腦科學、數學、量子等方面進行了長期的基礎研究的布局。例如在腦科學、數學方面與學研機構有很多合作。”
共建共享平台生态,加碼虛拟人和開放平台 2.0前不久,“Facebook” 改為 “Meta” 這預示着紮克伯格全面加碼 “元宇宙” 的戰略決心,他還宣布在 VR 實驗室團隊下成立元宇宙産品子團隊,持續加碼 VR / AR 及其他元宇宙相關領域的産品研發。
“元宇宙” 熱已經成時下人們探讨中繞不開的話題。
其實,科大訊飛早在去年春晚拜年時就用了元宇宙技術,如虛拟主持人。科大訊飛可以快速“捏”一個虛拟人主持人,包括眼睛、嘴巴、表情等可以自由設定。
圖|科大訊飛個性化真人捏臉系統(來源:科大訊飛)
然而,要想把虛拟人的微表情 “捏” 的栩栩如生,并非易事,這是該行業的一大痛點。
為了解決虛拟人目前面臨的諸多挑戰,進一步布局虛拟人賽道,科大訊飛隆重發布了 “虛拟人交互平台 1.0”,旨在用情感貫穿文本語義到語氣強調,再到面部表情等的後台邏輯,讓每個人能夠在虛拟世界中感受到一個真實的助手、真實的合作夥伴。
圖|虛拟人交互平台 1.0(來源:科大訊飛)
據悉,此虛拟人交互平台,不僅可以通過語音、手勢、肢體語言,嘴型等各種能力來進行感知,同時還能測血壓、心跳、脈搏等各種相關身體指數。更有趣的是,虛拟人交互平台 1.0 還能夠實現情感貫穿、多維表達、自主定制。
今年的全球開發者大會核心看點,除了“虛拟人交互台 1.0”,還有“開放平台 2.0 版本”,旨在構建未來屬于每個人的人工智能!
與開放平台 1.0 版本相比,開放平台 2.0 版本最重要的是從二維升級到三維,科大訊飛希望和行業龍頭共同來打造一個行業的人工智能基線底座,把行業中一些重要的專家和知識融入進來,與不同的軟硬件環境去适配,進而形成完整的解決方案。
圖|科大訊飛開放平台 2.0 版本(來源:科大訊飛)
為了加快落實開放平台 2.0 戰略,科大訊飛提出包括标準體系,測試平台、認證體系、培訓平台、低代碼開發平台,開發者大賽 6 大舉措。
未來,科大訊飛計劃一方面聯合多方資源共同搭建好行業的基線底座,另一方面向廣大開發者開放衆多場景彙聚各種創意,豐富整個平台體系。科大訊飛願意與廣大的開發者們一起共創、共建、共享繁榮的人工智能時代。
-End-
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!