“克曰穆朕文且師華父悤譲氒心甯靜于猷淑哲氒”要怎麼斷句?世界人工智能大會期間,一篇镌刻在西周青銅鼎面的鐘鼎文難倒了不少參觀者,最先“解題”成功的是合合信息推出的智能文字識别AI(人工智能)系統。在無人工幹預的狀态下,鐘鼎文從内凹狀态被拉平,并被轉譯成簡體字,原本連在一起的文字經過“AI斷句”功能自動處理後被正确區分開來。現場觀衆紛紛評價:這屆AI實在太“卷”,竟然能讀懂古文。
2022年世界人工智能大會舉辦的第五年,“科技風向标、産業加速器”是這場全球AI領域的行業盛會對參展技術與産品的期許。針對圖像處理及内容識别中,文檔圖像質量退化嚴重、文字檢測及版面分析困難、非限定條件文字識别率低、結構化智能理解能力差等全球性難題,合合信息重點展示了智能文字識别技術的創新成果及産業應用示範,用科技探索産研融合新方向。
合合信息智能文字識别技術主要由以“彎曲矯正”為代表的智能圖像處理,基于深度學習的複雜場景文字識别,自然語言處理(NLP)三大核心模塊組成。智能圖像處理技術可對曲面、陰影、摩爾紋等複雜場景下的文檔圖像進行精準的矯正處理,為接下來的文字信息提取、識别創造了良好的條件;複雜場景文字識别技術主要利用手寫印刷混排識别,抗強幹擾識别,扭曲文字識别等一系列深度學習技術進行文字提取及識别,并結合領先的NLP技術,對識别出的結果進行語義理解。
本次展示的鐘鼎文識别項目,是繼去年的甲骨文識别之後,合合信息向古文字識别發起的又一次沖鋒。大會現場還可使用公司旗下産品“掃描全能王APP”,用“拍圖識字”功能一鍵識别豎排的繁體古籍《桃花源記》,将其轉化為易于閱讀的橫排、簡體版本。
合合信息技術人員介紹:“選擇鐘鼎文、古籍等素材來識别,是因為與常規文本相比,鼎面的文字形小細密,豎排的格式也與正常的文本不同。從載體上看,青銅鼎面存在彎曲、反光、凹凸不平的狀況,古籍表面也可能有模糊、框線等因素的幹擾,整體識别難度極大。這些問題的解決不僅對文物保護和文化傳承意義重大,也有助于技術在各行業的應用向縱深拓展。”
合合信息“PS篡改檢測”功能是智能文字識别技術的另一大亮點。從個人證件、票據到各類商業材料,詐騙團夥經常會使用PS過的材料來進行僞裝行騙,受害者不計其數。該技術主要采用神經網絡捕捉圖像在篡改過程中留下的細微痕迹,基于百萬級的數據學習圖像被篡改後統計特征的變化,不僅可以判斷圖片是否被篡改,還能定位修改區域,以熱力圖形式展示圖片的PS區域篡改置信度,檢測準确率遠超傳統技術方法和人眼判斷。
“PS篡改檢測”是合合信息智能圖像處理技術優勢的集中體現,這種直接針對圖像特征信息的篡改檢測方法在行業中屬于創新應用,覆蓋身份證、護照等多種證照識别,适用于保險、銀行、證券、政務等多種場景。
創立于2006年的合合信息在智能文字識别領域中已有十多年深耕經驗,相關技術已廣泛落地各行業,為全球百餘個國家和地區的億級用戶提供數字化服務。據權威機構認定,掃描全能王 APP 針對常規的印刷體文檔字符平均識别率達到99.77%, 手寫體文檔字符平均識别率為 97.00%;“AI OCR”行業解決方案可識别上百種卡證、票據、行業單據内容,支持五十多種主流語言的信息提取。
據悉,近三年來,合合信息先後在ICDAR、ICPR等人工智能國際競賽中斬獲15項冠軍,學術成果在CVPR、AAAI、ACL、ACM MM等頂會上發表,相關項目獲中國圖象圖形學學會(CSIG)科技進步獎二等獎。在今年8月的CSIG圖像圖形技術挑戰賽中,合合信息參與的賽隊奪得總冠軍。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!