tft每日頭條

 > 圖文

 > 小米手機拍照轉化為excel表格

小米手機拍照轉化為excel表格

圖文 更新时间:2024-12-05 07:27:41

IT之家 9 月 3 日消息,今日晚間,小米創辦人、董事長兼 CEO 雷軍通過社交媒體表示,小米工程師研發了一套表格識别算法,該算法高效準确地将圖片中的表格轉化為可編輯的 Excel 文件,大幅提升使用體驗。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)1

同時,小米技術官方也發文對表格識别算法中的一些技術實現原理進行了解讀,涉及總體框架、表格檢測算法、表格識别算法、對齊算法等内容。

以下為小米技術官方解讀内容:

表格識别是指将圖片中的表格結構和文字信息識别成計算機可以理解的數據格式,在辦公、商務、教育等場景中有着廣泛的實用價值,也一直是文檔分析研究中的熱點問題。圍繞這個問題,我們研發了一套表格識别算法,該算法高效準确地提取圖片中的表格,轉化為可編輯的 Excel 文件。目前算法已經成功落地于小米 10S 系列、MIX Fold 2 等旗艦機型,大家可以從相冊-更多-表格識别,或者掃一掃進入體驗。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)2

▲ 圖一雷軍在 MIX Fold 2 發布會上介紹小米表格識别算法

一、背景

大多數人日常辦公處理的文件,主要是表格和文檔,其中表格的重要性毋庸置疑。在各行各業的桌面辦公場景中,Excel 和 WPS 是電子表格的事實标準。我們經常遇到這種需求:将一個表格圖片的内容導入 Excel。

以前我們隻能對着圖片一點點把内容錄入 Excel,既低效又容易出錯。近年來,随着技術的發展,OCR(光學字符識别)的可用性不斷提升,用戶可以借助 OCR 軟件,從圖片中自動提取文本信息。

然而對于表格場景,僅提取文字是不夠的,用戶還需反複手動複制粘貼以還原出電子表格,這仍會耗費大量時間。為此我們實現了一套表格圖像提取方案,它能切實提升用戶辦公效率。圖二是我們的識别效果展示:

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)3

▲ 圖二表格識别效果展示

二、總體框架

圖三展示的是我們目前算法的一個總體框架圖,主要包含手機端的表格檢測算法和服務端的表格識别算法。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)4

▲ 圖三表格識别技術框架

表格檢測算法主要是從圖片中準确的提取表格區域,并對表格進行矯正,得到平整的表格圖片以便下一步的表格識别;表格識别算法主要是從圖片中提取表格結構和表格文字内容,然後将這些信息有效的結合在一起,輸出可編輯的 Excel 表格。下文将詳細介紹表格檢測算法和表格識别算法。

三、表格檢測算法

表格檢測有以下難點:一方面是手機上的算法和内存有限,另一方面是對表格檢測結果要求非常高,表格周圍往往包含其他文字,如果檢測結果不準,會對後面的識别結果造成負面影響。我們的表格檢測算法會同時檢測到表格區域和表格的四個角點,通過透視變換和我們自研的抗扭曲算法得到隻有表格區域的平整表格,效果如圖四所示。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)5

▲ 圖四表格檢測算法效果

表格檢測算法框架如圖五所示,由于算法運行在手機端,需要保證運行速度和模型大小,我們采用了一個非常輕便的一階段檢測框架,backbone 采用 shuffleNetV2;在檢測出表格框的同時,回歸出關鍵點信息,便于表格的透視矯正,并用 Wing loss 代替 L1 loss 讓關鍵點回歸更加準确;數據方面,用算法低成本地從公開數據中挖掘大量表格檢測數據,顯著性地提高表格檢測效果。最終模型大小為 1M 左右,順暢地運行在小米手機上。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)6

▲ 圖五表格檢測算法框架

四、表格識别算法

表格識别算法如圖三所示,該算法在服務端運行,主要包含的模塊有:文本檢測、文本識别、表格結構預測、單元格匹配、對齊算法、Excel 導出。文本檢測識别模塊采用了我們之前已經上線的 OCR 服務,這裡不再做重點介紹。下面将主要介紹表格結構預測算法和 Cell 坐标聚合算法。數據方面,由于表格數據标注困難,我們完成了一套表格渲染工具,可以合成各種樣式的表格數據,極大地降低了标注成本。

表格樣式多樣,有線的表格、無線的表格、隔段橫線表格等,并且表格中有非常多各種複雜的合并單元格出現;另外,圖片含有陰影、光照、扭曲、變形等也增大了表格預測的難度。表格結構預測前人有不少研究,基于傳統算法提取表格線,再由表格線推導行、列、合并單元格的信息;基于目标檢測,檢測出單元格,再用後處理方法組織單元格還原表格結構;基于語義分割,分割出表格線,然後對分割結果進行後處理還原表格結構;以上算法有一個共同的問題,後處理複雜并且魯棒性較差,通常需要針對特定表格的算法适配。

目前主流的方法是将表格用 HTML 的超文本表示,然後對 HTML 進行編碼,預測 HTML 序列和對應的坐标信息。該方法在開源數據集上取得了不錯的效果,中國平安科技和百度也采用了這種方案,但是 HTML 的标簽過多導緻表格結構識别容易出錯。針對該方法的不足,我們對表格采用全新的編碼方式,僅用四個标簽就能表示任意結構的表格,極大地提高了表格結構識别準确率。

如圖六所示,将表格定義為 M*N 個單元格組成的矩陣,以及内部合并單元格組成。“0”:代表普通的單元格、“1”:代表向左合并單元格、“2”:表示向上合并單元格;并且每個單元格對應一個坐标框,以便後續把 OCR 識别的結果與之匹配。這樣定義的優點:無人為語法規則;數據組織具有天然的二維對齊屬性,網絡更不容易産生漂移;少量标簽可以還原出任意表格結構,無開放集分類問題。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)7

▲ 圖六表格結構定義

我們采用了如圖七所示的表格結構預測框架,該方法基于 cnn transformer decoder 的圖像到序列學習網絡,在解碼階段包含兩個預測頭,分别預測表格序列和表格 Cell 的坐标信息。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)8

▲ 圖七表格結構預測框架

表格結構效果如圖八所示,表格結構識别算法預測出每個單元格的位置信息和每個位置對應的序列信息。圖八左右兩個圖是一一對應的,同一種顔色的檢測框對應右邊 Cell 單元格,Cell 是有順序的。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)9

▲ 圖八表格結構識别效果展示

表格識别在部署過程中,采用 Fastertransformer 推理框架進行加速,我們的推理速度提升了大約 20 倍,明顯改善用戶體驗。

Cell 坐标聚合算法主要是将文本檢測到的内容與表格預測的單元格進行正确匹配,算法流程如圖九所示。文本框與單元格框進行匹配,首先匹配 IOU 最大的,如果 IOU=0,則匹配兩個框中心距最近的。如果一個單元格中包含多個文本框的結構,還要在單元格内按照閱讀順序輸出,并實現智能換行從而改善用戶體驗。

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)10

▲ 圖九 Cell 坐标聚合算法流程

最終我們的算法在表格結構提取和端到端表格還原的準确率上,均領先業界的主要競品。

五、對齊算法

上述算法已經基本還原出表格信息,但是同一表格裡單元格的對齊方式并不相同,可能同時存在“左對齊” “右對齊” “居中對齊”。我們設計了一套對齊算法,通過分析表格中單元格的位置信息實現自動對齊,完全還原出真實表格,明顯改善用戶體驗。對齊算法效果如圖十所示:

小米手機拍照轉化為excel表格(小米表格識别技術官方解讀)11

▲ 圖十 對齊算法效果

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved