tft每日頭條

 > 圖文

 > ocr報告是什麼東西

ocr報告是什麼東西

圖文 更新时间:2025-08-16 14:39:54
OCR——簡單的說就是文字識别技術,将電子文本轉為可編輯文本

OCR(Optical Character Recognition)

是将打字、手寫或印刷文本的圖像電子或機械轉換為機器編碼文本,無論是來自掃描文檔、文檔照片、場景照片(例如風景照片中标志和廣告牌上的文字)或疊加在圖像上的字幕文字。

廣泛用作從印刷的紙質數據記錄中輸入數據的一種形式——無論是護照、發票、銀行對賬單、計算機收據、名片、郵件、靜态數據的打印輸出,還是任何合适的文件——這是一種将印刷數字化的常用方法文本,以便它們可以進行電子編輯、搜索、更緊湊地存儲、在線顯示,并用于機器過程,例如認知計算、機器翻譯、(提取的)文本到語音、關鍵數據和文本挖掘。OCR 是模式識别、人工智能和計算機視覺的研究領域。

ocr報告是什麼東西(OCR是什麼具體能做什麼)1

電子文本轉可編輯文本

誕生曆程

早期的光學字符識别可以追溯到涉及電報和為盲人創建閱讀設備的技術。 1914 年,伊曼紐爾·戈德堡( Emanuel Goldberg)開發了一種讀取字符并将其轉換為标準電報代碼的機器。同時,Edmund Fournier d'Albe 開發了Optophone,這是一種手持掃描儀,當它在打印頁面上移動時,會産生與特定字母或字符相對應的音調。

在 1920 年代後期和 1930 年代,伊曼紐爾·戈德堡開發了他所謂的“統計機”,用于使用光學代碼識别系統搜索縮微膠卷檔案。1931 年,他的發明獲得了美國專利号 1,838,389。該專利被IBM收購。

1974 年,Ray Kurzweil創辦了 Kurzweil Computer Products, Inc. 公司,并繼續開發全字體OCR,它幾乎可以識别以任何字體打印的文本(Kurzweil 經常被認為發明了全字體 OCR,但它被1960 年代後期和 1970 年代的公司,包括 CompuScan )。庫茲韋爾決定,這項技術的最佳應用是為盲人創造一台閱讀機,讓盲人可以用電腦大聲朗讀文本。該設備需要發明兩項智能技術 - CCD 平闆掃描儀和文本到語音合成器。1976 年 1 月 13 日前,在由庫茲韋爾和全國盲人聯合會領導人領導的廣泛報道的新聞發布會上,成功地揭開了面紗。1978 年,Kurzweil Computer Products 開始銷售光學字符識别計算機程序的商業版本。LexisNexis是首批客戶之一,并購買了該程序以将法律文件和新聞文件上傳到其新生的在線數據庫中。兩年後,Kurzweil 将他的公司賣給了施樂,後者對進一步商業化紙張到計算機的文本轉換感興趣。施樂最終将其剝離為Scansoft,與Nuance Communications合并。

在 2000 年代,OCR 作為在線服務 (WebOCR)、雲計算環境以及移動應用程序(如智能手機上外語标志的實時翻譯)提供。随着智能手機和智能眼鏡的出現,OCR 可用于連接互聯網的移動設備應用程序,這些應用程序提取使用設備相機捕獲的文本。這些操作系統中沒有内置系統 OCR 功能的設備通常會使用 OCR API從設備捕獲和提供的圖像文件中提取文本。OCR API 将提取的文本以及有關檢測到的文本在原始圖像中的位置的信息返回給設備應用程序以進行進一步處理(例如文本到語音)或顯示。

各種商業和開源 OCR 系統可用于最常見的書寫系統,包括拉丁文、西裡爾文、阿拉伯文、希伯來文、印度文、孟加拉文(孟加拉文)、梵文、泰米爾文、中文、日文和韓文字符。

ocr報告是什麼東西(OCR是什麼具體能做什麼)2

Ray Kurzweil

ocr報告是什麼東西(OCR是什麼具體能做什麼)3

早期的平闆掃描儀

應用範圍——OCR引擎已經發展成多種特定領域的OCR應用,如收據OCR、發票OCR、支票OCR、法律帳單OCR等。

具體應用于以下領域:

  • 商業文件的數據輸入,例如支票、護照、發票、銀行對賬單和收據
  • 自動車牌識别
  • 在機場,用于護照識别和信息提取
  • 自動提取保險單據關鍵信息
  • 交通标志識别
  • 将名片信息提取到聯系人列表中
  • 更快地做出打印文檔的文本版本
  • 印刷文檔的電子圖像可以被搜索
  • 實時轉換手寫以控制計算機
  • 反作弊
  • 盲人和視障用戶的輔助技術
  • 通過識别數據庫中适合實時變化的車輛設計的 CAD 圖像來編寫車輛說明。
  • 通過将掃描的文檔轉換為可搜索的 PDF 使它們可搜索

ocr報告是什麼東西(OCR是什麼具體能做什麼)4

OCR識别類型

技術實現步驟

【預處理】—— OCR 軟件通常會“預處理”圖像以提高成功識别的機會。技術包括:

  • 歪斜:如果掃描文檔時沒有正确對齊,則可能需要以順時針或逆時針方向傾斜幾度使文字完全水平或垂直的線。
  • 祛斑:去除正負斑點,平滑邊緣
  • 二值化:将圖像從彩色或灰度轉換為黑白(稱為“二值圖像”,因為有兩種顔色)。二值化的任務是作為一種将文本(或任何其他所需的圖像組件)與背景分離的簡單方法來執行的。二值化本身的任務是必要的,因為大多數商業識别算法僅适用于二值化圖像,因為事實證明這樣做更簡單。此外,二值化步驟的有效性在很大程度上影響字符識别階段的質量,并且在選擇用于給定輸入圖像類型的二值化時做出謹慎的決定;因為用于獲得二值結果的二值化方法的質量取決于輸入圖像的類型(掃描文檔、場景文本圖像、曆史退化文檔等)。
  • 行删除:清理非字形框和行
  • 布局分析或“分區”:将序列、段落、标題等标識為不同地塊。在多列布局和表格中尤其重要。
  • 線條和單詞檢測:為單詞和字符形狀建立基線,必要時将單詞分開。
  • 腳本識别:在多語言文檔中,腳本可能會在單詞級别發生變化,因此,在調用正确的 OCR 來處理特定腳本之前,需要識别腳本。
  • 字符隔離或“分割”:對于每個字符的 OCR,由于圖像僞影而連接的多個字符必須分開;由于工件而被分成多個部分的單個字符必須連接。
  • 标準化縱橫比和比例

【文字識别】—— 有兩種基本類型的核心 OCR 算法,它們可以生成候選字符的排序列表。

  • 矩陣匹配涉及逐個像素地将圖像與存儲的字形進行比較;它也被稱為“模式匹配”、“模式識别”或“圖像相關性”。這依賴于輸入字形與圖像的其餘部分正确隔離,以及存儲的字形采用相似的字體和相同的比例。此技術最适用于打字文本,但在遇到新字體時效果不佳。這是早期基于物理光電池的 OCR 實施的技術,直接實施。
  • 特征提取将字形分解為“特征”,如線條、閉環、線條方向和線條交叉點。提取特征降低了表示的維數,并使識别過程具有計算效率。将這些特征與字符的抽象矢量狀表示進行比較,後者可能會減少為一個或多個字形原型。計算機視覺中特征檢測的一般技術适用于這種類型的 OCR,這在“智能”手寫識别和大多數現代 OCR 軟件中很常見。[24] 最近鄰分類器,例如k-nearest neighbor算法用于将圖像特征與存儲的字形特征進行比較并選擇最接近的匹配。
  • Cuneiform和Tesseract等軟件使用兩遍方法來識别字符。第二遍被稱為“自适應識别”,它使用在第一遍中以高置信度識别的字母形狀在第二遍中更好地識别剩餘的字母。這對于字體失真(例如模糊或褪色)的異常字體或低質量掃描是有利的。
  • 現代 OCR 軟件,例如OCRopus或 Tesseract 使用神經網絡,這些網絡經過訓練可以識别整行文本,而不是專注于單個字符。國内目前百度雲、阿裡雲、騰訊雲以及一些三方的技術公司都推出一基于機器學習的在線OCR識别API

ocr報告是什麼東西(OCR是什麼具體能做什麼)5

通過機器學習的方式,更快速的進行識别并輸出結果

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved