OCR(Optical Character Recognition)
是将打字、手寫或印刷文本的圖像電子或機械轉換為機器編碼文本,無論是來自掃描文檔、文檔照片、場景照片(例如風景照片中标志和廣告牌上的文字)或疊加在圖像上的字幕文字。
廣泛用作從印刷的紙質數據記錄中輸入數據的一種形式——無論是護照、發票、銀行對賬單、計算機收據、名片、郵件、靜态數據的打印輸出,還是任何合适的文件——這是一種将印刷數字化的常用方法文本,以便它們可以進行電子編輯、搜索、更緊湊地存儲、在線顯示,并用于機器過程,例如認知計算、機器翻譯、(提取的)文本到語音、關鍵數據和文本挖掘。OCR 是模式識别、人工智能和計算機視覺的研究領域。
電子文本轉可編輯文本
誕生曆程早期的光學字符識别可以追溯到涉及電報和為盲人創建閱讀設備的技術。 1914 年,伊曼紐爾·戈德堡( Emanuel Goldberg)開發了一種讀取字符并将其轉換為标準電報代碼的機器。同時,Edmund Fournier d'Albe 開發了Optophone,這是一種手持掃描儀,當它在打印頁面上移動時,會産生與特定字母或字符相對應的音調。
在 1920 年代後期和 1930 年代,伊曼紐爾·戈德堡開發了他所謂的“統計機”,用于使用光學代碼識别系統搜索縮微膠卷檔案。1931 年,他的發明獲得了美國專利号 1,838,389。該專利被IBM收購。
1974 年,Ray Kurzweil創辦了 Kurzweil Computer Products, Inc. 公司,并繼續開發全字體OCR,它幾乎可以識别以任何字體打印的文本(Kurzweil 經常被認為發明了全字體 OCR,但它被1960 年代後期和 1970 年代的公司,包括 CompuScan )。庫茲韋爾決定,這項技術的最佳應用是為盲人創造一台閱讀機,讓盲人可以用電腦大聲朗讀文本。該設備需要發明兩項智能技術 - CCD 平闆掃描儀和文本到語音合成器。1976 年 1 月 13 日前,在由庫茲韋爾和全國盲人聯合會領導人領導的廣泛報道的新聞發布會上,成功地揭開了面紗。1978 年,Kurzweil Computer Products 開始銷售光學字符識别計算機程序的商業版本。LexisNexis是首批客戶之一,并購買了該程序以将法律文件和新聞文件上傳到其新生的在線數據庫中。兩年後,Kurzweil 将他的公司賣給了施樂,後者對進一步商業化紙張到計算機的文本轉換感興趣。施樂最終将其剝離為Scansoft,與Nuance Communications合并。
在 2000 年代,OCR 作為在線服務 (WebOCR)、雲計算環境以及移動應用程序(如智能手機上外語标志的實時翻譯)提供。随着智能手機和智能眼鏡的出現,OCR 可用于連接互聯網的移動設備應用程序,這些應用程序提取使用設備相機捕獲的文本。這些操作系統中沒有内置系統 OCR 功能的設備通常會使用 OCR API從設備捕獲和提供的圖像文件中提取文本。OCR API 将提取的文本以及有關檢測到的文本在原始圖像中的位置的信息返回給設備應用程序以進行進一步處理(例如文本到語音)或顯示。
各種商業和開源 OCR 系統可用于最常見的書寫系統,包括拉丁文、西裡爾文、阿拉伯文、希伯來文、印度文、孟加拉文(孟加拉文)、梵文、泰米爾文、中文、日文和韓文字符。
Ray Kurzweil
早期的平闆掃描儀
應用範圍——OCR引擎已經發展成多種特定領域的OCR應用,如收據OCR、發票OCR、支票OCR、法律帳單OCR等。具體應用于以下領域:
OCR識别類型
技術實現步驟【預處理】—— OCR 軟件通常會“預處理”圖像以提高成功識别的機會。技術包括:
【文字識别】—— 有兩種基本類型的核心 OCR 算法,它們可以生成候選字符的排序列表。
通過機器學習的方式,更快速的進行識别并輸出結果
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!