nlpr 實驗室-tft每日頭條

nlpr 實驗室

科技更新时间:2026-07-27 21:33:13

在NLP的産品體系中，OCR是關于文檔、文件處理的基礎步驟，是無法回避和繞開的。

關于OCR的基礎知識，也就成了NLP産品經理必不可少的知識儲備了——隻有産品詳細地了解了關于OCR的處理原理和步驟，才能充分發揮現有技術的優勢，規避其弱點，創造出更大的價值。

什麼是OCR？
OCR （Optical Character Recognition，光學字符識别）是指電子設備（例如掃描儀或數碼相機）檢查紙上打印的字符，通過檢測暗、亮的模式确定其形狀，然後用字符識别方法将形狀翻譯成計算機文字的過程。

即，針對印刷體字符，采用光學的方式将紙質文檔中的文字轉換成為黑白點陣的圖像文件，并通過識别軟件将圖像中的文字轉換成文本格式，供文字處理軟件進一步編輯加工的技術。

那麼既然是通過掃描，或者攝像的方式獲取，就會遇到很多諸如背景複雜、分辨率低等情況，在沒有針對OCR技術實質性的了解下，有的朋友都會認為OCR識别，是一件非常easy的事情，不值得進行讨論。

事實上，自然環境下的OCR要面臨、要解決的問題還是相當多的，例如：
背景複雜；
存在如底紋、水印、底線、框線；
加蓋印章幹擾疊加；
圖像對比度低；
文字傾斜、模糊；
污迹、磨損；
防僞标識；
字體種類繁多；
字的筆畫深淺，印刷受墨多寡等等情況。

通常情況下，衡量一個OCR系統性能好壞的主要指标有：拒識率、誤識率、識别速度、用戶界面的友好性，産品的穩定性，易用性及可行性等。
傳統OCR的處理過程
下面，我們通過一張圖來簡要了解一下傳統OCR的處理過程：

圖像預處理

預處理一般包括諸如傾斜校正、灰度化、圖像降噪、二值化處理等等。

二值化：

二值化就是讓圖像的像素點矩陣中的每個像素點的灰度值為0（黑色）或者255（白色），也就是讓整個圖像呈現隻有黑和白的效果。在灰度化的圖像中灰度值的範圍為0~255，在二值化後的圖像中的灰度值範圍是0或者255。

二值化的做法一般分為以下幾種：
版面分析：是将掃描得到的圖像，将文本按照不同的屬性劃分出區域塊。對于各個不同的區域塊，如：橫排正文、豎排正文、表格、圖片等。
字符切割：對圖像中的文本進行字符級的切割，需要注意的是字符粘連等問題。
特征提取：對字符圖像提取關鍵特征并降維，用于後續的字符識别算法。
字符識别：依據特征向量，基于模版匹配分類法或深度神經網絡分類法，識别出字符。版面恢複：識别原文檔的排版，按照原排版的格式将識别結果輸出。
後處理：引入一些糾錯機制或者語言模型，針對一些形近字進行修正。

當然，上述傳統的OCR識别方法已經有點兒過時了，現在更流行的做法是基于深度學習的端到端的文字識别，即我們不需要顯式加入文字切割這個環節，而是将文字識别轉化為序列學習問題。

雖然輸入的圖像尺度不同，文本長度不同，但是經過DCNN和RNN後，在輸出階段經過一定的翻譯後，就可以對整個文本圖像進行識别，也就是說，文字的切割也被融入到深度學習中去了。
OCR處理的技術框架

根據上面的技術框架圖，簡要介紹一下其中幾個關鍵步驟的模型：

第一，傾斜校正，采用深度學習模型AdvancedEast，進行像素級别的分割。

它是一種用于場景圖像文本檢測的算法，主要基于EAST：一種高效且準确的場景文本檢測器，并且還提供了顯着的改進，這使得長文本預測更準确。它的網絡結構圖如下：

第二，采用PixelLink識别文字條的位置。

該模型是浙大聯合阿裡提出，其核心思想是基于圖像分割來實現場景文字檢測，比起之前的很多基于檢測的場景文字檢測模型來說在性能與準确率方面都有比較明顯的提升。PixelLink網絡模型架構如下：

其中CNN部分采用了VGG16做為特征提取網絡，對輸出分為兩個部分：
像素分割，判斷每個像素是否為text/non-text
鍊接預測，對每個像素點八領域進行鍊接預測，如果是positive則合并為text像素，如果不是則放棄。

通過上述兩步之後得到疊加的TEXT圖像mask，對mask圖像進行連通組件發現即可得到最終檢測框輸出。

第三，采用CRNN模型進行文字識别，它的網絡結構是這樣的：

網絡結構包含三部分，從下到上依次為：
卷積層，使用CNN，作用是從輸入圖像中提取特征序列;
循環層，使用RNN，作用是預測從卷積層獲取的特征序列的标簽（真實值）分布;
轉錄層，使用CTC，作用是把從循環層獲取的标簽分布通過去重整合等操作轉換成最終的識别結果;

CRNN借鑒了語音識别中的LSTM CTC的建模方法，不同點是輸入進LSTM的特征，從語音領域的聲學特征（MFCC等），替換為CNN網絡提取的圖像特征向量。

CRNN算法最大的貢獻，是把CNN做圖像特征工程的潛力與LSTM做序列化識别的潛力，進行結合。它既提取了魯棒特征，又通過序列識别避免了傳統算法中難度極高的單字符切分與單字符識别，同時序列化識别也嵌入時序依賴。
目前市面上都能提供哪些類型的文本識别呢？
通用文字識别

一般是指不規則文檔類的識别，例如PDF之類的。
卡證識别

身份證、銀行卡、營業執照、名片、護照、港澳通行證、戶口本、駕駛證、行駛證等等
票據識别

增值稅發票、定額發票、火車票、出租車票、行程單、保單、銀行單據等等。
其他

車牌、車輛合格證、印章檢測等等。
應用場景

最後我們來聊一下關于OCR的應用場景，在開頭的時候，我們提到，在NLP的相關産品中，OCR扮演着不可或缺的角色，主要是在關于文檔處理的一些場景中，例如，pdf等格式的文檔抽取、文檔審核、文檔比對等等。

遠程身份認證

結合OCR和人臉識别技術，實現用戶證件信息的自動錄入，并完成用戶身份驗證。應用于金融保險、社保、O2O等行業，有效控制業務風險。

内容審核與監管

自動識别圖片、視頻中的文字内容，及時發現涉黃、涉暴、政治敏感、惡意廣告等不合規内容，規避業務風險，大幅節約人工審核成本。

紙質文檔票據電子化

通過OCR實現紙質文檔資料、票據、表格的自動識别和錄入，減少人工錄入成本，提高輸入效率。

本文由 @燕然未勒原創發布于人人都是産品經理。未經許可，禁止轉載。

題圖來自 Unsplash ，基于 CC0 協議。
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技電子琴使用保養
電子琴既是樂器，又是結構複雜的精密電器，一台高級電子琴所有的元件數目比彩色電視機還要多好幾倍。因此，除了準确地掌握它們的機能外，還要注意平時的合理保養，隻有這樣，才能使你的電子琴常葆青春，彈奏出多彩多姿的音響來。1、使用電子琴前，應認真核對電子琴的使用電壓及頻率，是否與說明書上載明的電源電壓及頻率相... 2024-01-06
科技冰箱竟會引起細菌交叉感染怎樣的冰箱能...
很多人以為，冰箱猶如保險箱，冰箱的低溫可以很好抑制細菌生長，食物存放在裡面很安全。但是事實往往與我們的認知有很大的出入。根據衛生部門的抽樣調查，細菌的交叉感染非常嚴重，尤其是存放生肉的下層，合格率幾乎為零。大部分冰箱都有大腸杆菌污染，生肉與熟食放在一個空氣流通的空間存放，哪怕分層存放，也會交叉感染，... 2024-01-06
科技挂燙機好用嗎
挂燙機是很多人比較關心的問題，主要是挂式的熨鬥也就是挂着晾衣服和布料的機器，主要是内部産生的一些熱水蒸汽不斷的接觸，達到軟化成軟化衣服和布料纖維組織的目的，是衣服和布料運行的起來比較簡單，它與平闆的熨鬥相比的更加的方便快捷，而且全程有效地保護布料。很多人對于它的使用方面很擔心。挂燙機好用嗎它主要是用... 2024-01-06
科技加濕器用什麼水
很多地方幹燥的家庭，都會準備有加濕器，加濕器的作用就是可以增大空氣的濕度，這樣就不會讓人感覺那麼難受了。有些人不懂得加濕器用什麼水會比較好，對于加水在加濕器裡面，也是有講究的。如果你不知道的話，可以看看這篇文章。加濕器首選加入的水是蒸餾水。加濕器的水分是散發在空氣中的，也是可以解除到人們的皮膚和吸入... 2024-01-06
科技微波爐骨肉相連
骨肉相連在制作的時候采用的是雞腿肉和雞脆骨，一塊雞肉一塊脆骨的串起來，經過炸之後一口下去咯嘣咯嘣的響，也非常的具有嚼頭，真的是非常好吃。不過傳統制作骨肉相連的方法是在油鍋裡面炸，屬于一種油炸食品，因此很多朋友都擔心吃的過多會影響身體的健康，這也無可厚非。不過現在您想吃骨肉相連可并不一樣非要吃油炸的了... 2024-01-06
科技如何使熨鬥保持清潔光亮
可以用牙膏經常擦拭熨鬥的底部和其他部位，熨鬥可以保持光亮如新。也可以在每次用完以後，用幹布擦拭熨鬥一遍，每隔兩星期，在熨鬥底部塗抹一次橄榄油，這樣不僅能使熨鬥防鏽，也可以使熨鬥底部保持光滑。 2024-01-06
科技等離子電視如何保養
散熱大功率産生的高溫可以看作是等離子電視的頭号大敵，所以在使用中要特别注意等離子電視的散熱，并且不要長時間的暴露在射燈和太陽下。屏幕灼傷因為長時間播放固定靜止畫面而使屏幕局部受到灼傷産生畫面殘影，這是等離子電視本身特性所決定的。電壓有條件的情況下應為等離子電視提供獨立的供電線路，或者再增加一個穩定電... 2024-01-06
科技幹毛巾可讓冰箱清潔
冰箱用久了會弄髒，不及時擦拭就易滋生病菌。因許多媽媽又上班又帶孩子，一忙起來很難對冰箱進行及時清理。方法是在冰箱的架子上分别鋪上毛巾，當毛巾沾上污垢之後就立即取出來洗滌曬幹。曬幹以後再鋪上，這樣就能保持冰箱内清潔且省事。 2024-01-06
科技燃氣熱水器不打火
現在的家庭裡，隻要是安裝天然氣的，家裡的熱水器都不會使用耗電的熱水器，畢竟電費要比燃氣費貴出很多。不過在使用燃氣熱水器的時候，很容易出現一種問題，比較讓人惱火，就是燃氣熱水器不打火的情況。為了幫你解決這個問題，在這裡就為您介紹一下燃氣熱水器不打火的可能性。燃氣熱水器不打火是非常常見的一種問題，而導緻... 2024-01-06
科技冰箱不制冷
說到了冰箱這種家電，不得不說冰箱對于我們的日常生活是非常重要的一種家電之一。而冰箱的主要作用就是最大限度地制冷并且起到保持食物新鮮度的作用，但是很多朋友都會發現冰箱不制冷的現象是非常普遍的，而且還會經常遇到過冰箱不制冷的現象。那麼到底冰箱不制冷怎麼辦呢？應該怎麼解決這些問題呢？其實導緻冰箱不制冷的原... 2024-01-06
科技滾筒洗衣機的選購技巧
滾筒洗衣機的選購技巧滾筒洗衣機的特點滾筒的最大特點就是省水、費時間，如果你想具體了解工作原理和适用範圍，可以先看下之前的“滾筒or波輪的選擇”。另外要說明的一點，滾筒和波輪的洗淨比所用的對照組是不同的，所以不能通過洗淨比來衡量滾筒和波輪之間的洗淨能力。那麼多的電機都是什麼意思... 2024-01-06
科技油霧淨化器
油霧淨化器其實是屬于一種工業環保設備。在使用這種油霧淨化器的時候，将其安裝在機床，或者是清洗機等等的機械加工設備之上，吸除一些加工腔之中的油霧，因此而達到淨化空氣的效果，也是可以因此更好的保護工人身體健康的目的。希望我們要加以注重。油霧淨化器屬于是一種安裝在了CNC加工中心，或者是磨床、車床等等各類... 2024-01-06
科技筆記本電池的使用
怎樣用好筆記本的電池，如何延長其使用時間和使用的壽命等問題，無疑是困擾在廣大筆記本電腦用戶心頭的一個難題。以下是筆記本電池使用的幾點建議：【1】激活新電池在新購機時筆記電池應帶有一定的電量。此時，您應該先不使用外接電源，把電池裡的餘電用盡，直至關機，然後再用外接電源充電。充電時間需要6-7個小時左右... 2024-01-06
科技打印機的具體操作
第一步：将打印機連接至主機，打開打印機電源，通過主機的“控制面闆”進入到“打印機和傳真”文件夾，在空白處單擊鼠标右鍵，選擇“添加打印機”命令，打開添加打印機向導窗口。選擇“連接到此計算機的本地打印機”，并... 2024-01-06
科技縫紉機跳線
縫紉機跳線也許家居生活上我們都知道，可是我們在縫衣服飛時候，出現了縫紉機跳線該怎麼辦呢，很多女性都反應，縫紉機是屬于一種比較老試的縫紉機，一直以來，都是使用不幾天就搬出來磨合了一下還算可以，下面我們就去看看有關的介紹吧。縫紉機跳線造成的原因，其實就是因為穿線方法其實是很不正确的，按照“穿線圖”的方式... 2024-01-06
科技電視機冒煙起火怎麼辦
1、迅速拔下電視機電源插頭，然後用棉被等不透空氣的物體将電視機嚴嚴實實地包裹起來，這樣電視機内的火焰就會因沒有空氣而熄滅；2、若電視機外殼和内部都已燃起火焰，就可用水澆滅；3、用幹粉、1211、二氧化碳等滅火器撲救；4、撲救電視機火災時，人體應避開熒光屏的正面，站在電視機後側比較安全。滅火劑不應直接... 2024-01-06
科技浴霸和地暖哪個好
浴霸的使用功率要遠遠大于地暖衛生間溫暖地面系統的功率，耗電量大不節能；浴霸使用時舒适度極差有烘烤的感覺，在洗浴中浴霸隻在它的垂直下方光照的部分是能感覺到熱量，離開垂直下方熱的感覺明顯降低，在立式淋浴中隻有上半身能感覺到熱量但下半身依然很冷；浴霸的高強度光照對人體皮膚及眼睛有害，洗浴時人體毛孔張開的，... 2024-01-06
科技增強洗衣機洗滌效果的竅門
以往大家在使用洗衣機洗衣服，總喜歡多放些洗衣粉，以為泡沫越多，洗滌效果越好。其實，這種方法是錯誤的，其實洗滌衣物時也是有許多方法的，如有不清楚的朋友可以一起了解一下。【1】應使洗衣粉全部溶解如水溫過低，洗衣機就難骓溶解洗衣粉，可先用30℃左右的少量溫水使之全部溶解。如衣物及髒，可用40℃&mdash... 2024-01-06
科技電熨鬥漏水
人們的衣服穿着時間長了，難免會出現褶皺的現象，而解決這個問題最好的方法就是使用電熨鬥進行熨燙，不過現在大多數家庭使用的電熨鬥都是蒸汽式的電熨鬥，雖然在使用的時候非常的方便，但是卻很容易導緻一種情況的出現，就是電熨鬥漏水。那麼，如果是出現這種情況要如何解決呢？蒸汽式的電熨鬥正常工作需要蒸汽孔和水箱保持... 2024-01-06
科技液晶電視機的挑選技巧
液晶電視機的挑選技巧液晶電視機的挑選技巧一、品牌國際知名品牌當然有過硬的質量，但價格不菲。國内品牌的等離子屏都非自己生産，質量不易控制，但價格便宜。雖然分為國内品牌和國外品牌，但現在國外品牌的産地都在國内，所以這方面差異已經不算很大，價格方面國内品牌和國外品牌差距也在縮小。二、電視機的尺寸一般來說，... 2024-01-06
科技如何選購電風扇
近來電風扇走俏，但質監部門提醒說，在電扇重新受到青睐時，當心把不合格品拎回家。究竟該如何選購電風扇？【1】看電風扇标志上面應有廠名、廠址、型号、規格、批号、生産日期、出廠檢驗合格證，有檢驗員印章及檢驗日期。【2】看電風扇說明書裡面應有額定電壓、額定電流、額定頻率、額定輸入功率等指标，還應包括安裝、清... 2024-01-06
科技燃氣熱水器
直排式燃氣熱水器在使用的時候，其實和強直排式的熱水器有什麼區别呢。強排式熱水器在使用的時候，是可以使用一些特别長的傳熱管，還有金屬接觸面積特别多的一種熱交換器，工作的原理，其實是将燃燒了之後的氣體熱量很好的傳給金屬片加熱而工作的，希望我們加以了解的。燃氣熱水器的分類其實是比較多的，家用的燃氣快速使用... 2024-01-06
科技微波爐的使用
說起微波爐，它的功能可真是不少，煮飯、熱菜、做蛋糕等等，因此很多朋友都想要家裡可以擁有一台微波爐。不過也有的朋友會擔心使用的時候會産生輻射，給自己的身體帶來傷害，其實如果是您正确的使用微波爐的話，輻射是不會給您的身體帶來什麼緻癌的影響的，這一點您可以放心。不過怎樣才算是正确的使用微波爐呢？這一點恐怕... 2024-01-06
科技空調箱風機帶水問題
現象：某建築物集中空調用淋水室處理機。運行時在吊頂上和風口處均滴水。原因：空調機有淋水室，現場組合，雖有擋水闆但因風速大(3.5m/s)，在風機吸入段仍有水落下。且風機吸入口很低，能将集水吸入，并打入送風管道在水平風管中積水。沿法蘭接口漏出，通過吊頂滴下，造成破壞吊頂事故。對策：1、将擋水闆設在集水... 2024-01-06
科技燃氣熱水器安裝
一般的家用熱水器有用電和用燃氣兩種不同，如果是家裡安裝有天然氣的話，一般都睡使用燃氣熱水器，因為它燒水速度比較快，而且天然氣的價格也比電的價格要低很多，這些因素都讓燃氣熱水器成為了家裡的主流熱水器。不過為了保證燃氣熱水器在用的時候更少的出現問題，就一定要注意燃氣熱水器安裝。燃氣熱水器因為使用的是天然... 2024-01-06
科技櫃式空調如何清理
在清洗之前我們要關閉空調電源，拔去插頭，打開窗戶，保持室内空氣流通。然後取下過濾網，露出散熱片，使用專業的空調消毒劑，充分搖勻，在離散熱片約5厘米處，對準散熱片按上下順序徹底噴洗，噴洗結束後等候15分鐘左右，然後裝好過濾網，蓋上外殼，再運轉空調制冷程序15-30分鐘就可以了。 2024-01-06
科技電子琴使用注意事項
1、不要将電子琴直接暴露在陽光下，或在熱源附近。否則溫度太高會引起電子琴氣和機械部分的損壞。2、不要将電子琴放在潮濕的地方。3、要避劇烈震動。也不要重物壓在琴上，攜帶和搬運時候，應用柔軟材料保護鍵盤和開關。4、應避免液體，灰塵，顆粒等侵入琴内，琴鍵之間要防止細小的雜物。如發針，縫衣服針，等進入鍵盤縫... 2024-01-06
科技如何保養照相機
1、要使用優質電池，10天内不再使用照相機應将電池取出，以防電池漏液損壞照相機。2、要使用優質膠卷，劣質膠卷會使自動卷片系統損壞。3、防熱、防潮、防震、防塵，保護機器元件，延長使用壽命。4、清潔時，用專用鏡頭刷等工具清潔，忌用其他溶劑代替。5、長期不用，要使調節裝置複位，快門釋放，取出電池，放入幹燥... 2024-01-06
科技 VCD機常見故障的處理
1、開機後不能正常播放①、碟片髒。可用VCD清潔劑或用軟棉布沾純淨蒸餾水擦拭清洗碟片，幹淨後再試用。②、機内碟片重疊、卡住或滑出槽外。應打開機殼擺正碟片或取出多餘碟片。③、環境溫度低而失常，可以邊加熱邊試機，待正常時立即停止加熱。④、激光頭上有異物。可用VCD機專用清潔劑清潔，或打開機殼，用軟棉布沾... 2024-01-06
科技燈暖型浴霸和送風型浴霸比較
熱傳導有三種方式：傳遞、對流、輻射。對流是由冷、熱空氣的溫差使整個空間中的空氣産生流動，進而使這空間的溫度升高。送風型的浴霸就是采用這一原理。落後輻射是以光波為載體，按線性方向送出熱量。燈炮型浴霸就是采用這一原理。送風型浴霸的升溫時間較長需提前開啟，這是缺點，但降溫時間也長（如想節能，可以提前關閉）... 2024-01-06

tft每日頭條

> 科技

> nlpr 實驗室

nlpr 實驗室

圖像預處理

通用文字識别

卡證識别

票據識别

其他

應用場景

相关科技资讯推荐

热门科技资讯推荐

网友关注