ocr怎麼設置自定義識别?很多人在聽到關于ocr轉譯的時候,大部分人認為這是一個關于圖片的标注前兩天我的同事跟我聊天的時候,說了一句OCR是圖片标注的一種,我問他為什麼,他說因為是圖片拉框的但是實際你知道嗎,ocr其實是屬于文本的,知道為什麼嗎?請跟着我的腳步一一為您揭開謎題,下面我們就來聊聊關于ocr怎麼設置自定義識别?接下來我們就一起去了解一下吧!
很多人在聽到關于ocr轉譯的時候,大部分人認為這是一個關于圖片的标注。前兩天我的同事跟我聊天的時候,說了一句OCR是圖片标注的一種,我問他為什麼,他說因為是圖片拉框的。但是實際你知道嗎,ocr其實是屬于文本的,知道為什麼嗎?請跟着我的腳步一一為您揭開謎題。
一、什麼是OCR
OCR是什麼,英文:Optical Character Recognition,中文名稱:光學字符識别,簡稱OCR。它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,并轉換成一種計算機能夠接受、人又可以理解的格式。比如:你想要将你看到某的一本雜志其中的一段文字内容複制出來,但是又不能複制,自己輸入又非常費時時,我們就可以通過OCR技術轉譯為文字了。
二、應用場景
目前OCR的應用可以分為四大場景
1. 拍照表單類
這一類的數據具有很大的私密性,通過我們的轉譯技術就可以保存為電子擋,但目前技術仍有難點。如:當前疫情期間,學生都是網絡授課,但是老師布置作業好多學生作業仍舊需要手寫作業,拍照給老師批改,但是我們的老師,一個一個的批改處理非常的耗時且電腦操作方面比較麻煩。所以當我們能夠通過OCR直接轉譯為文本就能解決非常大的問題,可以批量處理,直接給出結果。
2. 數字原生類
這一類數據是最為複雜多樣的:各種字體、背景、排列、組合等。而其中最具代表性的便是淘寶圖片了,這類圖片為商品信息的載體。圖片量大,每日更新也是最多的。
3. 文檔類
這一類數據涉及很多的公共場景,應用于如:車票、發票、外賣單、各類票據類别的存儲。
4. 自然場景
這一類目前是應用最廣泛、最成熟且商用價值最大的場景。如:證件識别、銀行卡識别、車牌識别、攝像監控、快遞單号識别等。
三、作為一個數據标注員我們可以做什麼?
1. OCR目前難點有哪些
1) 内容不規則、圖片清晰度等、背景幹擾等。
2) 非簡體字識别、相似文字、生僻字、複雜公式符号等
3) 定位問題粘粘明顯、行間距不清楚,難于标注、字高範圍
4) 手寫體問題是目前的主要難點,因為每個人的個人習慣字體風格均有不同,雖然我們自己能懂,但是機器卻很少能懂的。
5) 按照識别内容來說目前分為三大類:漢字、英文、阿拉伯數字。數字識别最簡單;英文識别僅有26個字母(算上大寫52個) ;但是中文就不一樣了常用漢字3700、相似文字2278、以及繁簡體等,還需要識别出整個字體,是目前最大的難題。
2. OCR識别流程
版面分析 -> 預處理-> 行列切割 -> 字符識别 -> 後處理識别矯正
3. 我們可以做什麼?
通過上面内容我們可以了解到雖然現在有很多的行業已經在運用這一項技術了,但是目前仍舊有很多的技術難點,那麼要攻克這些難點就需要進行機器學習演練,而在在一個過程中則需要大量的數據支撐。所以這些大量的數據就是我們所需要做的了,采集、清洗、标注都是我們可以做的。
1) 采集:如手寫字體、廣告牌、學生作業、各類印刷體拍照收集
2) 清洗:去除無效數據、去除噪點數據、快速分類等
3) 标注:拉框、标簽、轉寫。
四、标注規則
關于ocr的标注規則,每一個ocr标注項目都有自己的規則,大體有如下規則:
1) 屬性标注:針對圖片分有效數據、無效數據等對整個圖片,或範圍内的标注
2) 框選要求:根據任務類型一般為拉框、多邊形等。
3) 精度要求:因為文字的像素基本在80-400之間,所以拉框精度,盡量貼合文字但是不要壓字體,根據不同的項目要求大體會有些許差異。
4) 内容轉寫:根據項目不同,可能為中文、英文、阿拉伯數字等,一般需要按實際内容轉寫。
5) 順序标注:很多OCR方面識别是按照順序來的,因為文本方面的内容一般都有連續性,如上下文這樣的,所以我們在做這一點的時候最好是按照内容順序标注。
6) 提交格式:現在技術基本是線上标注的方式,我們隻需要标注好了保存提交就可以了,但部分項目因為數據安全的問題,還是會采用線下标注的方式。提交格式需要根據項目要求提交如:json,txt等等
7) 溫馨提示:标注時無論線上、線下注意随時保存已标注内容,因為有時候沒保存就代表了做白工,還有重要的一點,标注時一定要好好的了解清楚标注工具性能還有一些快捷工具,畢竟磨刀不誤砍柴工嘛。
好啦,今天的分享就到此結束了,希望大家通過此文能對OCR有初步了解,關于數據标注你有想要知道的請告知小編喲。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!