大家好,今天兌觀科技小編又為大家分享檔案管理幹貨了,本篇分享主要内容為——紙質檔案數字複制件光學字符識别(OCR)工作規範篇一。
1.範圍
本标準規定了紙質檔案數字複制件光學字符識别(OCR)工作的組織、實施和管理。本标準适用于字迹清晰、文本規範的紙質檔案數字複制件的光學字符識别(OCR)工作。
2.規範性引用文件下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)适用于本文件。
DA/T13-1994檔号編制規則
DA/T22-2015歸檔文件整理規則
DA/T31-2017紙質檔案數字化規範
3.術語和定義下列術語和定義适用于本文件。
3.1 字符 character
供組織、控制或表示數據用的元素集合中的一個元素。[GB18030-2005,定義4.1]
3.2 字符集 character set
多個字符的集合。
注:常見字符集有ASCL字符集、GB2312字符集、BIG5字符集、GB18030字符集、 Unicode字符集等。
3.3 光學字符識别 optical character recognition;OCR
通過信息技術對圖像文件中的字符形狀進行識别、文字轉換和文本輸出、呈現的過程。
3.4 紙質檔案數字複制件 digital copy of paper-based record
紙質檔案經過數字化加工過程後形成的,存儲在磁帶、磁盤、光盤等載體上并能被計算機等電子設備識别的數字圖像。
3.5 檔案OCR成果 OCR outcome of record
記錄通過OCR技術獲取的紙質檔案數字複制件文字内容的文件。
3.6 識别準确率 recognition accuracy
通過OCR技術識别正确字符的比率。
注:識别準确率=(識别正确字符數/應識别字符總數)×100%
3.7 識别速度 recognition speed
單位時間内通過OCR技術識别字符的數量。
4.總則4.1 檔案OCR應當納入數字檔案館(室)資源建設範疇,統籌規劃,有序實施,逐步實現常态化。
4.2 檔案OCR應當科學開展,以有利于實現檔案信息檢索和計算機輔助目、研開發、數據挖掘為原則。
4.3 檔案OCR應當基于檔案數字化工作,檔案OCR成果與紙質檔案數字複制件之間應建立準确、可靠的關聯關系。
4.4 應當采取有效的管理和技術手段,加強檔案OCR的過程管理和質量控制,确保檔案OCR過程規範、成果可靠、數據安全。
4.5 涉密紙質檔案數字複制件的OCR工作,應符合涉密檔案相關的管理和技術要求。
若想了解更多關于檔案管理最新動态,請參考兌觀科技官網。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!