DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:0.5 M
标准类别:综合标准
资源ID:53344
免费资源

标准规范下载简介

DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf简介:

"DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf"文件的简介可能如下:

这是一份专业的工作规范文档,它详细规定了如何对纸质档案进行数字化复制过程中,使用光学字符识别(OCR)技术进行处理的标准和方法。OCR是将纸质文件上的文字转换为可编辑和可搜索电子文本的技术。DA_T 77-2019标准可能涉及OCR的选取、设置、执行、校验和质量控制流程,以确保转换的准确性,保护原始信息的完整性,并符合数据管理、信息安全和隐私保护的要求。

这份规范可能适用于档案管理机构、图书馆、政府部门等需要大量处理纸质文档的组织,旨在提供一套科学、高效且合规的数字化工作流程。它可能会包括对OCR软件的选择、硬件配置、图像预处理、识别率评估、错误校正策略等方面的规定。

DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf部分内容预览:

录通过OCR技术获取的纸质档案数字复制件文

通过OCR技术识别正确字符的比率。 注:识别准确率=(识别正确字符数/应识别字符总数)X100% 3./ 识别速度 recognition speed 单位时间内通过OCR技术识别字符的数量

通过OCR技术识别正确字符的比率。 注:识别准确率=(识别正确字符数/应识别字符总数)X100% 3./ 识别速度 recognition speed 单位时间内通过OCR技术识别字符的数量

4.1档案OCR应纳入数字档案馆(室)资源建设范畴,统筹规划、有序实施,逐步实现常态化, 4.2档案OCR应科学开展,有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘 4.3档案OCR应基于档案数字化工作,档案OCR成果与纸质档案数字复制件之间应建立准确、可靠 的关联关系。 4.4应当采取有效的管理和技术手段,加强档案OCR的过程管理和质量控制,确保档案OCR过程规 范、成果可靠、数据安全。 4.5涉密纸质档案数字复制件的OCR工作,应符合涉密档案相关的管理和技术要求

5.1.1应建立档案OCR工作机构JC∕T 2196-2013 水泥回转窑用耐火材料使用规程,配备相应素质和技术水平的工作人员,组织开展档案OCR工作的 统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。档案OCR可 与纸质档案数字化工作统筹配置工作机构和人员。 5.1.2档案OCR工作实行服务外包的,应从企业性质、股东组成、安全保密、企业规模、注册资金情况 等方面严格审查档案OCR服务供方的相关资质;从规章制度的建立健全程度等方面考查服务供方的 管理能力,建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的 工作人员,应进行安全审查,按规定进行保密教育

5.2.1档案OCR流程包括图像导入、图像预处理、比对识别、修改校正、成果整理输出五个业务环节。 应依据相关技术标准,对档案OCR全过程进行有效控制。 5.2.2应加强对档案OCR工作全流程的质量管理和安全管理,建立完善的质量、安全问题发现、修正 机制,确保OCR成果质量和档案信息安全

5.3工作文件与元数据

报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知 书、项目合同、保密协议、操作规程、监管记录等,以加强对档案OCR工作的管理。 5.3.2应参照相关标准,提出档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求,

6.1.1OCR工作开展前,应当依据纸质档案数字复制件OCR项目的计划、合同、招投标书等有关项目 文件,对OCR工作的识别处理系统、网络系统、基础设施、保障能力等方面进行业务评价。

图像资源:符合导人标准的可识别的彩色(24bits)、灰度(256阶)和黑白二值图像。一般应为 TIFF、BMP、JPG、PDF(图像)、OFD(图像)格式文件 OCR引擎:对图像包含文字进行高速度和高准确率识别的OCR软件开发包。 OCR软件:装备OCR引擎的软件,可高速、准确输出识别成果,支持人工比对和校正。应根据 需要识别的目标,按照项目资源的成本风险平衡原则确定OCR的范围、质量、效率、技术等 要求。 基础设施:支持系统运行的场所、设施和设备,包括OCR设备及工作间、介质的场外存放场 所、备用的机房及辅助设施等。 专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的预期目标。包括 硬件、系统软件和应用软件的问题分析和处理能力,网络系统安全运行管理能力,沟通协调能 力等。 运行维护管理能力:保障系统相关的设备和软件正常运行,提供长期、及时、全面的技术支持的 能力。包括运行环境管理、系统管理、安全管理和变更管理等。 灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建 及重续运行,通信、后勤、技术等相关保障机制建设,

6.2.1应当根据确定的档案OCR工作策略制定OCR各工作系统技术方案,包含OCR的数据管理系 统、OCR识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件: 一与档案管理系统相当的安全保护级别; 一具有可扩展性; 一对档案管理系统无明显可用性和性能影响。 6.2.2为确保技术方案满足档案OCR工作策略的要求,应对技术方案进行确认和验证,并记录和保 存验证及确认的成果。按照确认的OCR软件技术方案进行开发,实现所要求的数据管理系统、OCR识 别处理系统和网络系统。 6.2.3应接照经过确认的技术方案,制定OCR软件各阶段的系统安装及测试计划,以及支持不同关 键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现: 对识别图像进行预处理; 数据识别及校验; 输出档案OCR成果;

对识别图像进行预处理; 数据识别及校验; 输出档案OCR成果; 数据安全管理。

7.1.1档案OCR实施前,应先评估纸质档案数字复制件质量是否符合OCR的基本

1.1档案OCR实施前,应先评估纸质档案数字复制件质量是否符合OCR的基本要求。评估

一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。 7.1.2纸质档案数字复制件的图像分辨率应不低于200dpi。特殊情况下,如文字偏小、密集、清晰度 较差等,可以适当提高分辨率。文件命名应符合DA/T13、DA/T22、DA/T31的规定。 7.1.3对质量不能达到档案OCR工作基本要求的纸质档案数字复制件,应按照DA/T31的要求重新 数字化后导人。

特征对待识别图像进行降课处理,提 升识别处理的精确度, .2.2.2降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面 原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方

7.2.3.1对图像进行识别前,应进行图像方向检测并进行自动水平或垂直倾斜校正。

7.2.3.1对图像进行识别前,应进行图像方向检测并进行自动水平或垂直倾斜校正。 7.2.3.2应支持由用户指定图像倾斜的角度,采用相应的图像旋转算法进行手工倾斜校正。

7. 2. 4图像监测

图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。

7.3.1.1比对识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起 如横排文本、竖排文本、表格、图形等。 7.3.1.2版式分析可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录各 版块的位置,存储版面信息。

7.3.2档案特征分析

7.3.2.1归档章分析。建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出字段 立置,如全宗号、年度、机构、保管期限、件号、贞数等。 7.3.2.2公文要素分析。建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章 等区域,比照公文样式,识别密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件 说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素。公文要素OCR识别要求见附录A。 7.3.2.3表格分析。建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿 纸、备考表等表格模板,识别表格中的字段位置。 7.3.2.4印章分析。识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式

7.3.3.1识别时应抽取字体、字号、粗体、斜体、首行缩进等字符特征,通过相似度计算方法,与特征数 居库比对,识别为计算机文字内码。 7.3.3.2特征数据库应存储多种印刷体字符、常用签名和批注手写体字符,具备可更新和可扩充性。 时使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体学字符应建立高频库。应将无 法识别的手写体筛选出来,通过人工识别,并将识别成果存入字符库。 7.3.3.3应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对 识别文字进行除错或更正,以提高OCR识别准确率

7.4.1应对识别的文本进行自动语义识别和校正,通过词汇库和语义库对识别后文本中的字符、词汇 语句自动进行逐层分析更正。词汇库和语义库应具备更新和自动学习功能。 7.4.2应对候选字、拒认字和可能有问题的字词、语句进行标记, 7.4.3应支持以人工方式对OCR成果进行图像与识别文字对照、修正等校正的功能,以满足更高识 别准确率的特殊要求

.5.1.1支持按照纸质档案数字复制件的版式对OCR成果的段落和表格进行版面理解与重建。重 建后OCR成果的段落编排、表格样式应与纸质档案数字复制件图像一致。 .5.1.2应自动分析、提取党政机关公文的各公文要素《陶瓷工业污染物排放标准 GB 25464-2010》,包括密级和保密期限、紧急程度、发文字号、签 发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等。档案OCR 成果中各公文要素位置应与纸质档案数字复制件图像一致。 7.5.1.3应支持调用、编辑、备份、导出OCR成果,支持对文字、符号的搜索等功能

7. 5. 2成果输出

7.5.2.1档案OCR成果应同时保存为纯文本形式和双层PDF/OFD文件形式。 7.5.2.2应以纸质档案的件或页为单位输出、保存纯文本形式档案OCR成果。纯文本形式OCR成 果保存规则参见表1:

DB34/T 3350-2019标准下载表1OCR成果保存规贝

应以档号为基础对纯文本形式档案OCR成果命名,命名方式的选择应确保档案OCR成果

7.5.3.1应采用计算机自动检验与人工检验相结合的方式对纸质档案OCR成果进行验收检验。 7.5.3.2验收检验内容包括OCR成果、提取的党政机关公文要素、数据挂接情况、OCR工作文件和存 诸载体等。 7.5.3.3能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验,对于无法用 计算机自动检验的项目,可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低 于5%。

©版权声明
相关文章