标准规范下载简介

DA／T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范简介：

《DA/T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范》是一份由中国档案局发布的技术规范，主要针对纸质档案数字化过程中光学字符识别（OCR）技术的应用提出了一系列的工作标准和要求。OCR是通过扫描纸质文档，将其转换为可编辑的电子文本的一种技术。

该规范主要包括以下几个方面：

1. 适用范围：适用于纸质档案的数字化过程，特别是涉及大量文字内容的档案，如公文、书籍、报纸等。

2. 技术要求：对OCR的识别精度、速度、错误率等性能指标提出了明确的标准，以保证数字化后的文本准确无误。

3. 工作流程：规定了从档案扫描、OCR处理、文本校对到存储的完整流程，强调了每个环节的质量控制。

4. 设备与软件：对OCR软件的选择、硬件设备的配置，以及数据处理环境提出了要求。

5. 质量控制：强调对OCR处理后的文本进行人工校对，以确保识别出的文本与原文一致。

6. 安全与保密：对档案数字化过程中的信息安全和保密性提出了严格的规定。

总的来说，DA/T 77-2019 旨在规范OCR在纸质档案数字化中的应用，提高数字化效率，保证信息的准确性和安全性，是档案数字化过程中不可或缺的指导性文件。

DA／T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范部分内容预览：

本标准按照GB/T1.1一2009给出的规则起草。本标准由国家档案局提出并归口。本标准起草单位：国家档案局馆室司、青岛市档案馆。本标准主要起草人：刘芸、丁德胜、杨来青、邹杰

SH∕T 3023-2005 石油化工厂内道路设计规范识别准确率recognitionaccuracy 通过OCR技术识别正确字符的比率。注：识别准确率=（识别正确字符数/应识别字符总数)X100% 3.7 识别速度recognitionspeed 单位时间内通过OCR技术识别字符的数量

4.1档案OCR应当纳人数字档案馆（室）资源建i 设范畴，统筹规划，有序实施，逐步实现常态化 4.2档案OCR应当科学开展，以有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘为原则。 4.3档案OCR应当基于档案数字化工作，档案OCR成果与纸质档案数字复制件之间应建立准确、可靠的关联关系。 4.4应当采取有效的管理和技术手段，加强档案OCR的过程管理和质量控制，确保档案OCR过程规范、成果可靠、数据安全。 4.5涉密纸质档案数字复制件的OCR工作，应符合涉密档案相关的管理和技术要求

5.1.1应建立档案OCR工作机构，配备相应素质和技术水平的工作人员，组织开展档案OCR工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。档案OCR可与纸质档案数字化工作统筹配置工作机构和人员。 5.1.2档案OCR工作实行服务外包的，应从企业性质、股东组成、安全保密、企业规模、注册资金情况等方面严格审查档案OCR服务供方的相关资质；从规章制度的建立健全程度等方面考查服务供方的管理能力，建立权责明确、覆盖工作全过程的监督机制和安全防范机制，确保档案信息安全。对外聘的工作人员，应进行安全审查，接规定进行保密教育

5.2.1档案OCR流程包括图像导入、图像预处理、比对识别、修改校正、成果整理输出五个业务环节。应依据相关技术标准，对档案OCR全过程进行有效控制。V人 5.2.2应加强对档案OCR工作全流程的质量管理和安全管理，建立完善的质量、安全问题发现、修正机制，确保OCR成果质量和档案信息安全。

5.3工作文件与元数据

5.3.1应建立档案OCR工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等的管理工作文件，采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议、操作规程、监管记录等，加强对档案OCR工作的管理。 5.3.2应参照相关标准，提出档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求

DA/T 772019

5.1.1OCR工作开展前，应当依据纸质档案数字复制件OCR项目的计划、合同、招投标书等有关项目文件，对OCR工作的识别处理系统、网络系统、基础设施、保障能力等方面进行业务评价

图像资源：即符合导人标准的可识别的彩色（24BITS）、灰度（256阶）和黑白二值图像。一般应为TIFF、BMP、JPG、PDF（图像）、OFD(图像）格式文件。 OCR引擎：对图像包含文字进行高速度和高准确率识别的OCR软件开发包。 OCR软件：装备OCR引擎的软件，可高速准确输出识别结果，支持人工比对和校正。应根据需要识别的目标，按照项目资源的成本风险平衡原则确定OCR的范围、质量、效率、技术等要求。基础设施：支持系统运行的场所、设施和设备，包括OCR设备及工作间、介质的场外存放场所、备用的机房及辅助设施等。一专业技术支持能力：对系统的运转提供支撑和综合保障的能力，以实现系统的预期目标。包括硬件、系统软件和应用软件的问题分析和处理能力，网络系统安全运行管理能力，沟通协调能力等。运行维护管理能力：保障系统相关的设备和软件正常运行，提供长期、及时、全面的技术支持的能力。包括运行环境管理、系统管理、安全管理和变更管理等灾难恢复预案：对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应，灾后系统重建及重续运行，通信、后勤、技术等相关保障机制建设

6.2.1应当根据确定的档案OCR工作策略制定OCR各工作系统技术方案，包含OCR的数据管理系统、OCR识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件：一与档案管理系统相当的安全保护级别；一具有可扩展性；一对档案管理系统无明显可用性和性能影响， 6.2.2为确保技术方案满足档案OCR工作策略的要求，应对技术方案进行确认和验证，并记录和保存验证及确认的结果。按照确认的OCR软件技术方案进行开发，实现所要求的数据管理系统、OCR识别处理系统和网络系统。 6.2.3应按照经过确认的技术方案，制定OCR软件各阶段的系统安装及测试计划，以及支持不同关键业务功能的系统安装及测试计划，并组织最终用户共同进行测试。确认以下各项功能可正确实现：对识别图像进行预处理：数据识别及校验；输出档案OCR成果；数据安全管理

1.1档案OCR实施前，应当先评估纸质档案数字复制件质量是否符合OCR的基本要求。评估

容一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。 7.1.2纸质档案数字复制件的图像分辨率应不低于200dpi。特殊情况下，如文字偏小、密集、清晰度较差等，可以适当提高分辨率。文件命名应符合DA/T13—1994、DA/T22—2015、DA/T31—2017的定。 7.1.3对质量不能达到档案OCR工作基本要求的纸质档案数字复制件，应按照DA/T31一2017的要求重新数字化后导人

7. 2. 1 三值化

7.2.2.1对图像中印刷体字符进行识别处理前，需要根据噪声的特征对待识别图像进行降噪处理，提升识别处理的精确度。 7.2.2.2降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质，去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方

7. 2. 3倾斜校正

7.2.3.1对图像进行识别前，应动水平或垂直倾斜校正 7.2.3.2应支持由用户指定图像手工倾斜校正。

7.2.3.1对图像进行识别前，应进

图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。

7.3.1.1对比识别前应对图像中的字符块结构进行版式分析，把图像中相似的版块信息划分到一起如横排文本、竖排文本、表格、图形等。 7.3.1.2版式分析可采取多种分析方法，自动检测各版块类型，对图像内部区域进行逻辑归类，记录名版块的位置，存储版面信息

7.3.2档案特征分析

7.3.2.1归档章分析。建立归档章式样库，自动识别图像中的归档章，并根据归档章样式，识别出字段立置，如全宗号、年度、机构、保管期限、件号、页数等 7.3.2.2公文要素分析。建立公文格式库，可准确识别公文的版头、主体、版记三部分，识别公章、签章等区域，比照公文样式，识别密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素。公文要素OCR识别要求见附录A。 7.3.2.3表格分析。建立单独表格处理模块，建立专用表格模板定义工具，自定义文件处理单、发文稿纸、备考表等表格模板，识别表格中的字段位置，

DA/T 772019

7.3.2.4印章分析。识别印章图像位置，存储印章图像，建立印章名称与印章图像的关系库，用于版式恢复

7. 3. 3识别和匹配

7.3.3.1识别时应抽取字体、字号、粗体、斜体、首行缩进等字符特征，通过相似度计算方法，与特征数居库比对，识别为计算机文字内码 7.3.3.2特征数据库应存储多种印刷体字符、常用签名和批注手写体字符，具备可更新和可扩充性。对使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体字符应建立高频库。应将无法识别的手写体筛选出来，通过人工识别，并将识别结果存人字符库。 .3.3.3应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对识别文字进行除错或更正，以提高OCR识别准确率

7.4.1应对识别的文本进行自动语义识别和校正，通过词汇库和语义库，对识别后文本中的字符、词汇、语句自动进行逐层分析更正。词汇库和语义库应具备更新和自动学习功能利用BIM技术进行的高校既有建筑能耗特征， 7.4.2应对候选字、拒认字和可能有问题的字词、语句进行标记。 7.4.3应支持以人工方式对OCR结果进行图像与识别文字对照、修正等校正的功能，以满足更高识别准确率的特殊要求。

7.5.1.1支持接照纸质档案数字复制件的版式对OCR结果的段落和表格进行版面理解与重建。重建后OCR结果的段落编排、表格样式应与纸质档案数字复制件图像一致。 7.5.1.2应自动分析、提取党政机关公文的各公文要素，包括密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等。档案OCR 成果结果中各公文要素位置应与纸质档案数字复制件图像一致， 7.5.1.3应支持调用、编辑、备份、导出OCR结果，支持对文字、符号的搜索等功能。

7. 5. 2成果输出

7.5.2.1档案OCR成果应同时保存为纯文本形式和双层PDF/OFD文件形式。 7.5.2.2应以纸质档案的件或页为单位输出、保存纯文本形式档案OCR成果。纯文本形式OCR成果保存规则参见表1：

度假别墅施工图表1OCR成果保存规则

7.5.3.1应采用计算机自动检验与人工检验相结合的方式对纸质档案OCR成果进行验收检验。 7.5.3.2验收检验内容包括OCR成果、提取的党政机关公文要素、数据挂接情况、OCR工作文件和存诸载体等。 7.5.3.3能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验，对于无法用计算机自动检验的项目，可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低于5%。

石油天然气路桥标准安装设计标准给水排水标准城建标准水利标准林业标准地方标准门窗玻璃标准国标图集通信标准

资源来自互联网，如有侵权请联系删除

同类资源：纸质档案市政工程

DA／T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范

标准规范下载简介

DA／T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范简介：

DA／T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范部分内容预览：

1 DG／TJ08-202-2020 钻孔灌注桩施工标准.pdf

2 DB4205／T 68-2019 市政基础设施工程施工围挡设置规范.pdf

3 公安派出所建设标准(2016修订版)（公安部2017年1月）.pdf

4 GB18742.2-2002

5 T／ZZB 1328-2019 液压打桩锤.pdf

6 中南15ZJ001《建筑构造用料做法》.pdf

7 建筑设计防火规范.pdf

8 JGT298-2010 建筑室内用腻子

9 甘12G2 填充墙与柱、剪力墙及梁板的拉结构造

10 DB42／T 1832-2022 耐碱玻璃纤维网布应用技术规程(附条文说明).pdf

11 JG／T 154-2013 电动伸缩围墙大门.pdf

12 DBJT 15-84-2021 轻集料混凝土墙板应用技术规程.pdf

13 建筑装饰装修工程施工工艺标准（完整版）.pdf

14 2020四川省建设工程工程量清单计价定额-房屋建筑与装饰工程(一)、(二).pdf

15 DB37／T 5097-2021 绿色建筑评价标准(完整正版、清晰无水印).pdf

16 建标 130-2010 公安机关业务技术用房建设标准.pdf

1 JT∕T 821.3-2011 混凝土桥梁结构表面用防腐涂料第3部分：柔性涂料

2 DB29-65-2004 天津市挤扩灌注桩技术规程.pdf

3 广东省房屋建筑工程竣工验收技术资料统一用表(2016版)填写范例与指南(上册).pdf

4 第05章地基处理与防护工程计算及定额应用.pdf

5 美豪酒店弱电系统工程方案.pdf

6 马鞍山恒大御景湾施工组织设计2（59P）.doc

7 某超高层建筑机电安装工程施工组织设计

8 金属压型钢板安装施工工艺

9 0032 六层砖混施工组织设计

10 泸洲市传染病医院安装工程施工组织设计

11 T／SHJX 012-2019 道路运输车辆主动安全智能防控系统（平台技术规范）.pdf

12 《港口工程灌注桩设计与施工规程》(JTJ248-2001).pdf

DA／T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范

标准规范下载简介

DA／T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范简介：

DA／T 77-2019 纸质档案数字复制件光学字符识别（OCR）工作规范部分内容预览：

1 DG／TJ08-202-2020 钻孔灌注桩施工标准.pdf

2 DB4205／T 68-2019 市政基础设施工程施工围挡设置规范.pdf

3 公安派出所建设标准(2016修订版)（公安部2017年1月）.pdf

4 GB18742.2-2002

5 T／ZZB 1328-2019 液压打桩锤.pdf

6 中南15ZJ001《建筑构造用料做法》.pdf

7 建筑设计防火规范.pdf

8 JGT298-2010 建筑室内用腻子

9 甘12G2 填充墙与柱、剪力墙及梁板的拉结构造

10 DB42／T 1832-2022 耐碱玻璃纤维网布应用技术规程(附条文说明).pdf

11 JG／T 154-2013 电动伸缩围墙大门.pdf

12 DBJT 15-84-2021 轻集料混凝土墙板应用技术规程.pdf

13 建筑装饰装修工程施工工艺标准（完整版）.pdf

14 2020四川省建设工程工程量清单计价定额-房屋建筑与装饰工程(一)、(二).pdf

15 DB37／T 5097-2021 绿色建筑评价标准(完整正版、清晰无水印).pdf

16 建标 130-2010 公安机关业务技术用房建设标准.pdf

1 JT∕T 821.3-2011 混凝土桥梁结构表面用防腐涂料 第3部分：柔性涂料

2 DB29-65-2004 天津市挤扩灌注桩技术规程.pdf

3 广东省房屋建筑工程竣工验收技术资料统一用表(2016版)填写范例与指南(上册).pdf

4 第05章地基处理与防护工程计算及定额应用.pdf

5 美豪酒店弱电系统工程方案.pdf

6 马鞍山恒大御景湾施工组织设计2（59P）.doc

7 某超高层建筑机电安装工程施工组织设计

8 金属压型钢板安装施工工艺

9 0032 六层砖混施工组织设计

10 泸洲市传染病医院安装工程施工组织设计

11 T／SHJX 012-2019 道路运输车辆主动安全智能防控系统 （平台技术规范）.pdf

12 《港口工程灌注桩设计与施工规程》(JTJ248-2001).pdf

1 JT∕T 821.3-2011 混凝土桥梁结构表面用防腐涂料第3部分：柔性涂料

11 T／SHJX 012-2019 道路运输车辆主动安全智能防控系统（平台技术规范）.pdf