T/CESA 1199-2022标准规范下载简介
T/CESA 1199-2022 人工智能 智能字符识别技术规范.pdf简介:
T/CESA 1199-2022 人工智能 智能字符识别技术规范.pdf部分内容预览:
智能字符识别intelligentcharacterrecognition 种基于深度学习的光学字符识别技术。对印刷文字、手写文字、表格、公式符号以及 素进行识别和编码。
文本检测textdetection 对图像上字符(串)、文本行(列)位置进行定位的过程。 注:字符(串)包括数字,符号,英文,中文或其他语言文本。 4 文本识别textrecognition 对图像上字符(串)、文本行位置进行识别的过程。 注:字符(串)包括数字,符号,英文,中文或其他语言文本
T/CESA 11992022
文本信息提取textinformationextraction 对图像上识别出的文本《机械设备安装工程术语标准 GB/T50670-2011 》,进行排序、合并、自然语言处理等操作,使其转换为结构化信息的过程。
基于人工智能技术的字符识别系统框架见图1。
图1智能字符识别系统框架
ICR将给定图像中的点或像素字符转换为数字编码信息,包括图像获取、图像预处理、文本检测、 文本识别、信息提取五个模块。 a)图像获取模块负责图像、视频截图中图像的读取; b) 图像预处理模块负责对从图像获取模块接收到的图像原始数据,将其转换成满足文本检测、文 本识别等输入要求的图像,其中包括质量增强、版面分析和质量筛选等功能; C 文本检测模块负责对于给定图像(包括原始图像、图像中间样本等)进行字符和文本行检测
ICR将给定图像中的点或像素字符转换为数字编码信息,包括图像获取、图像预处理、文本检测 识别、信息提取五个模块。 图像获取模块负责图像、视频截图中图像的读取; 图像预处理模块负责对从图像获取模块接收到的图像原始数据,将其转换成满足文本检测、 本识别等输入要求的图像,其中包括质量增强、版面分析和质量筛选等功能; 文本检测模块负责对于给定图像(包括原始图像、图像中间样本等)进行字符和文本行检测
d)文本识别模块负责对于给定文本图像,可包括原始图像、图像中间样本、文本检测出的图像区 域等,进行字、词和文本行的内容识别; e 信息提取模块依据版面分析、自然语言处理等手段将基于文本检测和文本识别结果,转换为结 构化数据,以及识别结果的矫正。
图像采集功能应符合以下要求: a)支持对包含但不限于JPEG、GIF、PNG、TIFF、BMP、PDF等常见的图片格式进行读取。图片分 辨率支持范围应该包含128×128dpi~4096x4096dpi; b)支持对包括但不限于自然场景卡证、票据、文档、表单等常见文本场景文字的检测和识别。
5. 3. 1字符检测
在原始图像或图像中间样本识别从预定义范围的字符符合以下要求: a)应支持设置待检测字符类型范围,如:Unicode字符集; b)应检测出预先定义范围内的字符类型,包含但不限于:中文简体、中文繁体以及英语、阿拉伯 语、俄语等西文;宜支持藏语、蒙语、维语等少数民族语言,数字、特殊符号及其组合等; C 应在检测结果中包含字符在图像中的位置信息; d 宜支持对所检测图像中的最小、最大字符大小的设置,如:8px~256pX。
对原始图像或图像中间样本进行文本行检测符合以下要求: a)应定位出图像中文字块的位置,位置信息支持水平矩形、旋转矩形、不规则四边形以及多轮廓 点等形式; b 应根据位置信息将含有文本行的区域,通过算法,如:仿射、最小外接矩形等归一化算法,处 理成规则的图像数据; c)应支持对所需检测图像分辨率的设置,如:128×128dpi~4096×4096dpi; 宜支持不同语言种类的检测,如对中文、英文、混合语种的检测;支持印刷体和手写体的混合 模式、不同字体类型大小、不同角度倾斜、不同程度遮挡物等情况的文字区域检测,
T/CESA 11992022
对图片中的文本行检测区域进行定位后,对检测区域内文本内容进行识别,应符合以下要求: a)对印刷文字和手写文字的识别; b)对字符、字母、混合语种中的文字内容进行识别; 对数字、数学公式以及特殊符号的识别: d 英文识别的最小尺寸为16x16px,中文识别的最小尺寸为32x32px; e) 对方向有旋转的文字,支持文字与水平轴<土15°夹角偏转; f 支持对如中、日、韩文等有比较多竖排文字呈现的文字识别
内结构化数据,应符合以下要求: a)可对文本中的特定词汇进行纠错: 可根据特定的语言上下文的关系,对识别结果进行校正。对于需要校正的字段,应支持定义校 正规则,并依据校正规则进行处理,如日期、地址、金额类等; c) 可支持对文本版式结构的还原,包括但不限于标题、章节、段落、图表、脚注、页眉、页脚等 版本格式; d)可支持识别表格区域行列信息,并对表格区域结构单元信息进行恢复还原
3.1文本检测性能要求
6. 1. 1交并比 (IoU)
交并比是用来评价文本目标框和文本预 测框之间的重合度。计算公式如式1,
6.1.2精确率(PR)
IoU = area (BpnBgt). area (B,UBgt)
精确度包括字符精确度、单词精确度和字段精确度。其中: a)字符精确率:适合中文ICR评测,字符包括单个文字以及标点符号; b)单词精确率:适合英文ICR评测,单词以空格分隔; c)字段精确率:适合卡证类、发票类、车牌ICR评测,能提取到结构化的字段信息。 精确率用于衡量正确检测出的字符(串)框数量占所有检测出的字符(串)框数量的比例。计算方 法见公式2: 正确检测是指预测框与目标框的IoU不小于0.5。
式中: PR—精确率; C——正确检测出的字符(串)框数量; M 检测出的字符(串)框总数量。
6.1.3召回率(RR)
T/CESA 11992022
召回率包括字符召回率、单词召回率和字段召回率。召回率用于衡量正确检测出的字符(串) 占图像上真实存在的字符(串)框数量的比例。计算方法见公式3:
式中: RR召回率; C一一正确识别的字符(串)框数量; 图像上应该被正确识别的字符(串)框总数量
6. 1.4F Score
6. 1. 5AP 测度
FScore =(1 +β) B2(PR+RR)
式中: AP 不同召回率下的平均精确率; RR 召回率; PRonis 平滑后的精确率。
1 PRsmooth(RR) RRE(0,0.1...1.0)
AP = PRsmooth(RR) RRE(0.0.1 ...1.0
电子/扫描、拍照、自然街景、网络、多语音等场景下的文本检测性能要求应符合表1的要求。
6.2文本识别性能要求
6.2.1精确率(PR)
精确率用于衡量正确识别出的字符(串)数量占所有检测出的字符(串)数量的比例。计算方法见 公式6:
式中: PR精确率; 一正确识别的字符(串)数量; M 一识别的字符(串)总数量。 注1:若引擎将两个单词之间的空格漏掉,则两个单词都算识别错误 注2:字段中如有一个错误识别的文字则整个字段算作识别错误
6. 2. 2 编辑距离
编辑距离表示一个学符串修改为和另外一个字符串一致,总共需要修改的学符数。编辑距离越大表 示两字符串之间的差异越大。编辑距离包括全图编辑距离、最小编辑距离和平均编辑距离。 归一化编辑距离可以衡量两个字符串之间的相似性,在编辑距离的基础上加入归一化操作可规避字 符串长度带来的指标差异。计算方法见公式7:
词错误率(WordErrorRate,wER)是一种基于编辑距离的评价文本识别准确率的指标。而在评价 文本,通常采用此错误率,该指标的定义为公式8:
EDITDIS(label,pred) WER= LENGTH(label) ×100%
EDITDIS(label,pred)表示标签label与预测的结果pred之间的编辑距离; LENGTH(label), 表示标签的字符数
DBJ 14-090-2012 城镇道路高模量沥青混合料设计与施工技术规范6.2.4不同场景下文本识别性能要求
、手写文字等场景下的文本识别性能要求应符合
智能字符识别系统的测试流程见图2
T/CESA 11992022
7.2 确定系统质量目标
图2智能字符识别测试流
应运用以下步骤确定智能字符识别系统的质量目标: a 场景分析:分析智能字符识别系统的应用场景、运行环境与使用流程,既要考虑系统正常使用 的情况,也要考虑可预见的异常情况; D) 风险分析:根据智能字符识别系统的不同应用场景,分析误识别与漏识别可能出现的风险,分 析针对字符识别系统可能产生的对抗攻击手段: C) 确定系统质量目标:根据系统的应用场景和风险,确定智能字符识别系统的质量目标,包括: 确定系统功能有效性、性能、兼容性、维护性、可移植性、训练数据集的质量、对抗样 本的影响、对应用场景数据的鲁棒性、可解释性、安全性的指标要求; 2石 确定测评指标评价的准则
在测试开始前,应根据不同场景制作测试数据集。采集数据要均衡,避免场景单一、学体单一、文 字信息单一GBT 39229-2020 肥料和土壤调理剂 砷、镉、铬、铅、汞含量的测定.pdf,尽量均衡覆盖常用汉字和各类字符。 测试场景及对应的测试数据集要求如下: a)印刷文字场景:测试数据集应包括但不限于卡证类、票据类、车牌类和文档类数据;每种类型 的测试数量应不少于200张;样本图片类型应包括不同拍摄角度、不同光线场景;样本字符应 包括中文简/繁体、生僻字、英文、特殊字符、多语言字符; b) 手写文字场景:测试数据集应包括作文类、试卷类、批注类数据;每种类型的测试数量应不少 于200张;样本图片类型应包括不同手写字体、不同版面类型、和不同拍摄光线及可能出现的 遮挡、涂改、污损等:样本字符应包括中文简/繁体、生字、英文、特殊字符、多语言字符:
c)其他文字场景:除了常规场景,也需要考虑一些数据增强场景。例如:加噪、图像压缩、旋转、 图像缩放等。该阶段需要完成数据集的采集,数据清洗,数据标注,标注结果校验的工作。保 证测试数据的完整、标注数据的准确性