实际生产中OCR系统的设计

实际生产中OCR系统的设计
本课题研究了光学字符图像的计算机识别问题。字符根据书写方式的不同,分为印刷体字符和手写体字符。系统针对每种字符各自的特点,通过对字符的预处理,提取字符本身特征,然后运用特定的识别算法,实现了字符图像的自动识别。整个系统包括图像采集、图像预处理、特征提取与字符识别四个部分。
束腹带
对于印刷体字符,在对字符进行了图像预处理后,采用网格特征和交叉点特征相结合的方法作为其字符特征,建立字符标准特征库。
印刷体字符采用模板匹配算法实现了字符的识别,利用待识别字符与字符标准特征库相比较,把待识别字符识别为与其特征向量的欧氏距离最小的特征向量所代表的标准字符。
系统由android退出appNI公司的虚拟仪器软件LabVIEW及图像处理工具包背心袋IMAQ Vision Builder开发,实现了图像的采集、预处理、特征提取和字符识别等功能。该系统充分发挥了虚拟仪器的开发周期短,编程简便,代码复用率高,操作简单,界面友好,可靠性高等优点,节省了系统成本,
提高了效率。
关键词:字符识别,IMAQ Vision Builder虚拟仪器
OCR Systems Design In The Actual Production
ABSTRACT
In this paper the problem of computer recognition to the character image is studied.According to the style of writings,the characters are divided into two forms:printing characters and handwriting characters.Based on every characteristic of the two styles,system realizes the function of image pre-processing,characteristic extraction and character recognition.So the whole system is divided into four parts,image collection module,image pre-processing module,characteristic extraction module and character recognition module.
For the printing characters,first, the system completes the image processing and then extracts the combined characteristic of the net characteristic and the intersection charact
eristic.Basing on these a standard characteristic database of characters is established.The recognition arithmetic of printing character adopts template matching,which compares the character with the standard characteristic database and recognize the character as the nearest Euclid distance standard character in the standard characteristic database.
The software development adopts the NI Company's Virtual Instrument LabVIEW and IMAQ Vision Builder tool.The software realizes the function of image collection,image pre-process,character extraction and character recognition.It has the merit of short period of impoldering,convenient programming,high repeated using rate,easily operation,friendly interface,high reliability and so on.
Keywordscharacter recognition,IMAQ Vision Builder,Virtual Instrument

1. 引言
喷墨纸
1.1 研究的目的及意义
人类杜会己开始进入信息时代,信息产业的发展将对国家的发达和民族的兴旺产生重人的影响。因此,世界各国对信息产业的发展都给予了极火的关注和重视。人类社会的不断进步带来了信息空间的增长和积累,而计算机的出现为现代化信息处理提供了有效的手段。但是,在信息技术高速发展的同时,一个难题也摆在我们面前,那就是计算机数据处理和网络传输的高速度与数据输入的低速度之间的矛盾。目前,人类的许多信息是记录在纸上的文字图像。将这些信息输入计算机是非常繁琐而低效率的工作,这在一定的程度上减缓了社会信息化的进程。
许多文档是以纸质文档的形式存在,例如银行票据税务报表、标准化考试中的机读卡、人口普查表、彩标投注单、选票、定货单等。纸质文档不便于保存、检索、统计和修改,而将这些信息录入计算机是一件非常繁琐的事情。长期以来人们通过键盘手工输入,不但费时费力且容易出错。在实时性要求较高的场合石材背栓(如选举中的统计选票1自动、快速、准确地处理文档显得尤为重要。因此,这些文档进行计算机自动录入具有重要的现实意义。
光学字符识别技术(Optical Character Recognition,简称OCR),即通过扫描仪把印刷体或
手写体文稿扫描成图像,然后识别成相应的计算机可直接处理的字符。本技术涉及模式识别,图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。
1.2 字符识别研究现状
最早的文字识别始于50年代初期的欧美,1955年出现了印刷体数字OCR产品,此后转向手写体英文和数字的识别。对汉字识别研究最早的是美国IBM公司的CaseyNagy1966年他们发表了第一篇关于汉字识别的文章,用模板匹配法识别1000个印刷体汉字,从此在世界范围内拉开了汉字识别研究的序幕。而手写体汉字识别的研究最早始于70年代中期的日本。我国则在80年代初期开始进行手写体汉字识别的研究。目前进行手写体汉字识别研究的国家和地区主要集中在中国、日本、、美国和加拿大,实际应用水平最高的首推日本。日本早在70年代中期就开始进行汉字识别的研究,1981Fuji等展示了一个手写体日文汉字识别器模型,第一次打破了当时普遍存在手写体汉字识别困难的几乎不可实现的心理障碍,从而触发了在日本、中国以及世界范围内的手写体汉字识别研究热潮。日
本东芝,三洋电视、富士通等公司先后推出了一批汉字识别装置和系统,具有代表性的是1984年东芝制造的手写印刷体汉字识别实验装置OCR-V595可识别2200个汉字及其他符号;1986NTT综合通信实验室推出了手写体汉字识别实验装置,可识别J璐第一级汉字、英文字母、数字、平假名、片假名等3200个字符。经过20多年的努力,日本手写体汉字识别技术已达到世界先进水平。日本研究手写体字符识别的一个显著特点是软硬件齐头并进,专用设备和纸张无疑为整个研究提供了良好的工作环境。我国是在70年代开始进行邮政信函分检的数字识别研究,70年代末。一些大学和研究所开始从事印刷体汉字识别的研究工作,80年代初才开始进行手写体汉字识别的研究,1985年以后,有关手写体汉字识别研究的文章不断出现在期刊上。目前已有十多套系统通过鉴定。从纵向发展水平来看,我国手写体汉字识别研究一直处于平稳上升阶段,并逐步向实用化目标迈进。目前国内手写体汉字识别主要是进行识别方法的研究,而且把研究重点集中在方法实验和软件研制上,遗憾的是硬件专用设备的研制几乎是空白,这是国内手写体汉字识别研究的主要特点。
虽然印刷体字符的识别率很高,但由于受采样设备及分割等因素的影响,至今未能广泛的被应用,需要我们进一步提高算法的抗干扰性和稳定性.
字符识别已经历了将近50年的研究历程,在预处理、特征提取、匹配及后处理等各个环节产生了许多有价值的思想和方法。但是字符识别距离实际应用还有一定的距离,可谓任重而道远.尽管如此,我们可以看出引入新的工具对字符识别进行研究可以得到新的发展,如何引入一种新的数学工具准确地刻画人类识别物体的过程,提出更合理的识别算法是一个重要的课题。此外.字符识别是一个非常复杂的多模式识别问题,多年研究的实践表明,单一方法的效果是有限的,采用多方法的有机组合,使其优势互补,走多特征组合、多方案集成的道路.是字符识别的一个发展趋势。此外,字符识别的心理学研究对字符识别具有启发意义。路浩如等对人类汉字的认知心理实验研究结果进行总结后,认为入的汉字识别是经由整字属性及分层结构的多种途径复合而成的,其中多数都可以在字符机器识别中模仿应用。这方面的研究虽然刚起步,还没有一个实际系统来验证,但却是一个值得注意的新动向。
1.3 印刷体字符识别的关键
印刷体字符由于不存在变形,或者说变形不会像手写体数字那么大,所以识别起来相对容易一点。不过也不像想象中的那么简单。下面,我们先介绍一下印刷体字符的基本知识以及特征提取和识射的方法。
1.印刷体的字体
印刷体字符有很多种字体,而且新的字体还在不断地产生。不同字体的同一字符的结构约80%相同,其主要差异在于:
    (1)同字体的字符之间有较大的差异。
(2)笔划装饰及方向角度不同。
    (3)笔划长短、位置有变化。
    (4)笔划形态变化:如黑体笔划粗而平直,宽度一致;楷体笔划有较大曲率。
汽车报警系统2.印刷品质的高低
由于字符笔划的不同、纸张质量的高低以及印刷版面的影响,印刷体字符在品质上有高品质和低品质之分。印刷品质越高。正确识别率也越高,对于低品质的印刷体字符识别起来有一定的困难。

本文发布于:2024-09-22 07:11:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/265034.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议