基于中文OCR模型的智能图书识别系统

基于中文OCR模型的智能图书识别系统
作者:粟晨洪 李昕昕
来源:《电脑知识与技术》2021年第28期
        摘要:目前大多数图书馆的图书管理系统仍以人工处理方式为主,为方便普通图书用户的使用、简化工作流程、提高图书管理效率,提出一种基于中文OCR模型的智能图书识别系统,以PaddlePaddle中的OCR模型为基础,加以网络爬虫技术进行智能化的图书管理,通过理论和实践发现,该智能化系统能满足要求。
        关键词:图像识别;OCR模型;爬虫技术
        中图分类号:TP18 文献标识码:A
        文章编号:1009-3044(2021)28-0020-03
        开放科学(资源服务)标识码(OSID):<E:\2021知网文件\28-30\28\01xs202129\Image\image1.png>
        随着科技的进步,社会一步步地走向繁荣,在物质生活得到满足的今天,文化建设越来越受到重视[1]。图书馆作为人类探索知识的补给站,肩负着知识传承的重要责任,在城市文化建设中担任着不可或缺的角[2]。
        大多数的图书馆的图书管理主要以人工为主,过程冗余繁杂[3],融入一些智能化的技术既能在很大的程度上方便普通用户进行图书的查询、减少查询时间,又能实现图书的智能识别以及图书的即拍即查和即传即查[4]。基于中文OCR模型的智能图书识别系统在一定程度上能够实现这样的功能。
        1系统简介
        1.1 系统框架
        本文提出的图书管理系统是基于中文OCR模型的智能图书识别系统。该系统包含图像识别和图书信息爬取两大功能,具体功能结构图如图1系统功能图所示。
        1.2 系统功能介绍
        图片的上传:采取即时拍摄和直接输入图片[5]。考虑到当今信息科技的技术实力,直接输入图片不仅操作方便而且效果优于即时拍摄,因为伴随着时代与技术的飞跃发展,市面上用来扫描图片或视频以及处理图片效果和视频效果的App愈渐普及且技术越来越成熟,从而让图片和视频的质量得到了更大的保障,也因此提高了本次实验识别结果的准确度。
        图片文字的识别:直接使用PaddlePaddle高度完善的中文OCR模型进行识别。
        封面信息的分类:将使用模型后识别出的结果进行归类存放,比如作者名、书籍名、出版社等书籍封面信息。
        读取分类的信息:读取已经经过分类后的完整的模型识别结果信息。
        爬取对应的图书的信息:将读取到的结果信息作为使用爬虫技术爬取信息的依据,以此爬取对应的书籍在线上图书馆或线上书城以及其他购物网站中的更多详细信息,比如书籍的简介、书籍的线上价格等。
        返回图书的信息:将爬取到的相关图书的所有结果信息返回客户端,并将全部的结果输出显示在客户端上。
        1.3核心技术简介
        1.3.1 图像识别模型
        本文提到的基于中文OCR模型的智能图书识别系统所用到的图像识别模型为PaddlePaddle上已经高度完善的中文OCR模型,具体使用了模型中的“chinese_ocr_db_crnn_mobile”,该模型用于识别图片中的汉字,其基于[chinese_text_detection_db_mobile Module]检测得到的文本框,继续识别文本框中的中文文字,之后对检测文本框进行角度分类。最终识别文字算法采用CRNN(Convolutional Recurrent Neural Network)及卷積递归神经网络。其是DCNN和RNN的组合,专门用于识别图像中的序列式对象。与CTC loss配合使用,进行文字识别,可以直接从文本词级或行级的标注中学习,不需要详细的字符级的标注。该模型是一个超轻量级的中文OCR模型,可以支持直接预测。
        1.3.2 爬虫技术
        本文提到的基于中文OCR模型的智能图书识别系统所用到的爬虫技术的核心部分主要利用了requests库、xpath库、re库等数据挖掘中爬虫相关的技术模块,其中的requests库用于模拟浏览器的发送请求从而获取到服务器返回的数据,re库主要应用在字符串的匹配中,配合xpath库可用来查和解析通过requests请求后所得到的返回值并提取出其中需要被使用的数据,完成前面的两步操作后再将最终的数据结果保存到csv或txt等固定格式的文件中。
        2 设计思路及实现
        2.1 系统流程
        本文所提到的基于中文OCR模型的智能图书识别系统主要是利用图像的文字识别技术将上传的图片中的文字进行较为精准的识别,然后通过数据处理的方式对获取到的文字数据以“书名”“作者”“出版社”等固定格式进行分类与统计,最后以分类并统计好的结果作为数据基础,利用大数据的信息爬取技术获取到参与了文字识别过程后的图书的相关简介与价格等信息,最后以csv格式或txt格式等固定格式进行数据的存储。其总体流程如图2系统流程图所示。
        2.2 实现步骤
        2.2.1定义待预测数据双向触发二极管
        本文所提出的基于中文OCR模型的智能图书识别系统所需要的预测数据predict_data的内容主要为待预测的书籍的封面的图片、背面的图片、封面与背面的连接处的图片,以此方式制作的预测数据集能够在一定程度上提高识别结果信息的准确度与准确性。
        2.2.2图书信息识别
        本文所提到的基于中文OCR模型的智能图书识别系统进行图书信息识别的主要流程为:利用im_rec对定义完成的预测数据进行图像的文字识别,利用recognize_text()函数进行模型调参,利用本文所提到的中文OCR模型chinese_ocr_db_crnn_mobile提取图片中的文字并形成字典,对存放文字信息结果的字典进行筛选处理,提取得到分别包含书籍名字、作者等信息的列表,对列表再做处理得到最终的更为准确的图片信息。经过多次模拟实验训练,取得recognize_text()函数最终最优参数,设置为:box_thresh=0.5,text_thresh=0.2.在上述参数设置下的模型预测准确率可高达0.99877。部分源码如下所示:
缘114
        #处理图片识别结果
        positionX = []#存放识别到的每个红框的横坐标
        res = [] #存放处理好的结果
        infos = 0
        count = 0
        count_list = []#存放內容为字典类型,key为图片序号,value为识别到的红框数识别腕带
钢锭模        dict_list = []#存放临时字典
        n = 1
        for result in results:#results为中文OCR模型识别后的结果
        data = result['data']
        save_path = result['save_path']
        for info in data:
        count += 1
        print(info['text_box_position'])
        print(info['text'])
        #根据检测到的红框的大小判断书名
        #大小的判断基于红框左右定点之间的距离
        for i in info['text_box_position']:
        positionX.append(i[0])
        max = positionX[0]#最大横坐标
        min = positionX[0]#最小横坐标
        for i in range(len(positionX)):
        if(positionX[i]>=max):
        max = positionX[i]
        if(positionX[i]<=min):
井体        min = positionX[i]
        result = max – min
        #创建临时字典用于存放处理过的数据
        dict_res = {}.fromkeys(["info","result","text"])拼装家具

本文发布于:2024-09-24 11:24:04,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/125438.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图书   识别   信息   进行   模型   结果   图片   文字
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议