基于深度学习的多模态图像语音解读方法和系统



1.本发明涉及一种图像语音解读方法和系统,尤其涉及一种基于深度学习的多模态图像语音解读方法和系统。


背景技术:



2.科技发展的目的是为了给人们带来方便,改善人们的生活,帮助人类不断的前进和发展。这也让我们越来越多的将科技发展的成果用在我们自己身上。2019年世界卫生组织发布的《世界视力报告》指出,全球至少有22亿人患有视力损伤或盲症;视力损伤还给全球造成了巨大的财政负担,仅未矫正近视和老花眼导致的视力损害,每年造成的全球生产力损失估计就分别高达2440亿美元和254亿美元。其中低收入国家、农村等地区往往负担更重,特别是老年人与妇女儿童。
[0003][0004]
现在已有的文字转语音及语音转文字系统在一定程度上改善了视觉障碍患者的信息获取方式。虽然屏幕读取可以帮助视觉障碍和盲人获取网站的信息,但并不是所有图片都附有标题和注释。同时,对于部分视觉受损严重的患者而言,他们没有能力提取文字信息,所以迫切需要以语音的方式来帮助他们获取图片上的信息。同时,通过图片中的内容转换成语音的形式,可以帮助他们在生活中了解身边的环境及出行的环境安全。


技术实现要素:



[0005]
本发明的目的就在于提供一种解决上述问题,结合计算机视觉领域与自然语言处理领域的多模态图像语音转换技术,能自动识别无文字图像中对象的存在或运动状态,同时能解读出图像中对象与对象之间的存在关系并能以接近于人的自然语音的形式进行语音播报的,基于深度学习的多模态图像语音解读方法和系统。
[0006]
为了实现上述目的,本发明采用的技术方案是这样的:一种基于深度学习的多模态图像语音解读方法,包括以下步骤;(1)搭建图像描述神经网络并训练得到图像描述神经网络模型,包括步骤(11)-(14);(11)构建数据集;在不同场景下进行随机采集多张图片并预处理,得到样本图像,将样本图像由5人分别用1句话描述图片内容,所述图片内容包括主要对象的类别、主要对象运动状态,对象的类别、和/或主要对象与对象的关系;(12)将样本图像对应5句话作为其标签,得到训练样本,将所有训练样本存入数据库,得到训练数据集;(13)构建图像描述神经网络,所述图像描述神经网络模型采用encoder-decoder结构,其中encoder部分采用cnn来提取训练样本的图像特征,decoder部分采用lstm将5句话训练成1段文字序列,所述文字序列包含所有图片内容;
(14)依次将训练样本送入图像描述神经网络,输出训练样本对应的1段文字序列,直到文字序列与图片内容匹配,得到训练好的图像描述神经网络模型;(2)搭建语音转换神经网络,将(13)输出的文字序列输入到该网络中训练,以该文字序列对应的语音音频为期望输出,得到训练好的语音转换神经网络模型;(3)获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。
[0007]
作为优选:还包括步骤(4),将步骤(3)得到的文字序列和语音音频反馈给用户。
[0008]
作为优选:步骤(11)中预处理为:先将图像使用双三次插值法进行缩放,缩放尺寸统一为224
×
224;再用高斯滤波去除高斯白噪声;最后将图像的rgb三通道进行归一化操作。
[0009]
作为优选:所述步骤(12)中,将所有训练样本存入数据库,具体为:按场景将数据库分为与场景一一对应的数个部分,每个部分分别存储一个场景的图像数据。
[0010]
作为优选:所述步骤(13)中,将5句话训练成1段文字序列具体为:对每句话,分别将其中的每个字按在语料库中的位置进行过编码,得到5段编码;对每句话,统计其每个字出现的位置;通过lstm预测每个字出现的顺序和概率,重新生成一段文字序列。
[0011]
作为优选:所述encoder部分中的cnn中的激活函数采用mish激活函数。
[0012]
作为优选:所述语音转换神经网络采用tacotron2模型,包括声谱预测网络和声码器;所述声谱预测网络用于将文字序列中每个字转化为对应的词向量,再将词向量预测成对应的mel频谱图;所述声码器应用于将mel频谱图作为输入,mel频谱图对应的音频时域波形作为期望输出,进行频域和时域上的信号转换,得到语音音频。
[0013]
一种基于深度学习的多模态图像语音解读系统,包括图像采集单元、图像描述神经网络模型和语音转换神经网络模型;所述图像采集单元用于使用者在随机时间随机地点下任意捕捉一张图片作为待语音解读的图像;所述图像描述神经网络模型用于将待语音解读的图像翻译成文字序列,所述语音转换神经网络模型用于输入文字序列,输出与文字序列对应的语音音频。
[0014]
作为优选:还包括结果展示模块;所述结果展示模块用于将输出的文字序列和语音音频反馈给用户。
[0015]
与现有技术相比,本发明的优点在于:(1)本发明将计算机视觉与自然语言处理领域相结合,在对图像自动经图像描述神经网络模型生成有关图像描述的文字序列的基础上,增加了语音转换神经网络模型,将文字序列转换成语音音频,可应用在公益、教育和娱乐等多个领域。
[0016]
(2)encoder部分中cnn采用mish激活函数代替现有技术中使用的relu激活函数。mish激活函数对于relu激活函数而言,它在靠近0值的负值区域其梯度非零,在进行梯度下降时负值也能通过神经元,并且mish函数具有更好的平滑性,这允许有更多的信息深入神
经网络,整体上提高了识别的准确率和泛化性。decoder部分采用lstm网络代替传统的rnn网络,解决了文本预测过程中存在的长期依赖问题;所述lstm网络为长短期记忆网络,所述rnn网络为循环神经网络。
[0017]
(3)由于语音转换神经网络采用tacotron2模型,tacotron2模型使用了基于位置敏感的attention机制,基于内容的attention机制对于相似的元素预测的得分相近,但是相似的元素在位置上相聚可能较远。而基于位置敏感的attention机制既考虑了内容信息又考虑了位置信息,对长输入有更强的鲁棒性。
[0018]
(4)本发明使用的tacotron2模型,是在帧级别合成语音,其传输速度远快于样本自适应级别。语音信号从整体上来看,表示语音的特征参数是随时间不断变化的,所以将一段语音分成若干小段来分别处理,每小段的语音特征相对较稳定。每一小段就称为一帧。tacotron2处理音频信号时将语音信号划分成若干帧,分别对每帧进行傅立叶变换操作来转换语音信号。而样本自适应是通过调整与说话人特征相关的参数如均值、方差、权重来学习语音特征。所以本发明的传输速度远快于样本自适应级别,合成的语音效果十分接近人类的自然语音。相比以往的模型,该模型的结构更加简单,减少了参数量,这也使模型在运行速度上更快。
[0019]
(5)本发明具有数据库实时更新功能,可将用户端识别准确度低的图片传入服务器端处理后存入数据库,当新存入的数据量达到一定阈值可重新训练模型,不断提高模型的识别准确率。
[0020]
(6)本发明结合手机app使用,用户直接通过app以随手拍照的方式自动进行图像识别并实现语音输出,简单方便。
[0021]
本发明能在更短的时间完成图像向语音的转换,并且以更高的准确率实现对图像的解读。
附图说明
[0022]
图1为发明的系统结构图;图2为本发明流程图;图3为图像描述神经网络结构图;图4为具体一个样本图像。
具体实施方式
[0023]
下面将结合附图对本发明作进一步说明。
[0024]
实施例1:参见图1到图4,一种基于深度学习的多模态图像语音解读方法,包括以下步骤;(1)搭建图像描述神经网络并训练得到图像描述神经网络模型,包括步骤(11)-(14);(11)构建数据集;在不同场景下进行随机采集多张图片并预处理,得到样本图像,将样本图像由5人分别用1句话描述图片内容,所述图片内容包括主要对象的类别、主要对象运动状态,对象的类别、和/或主要对象与对象的关系;
(12)将样本图像对应5句话作为其标签,得到训练样本,将所有训练样本存入数据库,得到训练数据集;(13)构建图像描述神经网络,所述图像描述神经网络模型采用encoder-decoder结构,其中encoder部分采用cnn来提取训练样本的图像特征,decoder部分采用lstm将5句话训练成1段文字序列,所述文字序列包含所有图片内容;(14)依次将训练样本送入图像描述神经网络,输出训练样本对应的1段文字序列,直到文字序列与图片内容匹配,得到训练好的图像描述神经网络模型;(2)搭建语音转换神经网络,将(13)输出的文字序列输入到该网络中训练,以该文字序列对应的语音音频为期望输出,得到训练好的语音转换神经网络模型;(3)获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。
[0025]
本实施例中:步骤(11)中预处理为:先将图像使用双三次插值法进行缩放,缩放尺寸统一为224
×
224;再用高斯滤波去除高斯白噪声;最后将图像的rgb三通道进行归一化操作。
[0026]
所述步骤(12)中,将所有训练样本存入数据库,具体为:按场景将数据库分为与场景一一对应的数个部分,每个部分分别存储一个场景的图像数据。
[0027]
所述步骤(13)中,将5句话训练成1段文字序列具体为:对每句话,分别将其中的每个字按在语料库中的位置进行过编码,得到5段编码,对每句话,统计其每个字出现的位置,通过lstm预测每个字出现的顺序和概率,重新生成一段文字序列。
[0028]
所述encoder部分中的cnn中的激活函数采用mish激活函数。
[0029]
所述语音转换神经网络采用tacotron2模型,包括声谱预测网络和声码器,所述声谱预测网络用于将文字序列中每个字转化为对应的词向量,再将词向量预测成对应的mel频谱图,所述声码器应用于将mel频谱图作为输入,mel频谱图对应的音频时域波形作为期望输出,进行频域和时域上的信号转换,得到语音音频。
[0030]
一种基于深度学习的多模态图像语音解读系统,包括图像采集单元、图像描述神经网络模型和语音转换神经网络模型;所述图像采集单元用于使用者在随机时间随机地点下任意捕捉一张图片作为待语音解读的图像;所述图像描述神经网络模型用于将待语音解读的图像翻译成文字序列,所述语音转换神经网络模型用于输入文字序列,输出与文字序列对应的语音音频。
[0031]
实施例2:参见图1-图4,在实施例1的基础上:基于深度学习的多模态图像语音解读方法还包括步骤(4),将步骤(3)得到的文字序列和语音音频反馈给用户。
[0032]
基于深度学习的多模态图像语音解读系统还包括结果展示模块,所述结果展示模块用于将输出的文字序列和语音音频反馈给用户。
[0033]
为了更好的说明本发明的方法,以下给出一种将五句话翻译成文字序列的方法:比如一个图像样本参见图4,该样本图像中为月季花的照片,5个人的描述分别为:
第一句:这里有很多花。
[0034]
第二句:这里长了一些月季花。
[0035]
第三句:草坪上的月季花开得很旺盛。
[0036]
第四句:这里的月季花的颜有深有浅。
[0037]
第五句:在树的旁边长了几簇月季花。
[0038]
这五句话中的每个字,都按同一个语料库中字的位置进行过编码。语料库有很多,本发明可采用现有语料库,也可以自制语料库。第一句话的编码方法如下:假设第一句中,“这里有很多花”,这几个字在语料库中的位置分别为245679那编码结果就是245679,同理,得到其余四句话的编码。
[0039]
对第一句话,统计每个字出现的位置,例如,第一句话中,每个字对应有一个id,“这”对应id为1,“花”对应id为6,用这个来记录这句话中每个字的相对顺序;第二句到第四句依次处理,均得到每句话中,每个字的相对顺序。然后送进神经网络中训练。在训练的过程中是学习特征信息的过程不表现输出一句话。在预测的过程中,根据学到的信息来输出一句话。
[0040]
输出一句话主要依靠lstm的记忆功能来预测。lstm预测单词任务需要根据前面的单词去预测下一个单词。
[0041]
当我们预测图4内容时,lstm神经网络检测到图4中有月季花的特征,有草的特征,根据之前神经网络训练好的信息来预测输出的一句话。
[0042]
根据lstm的记忆功能,“月季花”跟“长了一些”、“草坪上的”、“开得很旺盛”、“颜有深有浅、“长了几簇”等词汇有关系。
[0043]
在“月季花”词汇前有关的信息为:“长了一些”、“草坪上的”、“这里的”、“长了几簇”。根据概率计算“长了一些”和“长了几簇”出现概率较大,故“月季花”前预测词汇为“长了一些”或“长了几簇”。同理,在“月季花”词汇后有关的信息为:“开得很旺盛”、“颜有深有浅”。所以预测出来的词汇为“开得很旺盛”或“颜有深有浅”。
[0044]
若检测到的物体与多个词汇相关,具体为哪一个词汇,训练时输入的图片越多,描述越多,计算得到的概率分布越明显,预测的词汇更准确。
[0045]
所以最终预测结果为:草坪上的长了一些月季花开得很旺盛。
[0046]
基于上述方法和系统,我们具体采用以下开发平台硬件实现环境:处理器为intel(r) core(tm) i7-3770 cpu、显卡为nvidia geforce gtx 1060 6gb、内存为8.00gb ram;运行实现环境:操作系统选用ubuntu 16.04、编程软件选择python3.6、配置选择cuda8.0和cudnn6.0;深度学习框架选用facebook开源的动态神经网络框架pytorch。采用mysql数据库存储图像与图像标注、音频与文本序列数据集,同时结合app客户端用于结果显示(1)关于训练样本:在不同场景下进行随机采样,将采集到的图片进行预处理。先将采集到的图像使用双三次插值法进行缩放,缩放尺寸统一为224
×
224;然后将缩放后的图像使用高斯滤波去除高斯白噪声;最后将图像的rgb三通道进行归一化操作。每副图片用不同的人分别以1句话的形式描述图片的内容,即对图像进行标注,一共生成5句对图像的描述。将标注后的图片作为训练样本。
[0047]
(2)关于图像描述神经网络:主要实现将包含复杂环境的图片通过网络学习训练
实现对图片中存在的主要对象及对象与对象之间关系的解读,最终以文字的形式呈现。该神经网络采用encoder-decoder结构,其中encoder部分采用cnn来提取图片的图像特征 decoder部分采用lstm将图像特征翻译成文字序列。设计时:encoder部分的cnn使用resent152神经网络结构,该神经网络结构较深,不仅能学习到如图像的边缘、线条和角等层级的低级特征,还能不断的从低级特征中迭代的学习到图像的高级特征。最终将图像编码成固定长度的向量表示。残差网络将部分原始信息不经过矩阵和非线性计算直接传输到下一层,在一定程度上保护了信息的完整性,减轻深层网络的训练难度。使用resent152进行特征的提取在比较复杂的图像上也有着不错的表现,更能满足本发明的设计要求。在resnet152网络结构进行图像特征提取后对得到的特征向量进行归一化处理,将特征向量数值归一化到0,1之间,加快了学习速度。
[0048]
decoder部分使用word embedding和lstm神经网络结构,将特征向量解码成自然语言描述。采用词嵌入的方法将图像的描述语言转换成数字向量作为lstm的输入。lstm采用遗忘门、输入门和输出门结构。遗忘门表达式如下:)以上一步的输出和现在时刻的输入共同作为输入,通过sigmoid层实现对上一状态的选择性遗忘。其中和分别表示权重矩阵和偏置。输入门的表达式如下:输入门决定在该单元状态记录的信息,将该单元的更新值和候选值相结合更新当前单元状态。输出门的表达式:输出门真正实现了移除哪些旧的信息,增加哪些新的信息。
[0049]
lstm使用三个门的结构实现了对相隔较远的信息进行了记忆功能,达到了对上下文信息的学习从而对输出进行合理的预测。本发明lstm对特征向量及embedding向量进行学习实现对图片描述的预测得到一组概率值p。本发明具体使用了一个lstm 层。
[0050]
代价函数使用交叉熵损失函数,预测的输出值与真实值越接近,损失值就越小。优化器选用adam,对梯度的一阶矩和二阶矩估计进行综合考虑,计算出更新步长。在搭建的平台上初始化网络参数,设置合适的学习率和epoch数,当预测准确率达到最大,loss值最小时完成训练并在测试集上进行模型的测试。
[0051]
关于语音转换神经网络:声谱预测过程分为编码过程和解码过程,是将文本转换成语音的重要部分。在进行预测之前,对文本数据和语音信号进行了预处理。对于文本数据的预处理方法为:通过word embedding将文本数据转换成数字向量,这样便可以对文本信息进行特征提取。对于
音频信号的预处理的方法为:先将音频按帧进行采样,然后对采样信号进行傅立叶变换再对每一帧用滤波器进行滤波处理得到mel谱。这样处理的原因是mel谱图是音频信号更低级、更简单的声学特征表示。
[0052]
关于结果显示:结合django后台与app开发技术进行手机客户端搭建,实现客户端拍摄欲识别图片,通过后台将图片传送至训练好的模型中识别,将获取的输出结果传送至客户端。在客户端的界面可看到对图片的文字描述,同时能听到相关描述的语音播报。若出现输出结果错误或准确度较低的情况,用户可通过界面的反馈选项将识别结果反馈至后台管理人员。经管理人员确认,将该图片通过预处理网络处理后存入数据库,进行数据库和模型的实时更新。
[0053]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种基于深度学习的多模态图像语音解读方法,其特征在于:包括以下步骤;(1)搭建图像描述神经网络并训练得到图像描述神经网络模型,包括步骤(11)-(14);(11)构建数据集;在不同场景下进行随机采集多张图片并预处理,得到样本图像,将样本图像由5人分别用1句话描述图片内容,所述图片内容包括主要对象的类别、主要对象运动状态,对象的类别、和/或主要对象与对象的关系;(12)将样本图像对应5句话作为其标签,得到训练样本,将所有训练样本存入数据库,得到训练数据集;(13)构建图像描述神经网络,所述图像描述神经网络模型采用encoder-decoder结构,其中encoder部分采用cnn来提取训练样本的图像特征,decoder部分采用lstm将5句话训练成1段文字序列,所述文字序列包含所有图片内容;(14)依次将训练样本送入图像描述神经网络,输出训练样本对应的1段文字序列,直到文字序列与图片内容匹配,得到训练好的图像描述神经网络模型;(2)搭建语音转换神经网络,将(13)输出的文字序列输入到该网络中训练,以该文字序列对应的语音音频为期望输出,得到训练好的语音转换神经网络模型;(3)获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。2.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:还包括步骤(4),将步骤(3)得到的文字序列和语音音频反馈给用户。3.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:步骤(11)中预处理为:先将图像使用双三次插值法进行缩放,缩放尺寸统一为224
×
224;再用高斯滤波去除高斯白噪声;最后将图像的rgb三通道进行归一化操作。4.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:所述步骤(12)中,将所有训练样本存入数据库,具体为:按场景将数据库分为与场景一一对应的数个部分,每个部分分别存储一个场景的图像数据。5.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:所述步骤(13)中,将5句话训练成1段文字序列具体为:对每句话,分别将其中的每个字按在语料库中的位置进行过编码,得到5段编码;对每句话,统计其每个字出现的位置;通过lstm预测每个字出现的顺序和概率,重新生成一段文字序列。6.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:所述encoder部分中的cnn中的激活函数采用mish激活函数。7.根据权利要求1所述的基于深度学习的多模态图像语音解读方法,其特征在于:所述语音转换神经网络采用tacotron2模型,包括声谱预测网络和声码器;所述声谱预测网络用于将文字序列中每个字转化为对应的词向量,再将词向量预测成对应的mel频谱图;所述声码器应用于将mel频谱图作为输入,mel频谱图对应的音频时域波形作为期望输出,进行频域和时域上的信号转换,得到语音音频。8.一种基于深度学习的多模态图像语音解读系统,其特征在于:包括图像采集单元、图
像描述神经网络模型和语音转换神经网络模型;所述图像采集单元用于使用者在随机时间随机地点下任意捕捉一张图片作为待语音解读的图像;所述图像描述神经网络模型用于将待语音解读的图像翻译成文字序列,所述语音转换神经网络模型用于输入文字序列,输出与文字序列对应的语音音频。9.根据权利要求8所述的基于深度学习的多模态图像语音解读系统,其特征在于:还包括结果展示模块;所述结果展示模块用于将输出的文字序列和语音音频反馈给用户。

技术总结


本发明公开了一种基于深度学习的多模态图像语音解读方法和系统,该方法包括搭建图像描述神经网络并训练得到图像描述神经网络模型;搭建语音转换神经网络并训练得到语音转换神经网络模型;获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。本发明用于实现对无文字图片内容的理解并用语音的方式对图片中存在的对象及多个对象之间的关系、行为进行解读。有助于视觉障碍者对身边环境的实时了解,有助于该类人的日常生活。同时,上述方案可以应用于幼儿教育,在小孩学习身边事物的过程中起辅助作用,也可应用于娱乐场所,应用范围广,具有很高的实际使用价值。价值。价值。


技术研发人员:

王丽 汤影 缪昊洋

受保护的技术使用者:

成都理工大学

技术研发日:

2022.07.04

技术公布日:

2022/11/1

本文发布于:2024-09-24 13:22:45,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/18250.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   神经网络   语音   序列
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议