基于注意力机制的脉冲神经网络多模态唇读方法及系统



1.本发明涉及唇读(视觉语言识别)技术,具体涉及一种基于注意力机制的脉冲神经网络多模态唇读方法及系统。


背景技术:



2.视觉语言识别又称为唇读,是指根据说话者的嘴唇运动的视觉信息解码出其所说文本内容的任务。主要是对说话人的唇部、牙齿、舌头进行分析,来识别到讲话者所表达信息的方法。唇语识别不仅涉及计算机视觉,也涉及自然语言处理领域。也可以与语音识别融合起来,开展多模态融合任务。人机交互本质上是一个多模态融合的过程。人与人之间的交流不仅体现在声音上,还包括观察口型、身体姿势、动作等。将这种不同的信息整合到大脑中可以实现有效的沟通。因此,唇读被扩展到视听语音识别问题,它结合视觉和音频信息来获得对象的高维表示。
3.随着深度学习的兴起,给计算机视觉、语音识别和自然语言处理领域的诸多问题都带来突破性的进展。唇语识别也因此受益,吸引了更多研究者的关注,出现了一些基于深度学习的唇读新方法,唇读问题也取得较大的进展,并且出现了很多新的研究和应用,但代价是计算量大。虽然部分技术还未达到实际应用需求,但其识别能力远超人类唇读专家,充分表明自动唇读方法研究的重要性。近年来,新兴的以模仿的方式实现类脑智能的神经形态计算备受关注。类脑计算使用生物大脑使用的脉冲神经网络以异步和事件驱动的方式工作,更适合处理非结构化数据,例如多感官和跨模态。更重要的是,脉冲神经网络可以部署在神经形态处理器上,实现智能计算的边缘化。这使得将视听语音识别系统转移到边缘设备(例如具有唇读能力的智能眼镜等)成为可能。
4.下文将对本文中涉及的部分术语进行说明:脉冲神经网络(spiking neural network, snn)是受脑科学启发的第三代人工神经网络,由生物神经元模型组成。snn使用脉冲信号,发生在时间点上的一系列离散信号,而并非连续值。每个神经元都能发射和接受spike,当神经元达到了某一电位,脉冲就会出现,信号从而被传递到下一个神经元,同时该神经元也会被电位重置。神经元由突触连接。脉冲神经网络因为其事件驱动特性和独有的网络训练方式所带来的低功耗、脉冲化数据通信的稀疏性和扩展性,使其天然适配神经形态器件所产生的事件数据。满足了后端算法处理同前端数据获取过程保持高效性。目前广泛应用于模式识别、图像识别等领域中。
5.液体状态机(lsm)作为一种主要的水库计算类型,由于其训练成本低而在snn 中得到广泛认可。液体状态机(lsm)主要由三部分组成:输入层、液体层和读出层,其核心是液体层。输入层神经元稀疏地连接到液体层中的神经元,具体取决于它们的应用。液体层将输入流转换为更高维度的非线性模式,充当过滤器。然后由读出层分析和解释液态,读出层由无记忆的人工神经元或尖峰神经元组成。只需训练读出层和液体层之间的连接,并固定储层突触以缓解训练挑战。对于给定的输入脉冲序列,液体在时间t的状态xm(t)可表示为:xm(t)=lm(i(s)),
上式中,i(s)代表从0-t所输入的输入尖峰序列,lm代表液体层神经元对输入尖峰序列i(s)的响应。
6.每个输入都会在液体层中产生一个响应,液体层的这种响应称为液体状态。读出层可以被视为将这种液态转换为特征向量的函数。因此,输出特征向量y(t)可以写成关于液态xm(t)的函数如下式所示:y(t)=fm(xm(t)),上式中,y(t)表示关系函数。
7.动态视觉传感器(dvs)是一种神经形态传感器。它使用事件驱动的方法记录场景中不断变化的对象。当真实场景中的物体发生变化时,dvs会产生一系列像素级的事件输出。每个事件表示为(x, y, t, p),其中(x, y)是事件的像素坐标,t 是事件的时间戳,表示事件发生的时间。p 是事件的极性,表示像素比之前更亮或更暗。dvs 生成的这种数据流自然适合脉冲神经网络处理。与传统相机以固定速率输出每一帧画面相比,dvs 相机更适合于获取运动目标信息。此外,rebecq等人在最近的一项研究中提出,软件模拟器可以通过模仿dvs 原理,将传统相机捕获的数据转换成这个事件数据流。


技术实现要素:



8.本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于注意力机制的脉冲神经网络多模态唇读方法及系统,本发明通过使用液体状态机构建了单模态特征编码器,并提出了一种软融合方法对视觉图像特征和音频特征进行重新加权,以实现多模态的高效融合,能够实现多模态唇读数据的高效、准确的分类识别,且在嘈杂条件下具有良好的鲁棒性。
9.为了解决上述技术问题,本发明采用的技术方案为:一种基于注意力机制的脉冲神经网络多模态唇读方法,包括:s1,获取多种模态下的唇读事件数据;s2,使用液体状态机分别提取不同模态下事件数据的语义特征向量;s3,将所有的语义特征向量采用基于注意力机制的软融合以得到融合特征向量;s4,将融合特征向量送入预先训练好的分类器获得分类识别结果。
10.可选地,步骤s1中多种模态下的唇读事件数据包括视觉和音频两种模态下的唇读事件数据。
11.可选地,步骤s2中使用液体状态机分别提取不同模态下事件数据的语义特征包括:使用液体状态机将各个模态的特征编码器将对应模态的事件数据编码为到液体状态机的液体层中显示为液体状态;使用时间窗口分割采样技术来读出液体状态作为对应模态下事件数据的语义特征向量。
12.可选地,步骤s2中使用的液体状态机在液体层的神经元包含兴奋性神经元和抑制性神经元共两种类型的神经元,兴奋性神经元和抑制性神经元均采用泄漏的整合和激发神经元lif,且泄漏的整合和激发神经元lif的动力学方程为:,上式中,τm表示时间常数,v表示泄漏的整合和激发神经元lif的膜电位,i
ext
表示
输入电流,r表示膜电阻,t表示时间。
13.可选地,步骤s2中使用液体状态机分别提取不同模态的事件数据的语义特征时,视觉数据模态下采用的特征编码器包含1000个神经元,且形成了一个具有10
×
10
×
10立方结构的神经元模型,且视觉数据模态下采用的特征编码器的函数表达式为:v
lip
=f
vision (xv),上式中,v
lip
表示视觉数据模态下事件数据的语义特征向量,f
vision
表示视觉数据模态下采用的特征编码器,xv为视觉数据模态下的事件数据。
14.可选地,步骤s2中使用液体状态机分别提取不同模态的事件数据的语义特征时,音频数据模态下采用的特征编码器采用512 个尖峰神经元形成了一个具有8
×8×
8立方结构的神经元模型,且音频数据模态下采用的特征编码器的函数表达式为:a
lip
=f
audio (xa),上式中,a
lip
表示音频数据模态下事件数据的语义特征向量,f
audio
表示音频数据模态下采用的特征编码器,xa为视觉数据模态下的事件数据,且视觉数据模态下的事件数据xa为基于音频数据提取的梅尔频率倒谱系数特征。
15.可选地,步骤s3中采用基于注意力机制的软融合以得到融合特征向量的函数表达式为:g
soft
(v
lip
;a
lip
)=s
v,a

[v
lip
;a
lip
],上式中,g
soft
(v
lip
;a
lip
)表示融合特征向量,v
lip
表示视觉数据模态下事件数据的语义特征向量,a
lip
表示音频数据模态下事件数据的语义特征向量,s
v,a
为用于表示来对单通道提取的高级特征进行适当选择来生成融合特征向量的掩码表示,

表示相乘,[v
lip
;a
lip
]表示将v
lip
和a
lip
拼接,其中掩码表示s
v,a
的计算函数表达式为:s
v,a
=sigmoid
v,a
([v
lip
;a
lip
]),上式中,sigmoid
v,a
表示sigmoid函数。
[0016]
可选地,步骤s4中预先训练好的分类器包括依次相连的三层全连接层和一个softmax激活函数层,分类器的函数表达式为:p(yi|ri)=softmax(fc(ri)),上式中,p(yi|ri)表示针对第i个融合特征向量ri分类识别为结果yi的概率,yi表示分类识别得到的结果,ri表示输入分类器的第i个融合特征向量,softmax表示softmax激活函数,fc(ri)表示第i个融合特征向量ri经三层全连接层处理的结果。
[0017]
此外,本发明还提供一种基于注意力机制的脉冲神经网络多模态唇读系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述基于注意力机制的脉冲神经网络多模态唇读方法的步骤。
[0018]
此外,本发明还提供一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述基于注意力机制的脉冲神经网络多模态唇读方法的步骤。
[0019]
和现有技术相比,本发明主要具有下述优点:本发明基于注意力机制的脉冲神经网络多模态唇读方法包括获取多种模态下的唇读事件数据;使用液体状态机分别提取不同模态下事件数据的语义特征向量;将所有的语义特征向量采用基于注意力机制的软融合以得到融合特征向量;将融合特征向量送入预先训练好的分类器获得分类识别结果。本发明
通过使用液体状态机构建了单模态特征编码器,并提出了一种软融合方法对视觉图像特征和音频特征进行重新加权,以实现多模态的高效融合,能够实现多模态唇读数据的高效、准确的分类识别,且在嘈杂条件下具有良好的鲁棒性。
附图说明
[0020]
图1为本发明实施例方法的基本流程示意图。
[0021]
图2为本发明实施例方法的原理示意图。
[0022]
图3为本发明实施例获取融合特征向量的原理示意图。
[0023]
图4为本发明实施例不同噪声环境下的实验结果。
具体实施方式
[0024]
如图1所示,本实施例基于注意力机制的脉冲神经网络多模态唇读方法包括:s1,获取多种模态下的唇读事件数据;s2,使用液体状态机分别提取不同模态下事件数据的语义特征向量;s3,将所有的语义特征向量采用基于注意力机制的软融合以得到融合特征向量;s4,将融合特征向量送入预先训练好的分类器获得分类识别结果。
[0025]
参见图2,作为一种可选的实施方式,本实施例步骤s1中多种模态下的唇读事件数据包括视觉和音频两种模态下的唇读事件数据,此外还可以根据视觉数据和音频数据中进一步挖掘出更多模态的唇读事件信息,例如唇部特征点的运动模态等。
[0026]
脉冲神经网络与人工神经网络的不同之处在于脉冲神经网络的输入需要用脉冲编码,因此步骤s1最终需要获得脉冲编码形式的事件数据以便于液体状态机处理,从而实现对脉冲神经网络的输入兼容。多种模态下的唇读事件数据既可以相同,也可以根据采用不同的处理方式。例如,针对视觉模态下的唇读事件数据,可采用将唇读的图像帧转换为脉冲序列形式的事件数据,也可以采用dvs 相机直接得到脉冲序列形式的事件数据。而针对音频模态下的唇读事件数据,一般为将唇读的音频帧转换为脉冲序列形式的事件数据。需要说明的是,将唇读的图像帧/音频帧转换为脉冲序列形式的事件数据为现有方法,其基本原理是通过提取泊松分布的方式实现。例如针对视觉数据,根据图像中的像素值生成泊松分布作为脉冲序列形式的事件数据,针对音频数据,根据原始音频数据或音频数据中梅尔频率倒谱系数生成泊松分布作为脉冲序列形式的事件数据。
[0027]
参见图2,本实施例步骤s2中使用液体状态机分别提取不同模态下事件数据的语义特征包括:使用液体状态机(lsm)将各个模态的特征编码器将对应模态的事件数据编码为到液体状态机的液体层中显示为液体状态;使用时间窗口分割采样技术来读出液体状态作为对应模态下事件数据的语义特征向量。
[0028]
本实施例中,步骤s2中使用的液体状态机在液体层的神经元包含兴奋性神经元和抑制性神经元共两种类型的神经元,兴奋性神经元和抑制性神经元均采用泄漏的整合和激发神经元lif,且泄漏的整合和激发神经元lif的动力学方程为:,上式中,τm表示时间常数,v表示泄漏的整合和激发神经元lif的膜电位,i
ext
表示
输入电流,r表示膜电阻,t表示时间。其中膜电位v表示通过传入电流i
ext
随时间累积的电荷。膜电位泄漏与时间常数τm成正比。作为一种可选的实施方式,本实施例中使用的液体状态机在液体层的神经元包含兴奋性神经元和抑制性神经元共两种类型的神经元,且具体包含80%的兴奋性神经元和20%的抑制性神经元。
[0029]
参见图2,本实施例中各个模态的特征编码器中,视觉数据模态下的特征编码器简称为视觉特征编码器f
vision
,通过视觉编码器获得的特征简称为视觉特征(视觉数据模态下事件数据的语义特征向量),音频数据模态下的特征编码器简称为音频特征编码器f
audio
,通过音频编码器获得的特征简称为音频特征(音频数据模态下事件数据的语义特征向量)。
[0030]
本实施例中,步骤s2中使用液体状态机分别提取不同模态的事件数据的语义特征时,视觉数据模态下采用的特征编码器(即:视觉特征编码器f
vision
)包含1000个神经元,且形成了一个具有10
×
10
×
10立方结构的神经元模型,这种结构简化了液体状态机的空间复杂度,且视觉数据模态下采用的特征编码器的函数表达式为:v
lip
=f
vision
(xv),上式中,v
lip
表示视觉数据模态下事件数据的语义特征向量,f
vision
表示视觉数据模态下采用的特征编码器,xv为视觉数据模态下的事件数据。从视觉图像信息转换而来的视觉数据模态下的事件数据xv被输入到视觉特征编码器f
vision
中,视觉特征编码器f
vision
通过液体状态机(lsm)将每个样本编码为液体状态。最后,液体状态被读出层转换为特征向量,使用这个特征作为视觉特征(视觉数据模态下事件数据的语义特征向量v
lip
)。
[0031]
语音信号的处理复杂度低于视觉信号。因此,对于音频特征编码器f
audio
,本文使用较少数量的神经元来构建lsm 模型。本实施例中,步骤s2中使用液体状态机分别提取不同模态的事件数据的语义特征时,音频数据模态下采用的特征编码器(即:音频特征编码器f
audio
)采用512 个尖峰神经元形成了一个具有8
×8×
8立方结构的神经元模型,这种结构简化了模型的空间复杂度,且音频数据模态下采用的特征编码器的函数表达式为:a
lip
=f
audio
(xa),上式中,a
lip
表示音频数据模态下事件数据的语义特征向量,f
audio
表示音频数据模态下采用的特征编码器,xa为视觉数据模态下的事件数据,且视觉数据模态下的事件数据xa为基于音频数据提取的梅尔频率倒谱系数特征。最终得到的音频数据模态下事件数据的语义特征向量a
lip
即为图2中所示的音频特征。
[0032]
不同模态之间存在一些冗余和互补的信息,因此需要一个融合函数来有效地融合不同的信息,以获得更丰富的特征表达。针对视觉特征和音频特征的融合可采用多模态融合函数g来表示,它结合来自视觉通道的v
lip
和音频通道的a
lip
以生成更多后续分类识别任务的有效特征,可形式化表示为:r
i =g(v
lip
;a
lip
)且其中,ri为融合特征向量,g为多模态融合函数。受自然语言处理领域注意力机制的启发,本文提出了一种基于注意力机制的软融合的多模态融合函数g
soft
,如图3所示,在这种方法中,利用视觉特征和音频特征来生成掩码(s_mask),生成的掩码(s_mask)被用来重新加权视觉和音频特征。具体地,本实施例步骤s3中采用基于注意力机制的软融合以得到融合特征向量的函数表达式为:g
soft
(v
lip
;a
lip
)=s
v,a

[v
lip
;a
lip
],
上式中,g
soft
(v
lip
;a
lip
)表示融合特征向量,v
lip
表示视觉数据模态下事件数据的语义特征向量,a
lip
表示音频数据模态下事件数据的语义特征向量,s
v,a
为用于表示来对单通道提取的高级特征进行适当选择来生成融合特征向量的掩码表示,

表示相乘,[v
lip
;a
lip
]表示将v
lip
和a
lip
拼接,其中掩码表示s
v,a
的计算函数表达式为:s
v,a
=sigmoid
v,a
([v
lip
;a
lip
]),上式中,sigmoid
v,a
表示sigmoid函数,用于确保每个模态的特征在[0,1]范围内重新加权。本实施例中基于注意力机制的软融合方法利用注意力机制的原理,可以调节视频通道和音频通道特征的权值,并对两个通道进行重新加权。这个融合函数是可微的,可以与其它模块进行联合训练。软融合的实现原理具体来说就是通过引入一组掩码表示来对单通道提取的高级特征进行适当选择来生成融合特征。这组掩码表示实际上是一组权重,是根据视觉和音频两个通道的特征训练出来的。
[0033]
这项工作主要关注单词级别的唇读任务,本质上是一个分类问题。因此,本文将问题转化为融合特征向量选择合适的分类器。本实施例步骤s4中预先训练好的分类器包括依次相连的三层全连接层(简称fc)和一个softmax激活函数层,分类器的函数表达式为:p(yi|ri)=softmax(fc(ri)),上式中,p(yi|ri)表示针对第i个融合特征向量ri分类识别为结果yi的概率,yi表示分类识别得到的结果,ri表示输入分类器的第i个融合特征向量,softmax表示softmax激活函数,fc(ri)表示第i个融合特征向量ri经三层全连接层处理的结果。
[0034]
下文将进行相关的实验,以对本实施例基于注意力机制的脉冲神经网络多模态唇读方法进行验证。本文选择brain2 模拟器作为模型特征编码器部分的实现平台,提供了脉冲神经网络的神经元构建和突触行为的描述。模型的融合网络部分和分类任务都是用pytorch实现的。本文中所有snn 的仿真实现都在cpu上运行。分类任务中的融合网络部分和mlp 分类器使用gpu 来加速训练。在我们的实验中,我们选择了一个纯视觉特征模型(简称:纯视觉,vision-only)、一个纯音频特征模型(简称:纯音频,audio-only)和一个直接融合的视音频模型(简称:直接融合,direct fusion)作为基线。纯视觉特征模型和纯音频特征模型的结构由两部分组成:单模态特征编码器和单隐藏层mlp 分类器。直接融合的视听模型采用与我们提出的软融合方法(简称:软融合,soft fusion)相同的结构,除了特征融合部分。包括基线在内的所有网络都使用adam 优化器以500的批量大小进行了训练,学习率lr设置为lr =1e

4。
[0035]
实验是在单词级唇读数据集上进行的。本文使用lrw数据集,这是一个英语单词级别的唇读数据集。该数据集共有500个英文单词,包含超过500,000个样本,其中25,000个样本用于测试。每个单词最多有1000个训练样本。内容以bbc节目的短片(1.16秒)为主,主要是新闻和脱口秀节目。对于lrw数据集中的视频序列,我们使用dlib来检测和跟踪68个面部标志。然后,使用96
×
96的边界框来裁剪感兴趣的嘴巴区域(roi)。裁剪后的图像序列输入到eism模拟器,这是一个事件相机模拟器。图像序列可以转换为像素级的事件输出,数据表示格式为(x,y,t,p),其中(x,y)为像素位置,t为时间,p为像素值。这种转换后的事件数据将用作本文中视觉特征编码器的输入。对于音频通道的数据预处理,我们提取了原始数据集的音频信号。然后,我们从音频波形中提取mfcc(梅尔频率倒谱系数)特征。最后,将mfcc特征转换为泊松分布的脉冲序列,用作音频特征编码器的输入。
[0036]
本实施例中将模型的训练分为两个阶段:视觉和音频特征编码结构的独立训练。融合网络的端到端训练。单阶段训练。我们在单通道特征编码器(视觉特征编码器和音频特征编码器)之后连接一个单隐藏层感知网络作为分类器。然后,训练这个新的单一模态编码网络。在训练期间,我们拆分训练数据集。每部分训练数据可以训练出一组液态,最后拼接出多组液态。在这种模式下,拼接的液态被读出作为特征向量。这有助于加快训练并减少训练资源消耗。视听融合训练。通过上述单模态训练,我们得到了特征编码器中脉冲神经网络的神经元之间的突触连接权重。在端到端训练过程中,我们将修复这些神经元参数和突触权重。
[0037]
将本文的软融合模型与基线方法的性能进行了比较,并讨论了直接融合方法和软融合方法之间的区别。直接融合方法更有可能不加选择地训练视觉特征和音频特征。然而,软融合方法是使一种模态在其合适的环境中充分发挥作用。表1显示了不同方法之间平均和最佳识别准确率的比较。
[0038]
表 1:与基线方法的精度对比。模型平均精度(%)最佳精度(%)纯视觉76.177.8纯音频80.681.3直接融合80.882.5软融合86.386.8
[0039]
参见表1可知,视觉特征模型和音频特征模型在单一模态下的识别准确率低于融合方法,说明我们的融合方法是有效的。通过对比软融合方法和直接融合方法的实验结果可以看出,我们的软融合方法在最大识别准确率方面有5% 左右的提升。这无疑证明了我们提出的融合方法具有更好的融合能力,可以更好地结合不同模态的有效信息。
[0040]
为了验证所提出方法的有效性,我们将单词级唇读与一些高级方法进行了比较。表2 显示了在lrw 数据集上单词级唇读性能的比较。
[0041]
表2:不同唇读方法在lrw数据集上的精度对比。方法骨干网络精度(%)wang(2019)multi-grained+c-bilstm(v)83.3wengandkitani(2019)ti3d+bilstm84.1zhaoetal.(2020)r18+bigru+lstm(v)84.4martinezetal.(2020)r18+ms-tcn(v)85.3maetal.(2021)r18+ms-tcn/lira88.1kimetal.(2022)r18+ms-tcn/mvm(*)88.5martinezetal.(2020)r18+ms-tcn(a+v)98本文的融合方法lsm+软融合86.8
[0042]
参见图2可知,我们提出的融合方法(lsm+软融合)达到了86.8% 的最大准确率。结果表明,我们的方法可以有效地将视觉表示和音频信息结合起来,达到融合的效果。与state-of-the-art 方法相比,我们的模型在识别准确率上仍有一定差距,但选择lsm 具有无可比拟的优势。一方面,我们模型的网络复杂度较低,可训练参数的数量会比其他方法少得多,这使得我们的方法具有较低的计算资源消耗。另一方面,本文的方法为神经形态处理
器的后续工作提供了可能性,有利于边缘化智能计算。
[0043]
此外,本文还进一步研究了我们的融合方法在噪声条件下的鲁棒性。产生带噪声的音频数据参考petridis et.al的方法。添加了来自noisex数据库的噪声,snr范围为

5 db到15 db。图4展示了纯音频特征模型、纯视觉特征模型、直接融合视音频模型和软融合模型在不同噪声水平下的识别准确率。仅视觉特征模型不受噪声影响,因此其性能保持稳定。纯音频特征模型和融合模型都有一些性能下降。并且可以发现,纯音频特征模型性能明显下降。这是因为语音信号的抗干扰能力较差,因此在嘈杂的环境中语音识别很难取得好的效果。但在高噪声条件下,融合模型的抗干扰能力明显强于纯音频特征模型。特别是本文的软融合方法的脉冲神经网络模型具有最好的抗干扰能力。
[0044]
综上所述,本实施例基于注意力机制的脉冲神经网络多模态唇读方法提出了一项针对视听语音识别任务的脉冲神经网络的新方法。通过使用液体状态机构建了单模态特征编码器,并提出了一种软融合方法,对视觉图像特征和音频特征进行重新加权,以实现多模态的高效融合。通过在lrw 数据集上进行实验证明了本实施例基于注意力机制的脉冲神经网络多模态唇读方法的有效性。在嘈杂条件下的实验也表明本实施例基于注意力机制的脉冲神经网络多模态唇读方法具有良好的鲁棒性。
[0045]
此外,本实施例还提供一种基于注意力机制的脉冲神经网络多模态唇读系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行前述基于注意力机制的脉冲神经网络多模态唇读方法的步骤。此外,本实施例还提供一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行前述基于注意力机制的脉冲神经网络多模态唇读方法的步骤。
[0046]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0047]
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域
的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:


1.一种基于注意力机制的脉冲神经网络多模态唇读方法,其特征在于,包括:s1,获取多种模态下的唇读事件数据;s2,使用液体状态机分别提取不同模态下事件数据的语义特征向量;s3,将所有的语义特征向量采用基于注意力机制的软融合以得到融合特征向量;s4,将融合特征向量送入预先训练好的分类器获得分类识别结果。2.根据权利要求1所述的基于注意力机制的脉冲神经网络多模态唇读方法,其特征在于,步骤s1中多种模态下的唇读事件数据包括视觉和音频两种模态下的唇读事件数据。3.根据权利要求2所述的基于注意力机制的脉冲神经网络多模态唇读方法,其特征在于,步骤s2中使用液体状态机分别提取不同模态下事件数据的语义特征包括:使用液体状态机将各个模态的特征编码器将对应模态的事件数据编码为到液体状态机的液体层中显示为液体状态;使用时间窗口分割采样技术来读出液体状态作为对应模态下事件数据的语义特征向量。4.根据权利要求3所述的基于注意力机制的脉冲神经网络多模态唇读方法,其特征在于,步骤s2中使用的液体状态机在液体层的神经元包含兴奋性神经元和抑制性神经元共两种类型的神经元,兴奋性神经元和抑制性神经元均采用泄漏的整合和激发神经元lif,且泄漏的整合和激发神经元lif的动力学方程为:,上式中,τ
m
表示时间常数,v表示泄漏的整合和激发神经元lif的膜电位,i
ext
表示输入电流,r表示膜电阻,t表示时间。5.根据权利要求4所述的基于注意力机制的脉冲神经网络多模态唇读方法,其特征在于,步骤s2中使用液体状态机分别提取不同模态的事件数据的语义特征时,视觉数据模态下采用的特征编码器包含1000个神经元,且形成了一个具有10
×
10
×
10立方结构的神经元模型,且视觉数据模态下采用的特征编码器的函数表达式为:v
lip
=f
vision
(x
v
),上式中,v
lip
表示视觉数据模态下事件数据的语义特征向量,f
vision
表示视觉数据模态下采用的特征编码器,x
v
为视觉数据模态下的事件数据。6.根据权利要求5所述的基于注意力机制的脉冲神经网络多模态唇读方法,其特征在于,步骤s2中使用液体状态机分别提取不同模态的事件数据的语义特征时,音频数据模态下采用的特征编码器采用512 个尖峰神经元形成了一个具有8
×8×
8立方结构的神经元模型,且音频数据模态下采用的特征编码器的函数表达式为:a
lip
=f
audio
(x
a
),上式中,a
lip
表示音频数据模态下事件数据的语义特征向量,f
audio
表示音频数据模态下采用的特征编码器,x
a
为视觉数据模态下的事件数据,且视觉数据模态下的事件数据x
a
为基于音频数据提取的梅尔频率倒谱系数特征。7.根据权利要求2所述的基于注意力机制的脉冲神经网络多模态唇读方法,其特征在于,步骤s3中采用基于注意力机制的软融合以得到融合特征向量的函数表达式为:g
soft
(v
lip
;a
lip
)=s
v,a

[v
lip
;a
lip
],
上式中,g
soft
(v
lip
;a
lip
)表示融合特征向量,v
lip
表示视觉数据模态下事件数据的语义特征向量,a
lip
表示音频数据模态下事件数据的语义特征向量,s
v,a
为用于表示来对单通道提取的高级特征进行适当选择来生成融合特征向量的掩码表示,

表示相乘,[v
lip
;a
lip
]表示将v
lip
和a
lip
拼接,其中掩码表示s
v,a
的计算函数表达式为:s
v,a
=sigmoid
v,a
([v
lip
;a
lip
]),上式中,sigmoid
v,a
表示sigmoid函数。8.根据权利要求2所述的基于注意力机制的脉冲神经网络多模态唇读方法,其特征在于,步骤s4中预先训练好的分类器包括依次相连的三层全连接层和一个softmax激活函数层,分类器的函数表达式为:p(y
i
|r
i
)=softmax(fc(r
i
)),上式中,p(y
i
|r
i
)表示针对第i个融合特征向量r
i
分类识别为结果y
i
的概率,y
i
表示分类识别得到的结果,r
i
表示输入分类器的第i个融合特征向量,softmax表示softmax激活函数,fc(r
i
)表示第i个融合特征向量r
i
经三层全连接层处理的结果。9.一种基于注意力机制的脉冲神经网络多模态唇读系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基于注意力机制的脉冲神经网络多模态唇读方法的步骤。10.一种计算机可读存储介质,其中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述基于注意力机制的脉冲神经网络多模态唇读方法的步骤。

技术总结


本发明公开了一种基于注意力机制的脉冲神经网络多模态唇读方法及系统,本发明基于注意力机制的脉冲神经网络多模态唇读方法包括获取多种模态下的唇读事件数据;使用液体状态机分别提取不同模态下事件数据的语义特征向量;将所有的语义特征向量采用基于注意力机制的软融合以得到融合特征向量;将融合特征向量送入预先训练好的分类器获得分类识别结果。本发明通过使用液体状态机构建了单模态特征编码器,并提出了一种软融合方法对视觉图像特征和音频特征进行重新加权,以实现多模态的高效融合,能够实现多模态唇读数据的高效、准确的分类识别,且在嘈杂条件下具有良好的鲁棒性。且在嘈杂条件下具有良好的鲁棒性。且在嘈杂条件下具有良好的鲁棒性。


技术研发人员:

王蕾 于绪虎 陈昶昊 铁俊波 郭莎莎 肖勋 陈小帆 邱煜晨 张剑锋 石伟

受保护的技术使用者:

中国人民解放军国防科技大学

技术研发日:

2022.09.08

技术公布日:

2022/12/16

本文发布于:2024-09-23 05:18:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/43034.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   数据   神经元   向量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议