一种融合语义信息的仿生SLAM回环检测方法

一种融合语义信息的仿生slam回环检测方法
技术领域
1.本发明属于视觉检测方法领域，具体涉及一种融合语义信息的仿生slam回环检测方法。

背景技术：

2.近年来，大脑感知模型的迅速发展为机器人同步定位与地图构建(slam)提供了改进。其中闭环检测是slam系统的关键组成部分。现有基于大脑感知的slam系统的闭环检测算法在复杂环境下检测精度较低，相似场景外观出现在不同地点带来闭环匹配错误严重，机器人无法准确地进行重定位和累积误差纠正。
3.空间环境感知能力是动物重要的认知能力之一，它使动物能够在未知环境进行场景识别与导航。实验研究发现，海马结构是动物进行环境认知的关键脑区，内部存在着一系列与空间环境认知相关的细胞。如存在于ca区(海马角)的位置细胞当动物在空间特定位置时进行发电，对空间特定位置点进行表达，是构成认知地图的基础机制；存在于后下托中的头朝向细胞只在特定头方向上放电，对动物头朝向角度进行表征；存在于内嗅皮层中的网格细胞在空间六边形区域周期性放电，通过对自运动信号进行路径积分更新位置细胞的放电野，为认知地图的形成提供了空间度量。这些神经细胞的种活动为认知空间提供了一种编码形式。这些早期的空间认知研究不仅有助于深入理解大脑感知环境的工作原理，也为研究人员提供了机器人认知环境的新发展方向。
4.目前的检测方法中通过连接hd-by-velocity单元和连接grid-by-velocity单元的协同工作，实现路径集成并构建大尺度地图。一种具有高生物保真度的脑源性slam模型，该模型融合网格细胞模型、放置细胞模型、自运动信号和视觉信息在移动机器人上构建认知地图。
5.然而，在这些仿生的slam模型被用于复杂环境之前，需要解决多个问题。特别是闭环检测方面。传统ratslam算法中局部场景的匹配过程采用的是sad(绝对插值和模型)，没有对场景进行几何处理和特征提取，相似场景特征在不同地点的出现会对视觉模板的识别匹配造成较大干扰，存在可靠性较低、环境适应度较差的问题。研究表明人眼观察物体时，看到的是一个又一个物体，而不是提取特征点，因此对图像中物体标注语义信息能够模拟人眼识别场景中各种物体，这能够有效降低感知混淆，提高匹配精度。

技术实现要素：

6.针对现有技术中的上述不足，本发明提供的一种融合语义信息的仿生slam回环检测方法解决了目前闭环检测的准确性较低和稳定性较差的问题。
7.为了达到上述发明目的，本发明采用的技术方案为：一种融合语义信息的仿生slam回环检测方法，包括以下步骤：
8.s1、通过yolov5网络将待匹配图像进行语义标注，得到待匹配图像的语义信息；
9.s2、根据待匹配图像的语义信息与匹配模板进行粗匹配，得到初步相似的匹配模
板集；
10.s3、根据待匹配图像和匹配模板集的语义信息、像素信息，计算待匹配图像与匹配模板集的综合相似度；
11.s4、根据待匹配图像与匹配模板集的综合相似度，完成仿生slam回环检测。
12.进一步地：所述s1中，待匹配图像的语义信息具体为待匹配图像中的所有类语义标签；
13.其中，每个所述语义标签均包括语义标签的类别、中心点横坐标、中心点竖坐标、长值和宽值。
14.上述进一步方案的有益效果为：yolov5网络能够出图像中所有具有辨别力的标志物，对具有复杂场景具有更稳定、更精确的匹配效果。
15.进一步地：所述s2具体为：
16.设置相似度阈值，通过ratslam算法根据语义信息与匹配模板进行粗匹配，删除匹配模板中粗匹配相似值低于相似度阈值的模板，将匹配模板中剩余模板的集合作为初步相似的匹配模板集。
17.上述进一步方案的有益效果为：本发明的粗匹配可以将与待匹配图像相似度较低的模板快速筛除，可以降低由于两场景相近而造成的匹配错误并减少匹配计算时的工作量。
18.进一步地：所述s3包括以下步骤：
19.s31、根据待匹配图像的语义信息得到待匹配图像的场景描述信息；
20.s32、删除匹配模板集中与待匹配图像邻近的100个待匹配模板得到子模板集，基于待匹配图像的场景描述信息，计算待匹配图像与子模板集的语义相似度；
21.s33、基于待匹配图像与子模板集的语义相似度、像素相似度，计算待匹配图像与子模板集的综合相似度，并将其作为待匹配图像与匹配模板集的综合相似度。
22.进一步地：所述s31具体为：
23.将待匹配图像的所有语义标签转换为场景描述信息，所述场景描述信息包括图像左上、左下、右上、右下的4个场景描述子信息。
24.进一步地：所述s32中，匹配模板集包括若干待匹配模板；
25.所述s32具体为：删除匹配模板集中与待匹配图像邻近的100个待匹配模板得到子模板集，计算待匹配图像与子模板集中所有待匹配模板的语义相似度，其中，计算待匹配图像a的场景描述信息与待匹配模板b的语义相似度vts(a，b)的表达式具体为：
[0026][0027]
式中，为待匹配图像a与待匹配模板b的第i个场景的语义相似度，其表达式具体为：
[0028]
[0029]
式中，z
i(a)
为待匹配图像a的第i个场景描述子信息，z
i(b)
为待匹配模板b的第i个场景描述子信息，wj为待匹配图像中第j类语义标签的相似度权重。
[0030]
进一步地：所述第j类语义标签的相似度权重wj的表达式具体为：
[0031][0032]
式中，cj为待匹配图像中第j类语义标签的总数。
[0033]
进一步地：所述s33具体为：通过计算待匹配图像与子模板集中待匹配模板的综合相似度，得到待匹配图像与子模板集的综合相似度，并将其作为待匹配图像与匹配模板集的综合相似度；
[0034]
其中，计算待匹配图像a与待匹配模板b的综合相似度方法具体为：
[0035]
通过sad算法计算待匹配图像与子模板集的像素相似度，进而通过下式计算待匹配图像与待匹配模板b的综合相似度vt
error
：
[0036]
vt
error
＝α*vts(a，b)+β*vt
err
[0037]
式中，vt
err
为待匹配图像与待匹配模板b的像素相似度，α为语义相似度的权重，β为像素相似度的权重参数。
[0038]
进一步地：所述s4具体为：
[0039]
设置匹配阈值，判断待匹配图像与匹配模板集的综合相似度是否小于匹配阈值；若是，则待匹配图像与匹配模板集的匹配结果为闭环，若否，则待匹配图像与匹配模板集的匹配结果为不是闭环；基于待匹配图像与匹配模板集的匹配结果，完成仿生slam回环检测。
[0040]
进一步地：当待匹配图像与匹配模板集的匹配结果为闭环时，选择待匹配图像与待匹配模板的综合相似度最高的待匹配模板作为闭环模板。
[0041]
本发明的有益效果为：
[0042]
(1)本发明将语义信息扩充成为视觉模板的附加信息，通过使用图像的语义信息进行闭环检测，在模板匹配阶段比较语义标签中的种类、位置，增加了闭环检测的信息量，能够有效降低感知混淆的影响，提高闭环检测的精度，使改进的ratslam算法具有更好的稳定性和环境适应性，这将具有重要的理论和实际意义。
[0043]
(2)本发明为降低感知混淆影响提供了一种通用的方法，使用yolov5提取图像中语义标签能更好地模拟人脑对于所处场景的识别过程，有助于仿生slam在实际中的应用，并在基于海马-内嗅的slam系统中得到了应用，实验结果表明，所提方法能够有效提高闭环检测的准确性和稳定性。
附图说明
[0044]
图1为本发明的一种融合语义信息的仿生slam回环检测方法流程图。
具体实施方式
[0045]
下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，
只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。
[0046]
如图1所示，在本发明的一个实施例中，一种融合语义信息的仿生slam回环检测方法，包括以下步骤：
[0047]
s1、通过yolov5网络将待匹配图像进行语义标注，得到待匹配图像的语义信息；
[0048]
s2、根据待匹配图像的语义信息与匹配模板进行粗匹配，得到初步相似的匹配模板集；
[0049]
s3、根据待匹配图像和匹配模板集的语义信息、像素信息，计算待匹配图像与匹配模板集的综合相似度；
[0050]
s4、根据待匹配图，像与匹配模板集的综合相似度，完成仿生slam回环检测。
[0051]
所述s1中，待匹配图像的语义信息具体为待匹配图像中的所有类语义标签；
[0052]
其中，每个所述语义标签均包括语义标签的类别、中心点横坐标、中心点竖坐标、长值和宽值。
[0053]
在本实施例中，yolov5网络能够出图像中所有具有辨别力的标志物，对具有复杂场景具有更稳定、更精确的匹配效果。待匹配图像输入yolov5网络，得到带有像素标签的语义区域s＝{s1，...sn}，其中，sn为语义标签，n为类别总数；sn＝[typen，xn，yn，wn，hn]，其中type，x，y，w，h分别为语义标签的类别、中心点横坐标、中心点竖坐标、长值和宽值。
[0054]
为了方便在闭环检测时使用语义信息，将语义标签sn与视觉模板vn以及位姿细胞pn相关联，得到经历en；
[0055]en
＝{sn，vnpn，pn}
[0056]
式中，pn为经历en在经历地图中的位置。
[0057]
所述s2具体为：
[0058]
设置相似度阈值，通过ratslam算法根据语义信息与匹配模板进行粗匹配，删除匹配模板中粗匹配相似值低于相似度阈值的模板，将匹配模板中剩余模板的集合作为初步相似的匹配模板集。
[0059]
由于原始ratslam算法使用sad对模板与待匹配图像进行两两匹配时计算工作量较大，本发明通过设置相似度阈值初步将与待匹配图像相似度较低的模板快速筛除，并设定不与最近的100个模板进行匹配，以降低由于两场景相近而造成的匹配错误。
[0060]
所述s3包括以下步骤：
[0061]
s31、根据待匹配图像的语义信息得到待匹配图像的场景描述信息；
[0062]
s32、删除匹配模板集中与待匹配图像邻近的100个待匹配模板得到子模板集，避免待匹配图像与邻近模板检测成闭环，基于待匹配图像的场景描述信息，计算待匹配图像与子模板集的语义相似度；
[0063]
s33、基于待匹配图像与子模板集的语义相似度、像素相似度，计算待匹配图像与子模板集的综合相似度，并将其作为待匹配图像与匹配模板集的综合相似度。
[0064]
所述s31具体为：
[0065]
将待匹配图像的所有语义标签转换为场景描述信息，所述场景描述信息包括图像左上、左下、右上、右下的4个场景描述子信息。
[0066]
在本实施例中，以待匹配图像的中心点为原点，将待匹配图像分为左上、左下、右
上和右下区域，并将每个区域分别作为场景描述子信息。对于待匹配图像中任意一个语义标签si，通过其中心坐标，将其归类于四个场景描述子信息之一。
[0067]
场景描述信息u＝[z1；z2；z3；z4]，其中，z1，z2，z3，z4分别为左上场景描述子信息、左下场景描述子信息、右上场景描述子信息和右下场景描述子信息，第l场景描述子信息z
l
＝[z1z2...zq]，其中l＝1，...，4，zq为第q类语义标签出现在第l场景的总数，u的每一列对应一种语义标签，每一行对应该区域内各类语义标签的数量。
[0068]
所述s32中，匹配模板集包括若干待匹配模板；
[0069]
所述s32具体为：删除匹配模板集中与待匹配图像邻近的100个待匹配模板得到子模板集，避免待匹配图像与邻近模板检测成闭环，计算待匹配图像与子模板集中所有待匹配模板的语义相似度，其中，计算待匹配图像a的场景描述信息与待匹配模板b的语义相似度vts(a，b)的表达式具体为：
[0070][0071]
式中，为待匹配图像a与待匹配模板b的第i个场景的语义相似度，其表达式具体为：
[0072][0073]
式中，z
i(a)
为待匹配图像a的第i个场景描述子信息，z
i(b)
为待匹配模板b的第i个场景描述子信息，wj为待匹配图像中第j类语义标签的相似度权重。
[0074]
所述第j类语义标签的相似度权重wj的表达式具体为：
[0075][0076]
式中，cj为待匹配图像中第j类语义标签的总数。
[0077]
在本实施例中，为避免目标检测得到的极少数语义标签对场景匹配产生影响，将该类语义标签的相似度权重设置为0；为避免目标检测得到的语义标签数量过多对闭环判断产生干扰，对该语义标签的相似度权重进行抑制，使数量越多的标签所占的相似度权重越低。
[0078]
所述s33具体为：通过计算待匹配图像与子模板集中待匹配模板的综合相似度，得到待匹配图像与子模板集的综合相似度，并将其作为待匹配图像与匹配模板集的综合相似度；
[0079]
其中，计算待匹配图像a与待匹配模板b的综合相似度方法具体为：
[0080]
通过sad算法计算待匹配图像与子模板集的像素相似度，进而通过下式计算待匹配图像与待匹配模板b的综合相似度vt
error
：
[0081]
vt
error
＝α*vts(a，b)+β*vt
err
[0082]
式中，vt
err
为待匹配图像与待匹配模板b的像素相似度，α为语义相似度的权重，β为像素相似度的权重参数。
[0083]
所述s4具体为：
[0084]
设置匹配阈值，判断待匹配图像与匹配模板集的综合相似度是否小于匹配阈值；若是，则待匹配图像与匹配模板集的匹配结果为闭环，若否，则待匹配图像与匹配模板集的匹配结果为不是闭环；基于待匹配图像与匹配模板集的匹配结果，完成仿生slam回环检测。
[0085]
当待匹配图像与匹配模板集的匹配结果为闭环时，选择待匹配图像与待匹配模板的综合相似度最高的待匹配模板作为闭环模板。
[0086]
本发明的有益效果具体为：本发明将语义信息扩充成为视觉模板的附加信息，通过使用图像的语义信息进行闭环检测，在模板匹配阶段比较语义标签中的种类、位置，增加了闭环检测的信息量，能够有效降低感知混淆的影响，提高闭环检测的精度，使改进的ratslam算法具有更好的稳定性和环境适应性，这将具有重要的理论和实际意义。
[0087]
本发明为降低感知混淆影响提供了一种通用的方法，使用yolov5提取图像中语义标签能更好地模拟人脑对于所处场景的识别过程，有助于仿生slam在实际中的应用，并在基于海马-内嗅的slam系统中得到了应用，实验结果表明，所提方法能够有效提高闭环检测的准确性和稳定性。
[0088]
在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

技术特征：

1.一种融合语义信息的仿生slam回环检测方法，其特征在于，包括以下步骤：s1、通过yolov5网络将待匹配图像进行语义标注，得到待匹配图像的语义信息；s2、根据待匹配图像的语义信息与匹配模板进行粗匹配，得到初步相似的匹配模板集；s3、根据待匹配图像和匹配模板集的语义信息、像素信息，计算待匹配图像与匹配模板集的综合相似度；s4、根据待匹配图像与匹配模板集的综合相似度，完成仿生slam回环检测。2.根据权利要求1所述的融合语义信息的仿生slam回环检测方法，其特征在于，所述s1中，待匹配图像的语义信息具体为待匹配图像中的所有类语义标签；其中，每个所述语义标签均包括语义标签的类别、中心点横坐标、中心点竖坐标、长值和宽值。3.根据权利要求1所述的融合语义信息的仿生slam回环检测方法，其特征在于，所述s2具体为：设置相似度阈值，通过ratslam算法根据语义信息与匹配模板进行粗匹配，删除匹配模板中粗匹配相似值低于相似度阈值的模板，将匹配模板中剩余模板的集合作为初步相似的匹配模板集。4.根据权利要求2所述的融合语义信息的仿生slam回环检测方法，其特征在于，所述s3包括以下步骤：s31、根据待匹配图像的语义信息得到待匹配图像的场景描述信息；s32、删除匹配模板集中与待匹配图像邻近的100个待匹配模板得到子模板集，基于待匹配图像的场景描述信息，计算待匹配图像与子模板集的语义相似度；s33、基于待匹配图像与子模板集的语义相似度、像素相似度，计算待匹配图像与子模板集的综合相似度，并将其作为待匹配图像与匹配模板集的综合相似度。5.根据权利要求4所述的融合语义信息的仿生slam回环检测方法，其特征在于，所述s31具体为：将待匹配图像的所有语义标签转换为场景描述信息，所述场景描述信息包括图像左上、左下、右上、右下的4个场景描述子信息。6.根据权利要求4所述的融合语义信息的仿生slam回环检测方法，其特征在于，所述s32中，匹配模板集包括若干待匹配模板；所述s32具体为：删除匹配模板集中与待匹配图像邻近的100个待匹配模板得到子模板集，计算待匹配图像与子模板集中所有待匹配模板的语义相似度，其中，计算待匹配图像a的场景描述信息与待匹配模板b的语义相似度vt
s
(a,b)的表达式具体为：式中，ζ(z
i(a)
,
i(b)
)为待匹配图像a与待匹配模板b的第i个场景的语义相似度，其表达式具体为：
式中，z
i(a)
为待匹配图像a的第i个场景描述子信息，z
i(b)
为待匹配模板b的第i个场景描述子信息，w
j
为待匹配图像中第j类语义标签的相似度权重。7.根据权利要求6所述的融合语义信息的仿生slam回环检测方法，其特征在于，所述第j类语义标签的相似度权重w
j
的表达式具体为：式中，c
j
为待匹配图像中第j类语义标签的总数。8.根据权利要求7所述的融合语义信息的仿生slam回环检测方法，其特征在于，所述s33具体为：通过计算待匹配图像与子模板集中待匹配模板的综合相似度，得到待匹配图像与子模板集的综合相似度，并将其作为待匹配图像与匹配模板集的综合相似度；其中，计算待匹配图像a与待匹配模板b的综合相似度方法具体为：通过sad算法计算待匹配图像与子模板集的像素相似度，进而通过下式计算待匹配图像与待匹配模板b的综合相似度vt
error
：vt
error
＝α*vt
s
(a，b)+β*vt
err
式中，vt
err
为待匹配图像与待匹配模板b的像素相似度，α为语义相似度的权重，β为像素相似度的权重参数。9.根据权利要求6所述的融合语义信息的仿生slam回环检测方法，其特征在于，所述s4具体为：设置匹配阈值，判断待匹配图像与匹配模板集的综合相似度是否小于匹配阈值；若是，则待匹配图像与匹配模板集的匹配结果为闭环，若否，则待匹配图像与匹配模板集的匹配结果为不是闭环；基于待匹配图像与匹配模板集的匹配结果，完成仿生slam回环检测。10.根据权利要求9所述的融合语义信息的仿生slam回环检测方法，其特征在于，当待匹配图像与匹配模板集的匹配结果为闭环时，选择待匹配图像与待匹配模板的综合相似度最高的待匹配模板作为闭环模板。

技术总结

本发明公开了一种融合语义信息的仿生SLAM回环检测方法。本发明使用YOLOv5模型识别图像中的语义标签，将语义信息扩充为视觉模板的附加信息，在模板匹配阶段综合利用图像的像素信息与语义标签中的种类、位置等信息，增加了闭环检测的信息量，能够有效提高闭环检测的精度。本发明使用YOLOv5提取图像中语义标签能更好地模拟人脑对于所处场景的识别过程，有助于仿生SLAM在实际中的应用，增加使用图像的语义信息进行闭环检测，降低感知混淆的影响，提高了仿生SLAM算法的稳定性和环境适应性。高了仿生SLAM算法的稳定性和环境适应性。高了仿生SLAM算法的稳定性和环境适应性。