一种多模态感知融合系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010120330.X
(22)申请日 2020.02.26
(71)申请人 南开大学
地址 300000 天津市津南区南开大学新校
区理科组团
(72)发明人 王鸿鹏 韩霄 邵岩 
(74)专利代理机构 天津市尚仪知识产权代理事
务所(普通合伙) 12217
代理人 邓琳
(51)Int.Cl.
G06K  9/62(2006.01)
G06T  17/00(2006.01)
(54)发明名称一种多模态感知融合系统(57)摘要本发明提供一种用于全场景的多模态感知融合系统,所述多模态感知融合系统包括上位机、激光雷达、多目相机、IMU、红外深度相机、电源,所述多目相机包括两个FLIR工业网口相机和两个USB3.0相机,其组成多模态感知融合系统的步骤为:安装各硬件、软件的安装以及数据的获取、模型的构建。本发明使用建模辨识中的麦夸特算法对外参数进行迭代优化,得到最优估计,从而得到最精确地模型和效果图,使得融合更加精准,能够达到实时的感知环境,并且该多模态感知融合系统小巧,重量较轻,可用于无人车车载,无人机机载,医疗行业,军事无人环境的建模,也可用于室内室外等各种复杂环境,为规划
导航奠定基础。权利要求书1页  说明书3页  附图2页CN 111652261 A 2020.09.11
C N  111652261
A
1.一种用于全场景的多模态感知融合系统,其特征在于,所述多模态感知融合系统包括上位机、激光雷达、多目相机、IMU、红外深度相机、电源,所述多目相机包括两个FLIR工业网口相机和两个USB3.0相机,其组成多模态感知融合系统的步骤为:
S1:安装硬件:将激光雷达以以太网接口连接的方式连接到上位机,将两个FLIR工业网口相机以以太网接口方式连接到上位机,将两个USB3.0相机、IMU以及红外深度相机分别连接到上位机的usb3.0接口,将各部分连接好后通过数据线与电源相连接;
S2:软件的安装和数据的获取:打开Linux  Ubuntu系统,安装配置好各个模块的驱动和软件,使用Robot  Operating  System启动各个模态的节点,并且使用RVIZ将获取到的激光雷达的点云、多目相机的RGB图像、IMU的加速度计以及陀螺仪信息以及红外深度相机的景深图的这些数据都显示出来;
S3:模型构建:接着使用slam理论体系将获取到的数据进行处理,该处理流程分为两步,分别是前端和后端,前端负责各个模块的特征提取和特征之间的相关性的表示,后端负责参数的优化和三维重建以及定位,最后得出融合的最终模型和效果图。
2.根据权利要求1所述的一种用于全场景的多模态感知融合系统,其特征在于,所述多模态感知融合系统
采用的操作系统为Linux  U buntu 系统,采用的中间件为Ro bot  Operating  System,使用的编程语言为c++和python。
3.根据权利要求1所述的一种用于全场景的多模态感知融合系统,其特征在于,所述激光雷达采用镭神智能c16-151B。
4.根据权利要求1所述的一种用于全场景的多模态感知融合系统,其特征在于,所述红外深度相机的数目为两个,所述红外深度相机和IMU采用Intel  Real  Sense  D435i。
5.根据权利要求1所述的一种用于全场景的多模态感知融合系统,其特征在于,所述最终模型和效果图的得到是使用建模辨识中的麦夸特算法对外参数进行迭代优化,得到最优估计,从而得到最精确地模型和效果图。
6.根据权利要求1所述的一种用于全场景的多模态感知融合系统,其特征在于,所述激光雷达投影到地面的距离为10m,投影后下方会有锥形盲区,所述红外深度相机工作距离为0.2-10m,可以弥补激光雷达投不到的盲区。
7.根据权利要求1所述的一种用于全场景的多模态感知融合系统,其特征在于,所述激光雷达、多目相机、IMU、红外深度相机都分别具有独立的传感器。
权 利 要 求 书1/1页CN 111652261 A
一种多模态感知融合系统
技术领域
[0001]本发明属于多模态感知融合系统领域,尤其涉及一种用于全场景的多模态 感知融合系统。
背景技术
[0002]随着传感器技术和互联网的迅速发展,各种不同模态的大数据正在以前所 未有的发展速度迅速涌现。对于一个待描述事物(目标、场景等),通过不同 的方法或视角收集到的耦合的数据样本就是多模态数据,通常把收集这些数据 的每一个方法或视角称之为一个模态。
[0003]狭义的多模态信息通常关注感知特性不同的模态,而广义的多模态融合则 通常还包括同一模态信息中的多特征融合,以及多个同类型传感器的数据融合 等,因此,多模态感知与学习这一问题与信号处理领域的“多源融合”、“多 传感器融合”,以及机器学习领域的“多视学习”或“多视融合”等有密切的 联系;多模态数据可以获得更加全面准确的信息,增强系统的可靠性和容错性。
[0004]在多模态感知与学习问题中,由于不同模态之间具有完全不同的描述形式 和复杂的耦合对应关系,
因此需要统一地解决关于多模态的感知表示和认知融 合的问题。多模态感知与融合就是要通过适当的变换或投影,使得两个看似完 全无关、不同格式的数据样本,可以相互比较融合,这种异构数据的融合往往 能取得意想不到的效果。
[0005]目前,多模态数据已经在互联网信息搜索、人机交互、工业环境故障诊断 和机器人等领域发挥了巨大的作用,视觉与语言之间的多模态学习是目前多模 态融合方面研究成果较为集中的领域,在机器人领域目前仍面临很多需要进一 步探索的挑战性问题;由此,我们研制了一套多模态感知系统,将多目视觉, 激光,双目红外,深度,IMU等多模态,这些硬件按照不同的方位进行安装。 以实现对大型场景,小型工件的自动化感知,扫描与建模,能够实现对全场景 的感知,适用于室内和室外,对环境的RGB图像信息赋予深度信息和距离信息, 但其中最主要的难点在于:异种多源传感器,特征的提取,以及特征之间相关 性的求解使得融合更加精准,能够达到实时的感知环境。
发明内容
[0006]为了解决上述技术问题,本发明提供一种用于全场景的多模态感知融合系 统,以实现对大型场景,小型工件的自动化感知,扫描与建模。所述多模态感 知融合系统包括上位机、激光雷达、多目相机、IMU、红外深度相机、电源,所 述多目相机包括两个FLIR工业网口相机和两个USB3.0相机,其组成多模态感 知融合系统的步骤为:
[0007]S1:安装硬件:将激光雷达以以太网接口连接的方式连接到上位机,将两 个FLIR 工业网口相机以以太网接口方式连接到上位机,将两个USB3.0相机、 IMU以及红外深度相机分别连接到上位机的usb3.0接口,将各部分连接好后通 过数据线与电源相连接;[0008]S2:软件的安装和数据的获取:打开Linux Ubuntu系统,安装配置好各个 模块的
驱动和软件,使用Robot Operating System启动各个模态的节点,并且 使用RVIZ将获取到的激光雷达的点云、多目相机的RGB图像、IMU的加速度计 以及陀螺仪信息以及红外深度相机的景深图的这些数据都显示出来;
[0009]S3:模型构建:接着使用SLAM理论体系将获取到的数据进行处理,该处理 流程分为两步,分别是前端和后端,前端负责各个模块的特征提取和特征之间 的相关性的表示,后端负责参数的优化和三维重建以及定位,使用建模辨识中 的麦夸特算法对外参数进行迭代优化,得到最优估计,从而得出融合的最终模 型和效果图。
[0010]优选的,所述多模态感知融合系统采用的操作系统为Linux Ubuntu系统, 采用的中间件为Robot Operating System,使用的编程语言为c++和python。
[0011]优选的,所述激光雷达采用镭神智能c16-151B。
[0012]优选的,所述红外深度相机的数目为两个,所述红外深度相机和IMU采用 Intel Real Sense D435i。
[0013]优选的,所述激光雷达投影到地面的距离为10m,投影后下方会有锥形盲区, 所述红外深度相机工作距离为0.2-10m,可以弥补激光雷达投不到的盲区。
[0014]优选的,所述激光雷达、多目相机、IMU、红外深度相机都分别具有独立的 传感器。[0015]与现有技术相比,本发明的有益效果是:使异类传感器自主联合,能够快 速标定,并且进行采集信息的匹配和三维空间下的融合,由点云生成面片模型, 再进行迭代优化,最终得到能够达到精度的三维重建模型,从而得到最精确地 模型和效果图,使得融合更加精准,能够达到实时的感知环境,为以后的识别 检测技术提供精准的技术数据,并且该多模态感知融合系统小巧,重量较轻, 可用于无人车车载,无人机机载,医疗行业,军事无人环境的建模,也可用于 室内室外等各种复杂环境,为规划导航奠定基础。
附图说明
[0016]图1是全场景的多模态感知融合系统的外观图。
[0017]图2是全场景的多模态系统结构图;
[0018]图3是全场景的多模态感知融合系统的安装步骤图。
[0019]图中:1-激光雷达;2-第一FLIR工业网口相机;3-第一USB3.0相机;4- 第一红外深度相机;5-第二红外深度相机;6-第二FLIR工业网口相机;7-第二 USB3.0相机;8-多目相机;9-IMU。
具体实施方式
[0020]下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部 的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳 动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0021]以下对本发明做进一步描述:
[0022]实施例:
[0023]如附图1所示,一种用于全场景的多模态感知融合系统,所述多模态感知 融合系统采用的操作系统为Linux Ubuntu系统,采用的中间件为Robot Operating System,使用
的编程语言为c++和python;所述多模态感知融合系 统包括上位机、激光雷达1、第一FLIR 工业网口相机2、第二FLIR工业网口相 机6、第一USB3.0相机3、第二USB3.0相机7、多目相机8、IMU 9、第一红外 深度相机4、第二红外深度相机5、电源;
[0024]具体的,如附图3所示,其组成多模态感知融合系统的步骤为:
[0025]S1:安装硬件:将激光雷达以以太网接口连接的方式连接到上位机,将第 一FLIR 工业网口相机2、第二FLIR工业网口相机3以以太网接口方式连接到上 位机,将第一USB3.0相机3、第二USB3.0相机7、IMU 9以及第一红外深度相 机4和第二红外深度相机5分别连接到上位机的usb3.0接口,将各部分连接好 后通过数据线与电源相连接;
[0026]S2:软件的安装和数据的获取:打开Linux Ubuntu系统,安装配置好各个 模块的驱动和软件,使用Robot Operating System启动各个模态的节点,并且 使用RVIZ将获取到的激光雷达1的点云,多目相机8、第一FLIR工业网口相机 2、第二FLIR工业网口相机6、第一USB3.0相机3以及第二USB3.0相机7的 RGB图像、IMU 9的加速度计以及陀螺仪信息以及第一红外深度相机4、第二红 外深度相机5的景深图的这些数据都显示出来;
[0027]S3:模型构建:接着使用slam理论体系将获取到的数据进行处理,该处理 流程分为两步,分别是前端和后端,前端负责各个模块的特征提取和特征之间 的相关性的表示,后端负责参数的优化和三维重建以及定位,使用建模辨识中 的麦夸特算法对外参数进行迭代优化,得到最优估计,最后得出精确地融合后 最终模型和效果图。
[0028]具体的,所述激光雷达1采用镭神智能c16-151B。
[0029]具体的,所述第一红外深度相机4、第二红外深度相机5和IMU 9均采用 Intel Real Sense D435i。
[0030]具体的,所述激光雷达1投影到地面的距离为10m,投影后下方会有锥形盲 区,所述第一红外深度相机4、第二红外深度相机5的工作距离为0.2-10m,可 以弥补激光雷达1投不到的盲区。
[0031]具体的,所述激光雷达1、第一FLIR工业网口相机2、第二FLIR工业网口 相机6、第一USB3.0相机3、第二USB3.0相机7、多目相机8、IMU 9、第一红 外深度相机4、第二红外深度相机5都分别具有独立的传感器。
[0032]如附图2,所示为多模态系统的图结构表示。其中,顶点表示激光雷达,相 机,IMU 等传感器。边表示传感器之间的相对位姿变换推导式。
[0033]工作流程图如图3所示。
[0034]需要说明的是,在本文中,而且,术语“包括”、“包含”或者其任何其 他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物 品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是 还包括为这种过程、方法、物品或者设备所固有的要素。
[0035]尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言, 可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变 化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

本文发布于:2024-09-24 00:27:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/466398.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模态   融合   感知   系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议