一种陆空两栖无人车自动模态切换与地面避障的训练方法

1.本发明属于智能驾驶

技术领域

：
：，涉及多模态载具行进间运动模态自动切换问题，尤其涉及一种陆空两栖无人车自动模态切换与地面避障的训练方法。

背景技术

：
：：2.随着立体交通的推广，以及现有地面行驶载具因其地面驾驶属性无法从根本上解决交通运输中拥堵问题，陆空两栖车应运而生。陆空两栖车是一种包含飞行和地面行驶两种运动模态的载具，可依据安全性，行进稳定性，能耗等因素切换行进模态，但是受到多种因素制约，例如模态切换可靠性较低，存在模态切换不合理，安全性不足等问题。3.由于强化学习基于机器学习原理，并遵循马尔可夫决策过程，因此需要大量的数据支持决策器中神经网络的训练和多模态切换策略的优化。传统的数据采集方式往往需要驾驶员在现实的环境中驾驶车辆，通过传感器收集训练所需数据，这种采集方式需要耗费大量的时间和人力资源，方可采集足以支撑训练的数据。而驾驶员的人为干预，同样会导致被采集的数据有较强的局限性，对极端情况的覆盖率较低。技术实现要素：4.本发明的目的在于克服现有技术缺陷，提出了一种陆空两栖无人车自动模态切换与地面避障的训练方法。本技术基于人工智能方式自动切换两栖车行进模态同时兼顾地面行驶自动避障的方法。由于决策模型的稳定性和合理性是目前两栖载具自动切换模态的主要障碍，基于机器学习的强化学习方法为该问题提供了有效的解决方案。换言之，基于强化学习的人工智能模态切换器可以依据当前环境，自适应地自动选择有利的行进模态。基于仿真环境的数据采集方式可以快速提供充足且优质的数据，短时间产生成熟的模态切换策略。5.为了实现上述目的，本发明提出了一种陆空两栖无人车自动模态切换与地面避障的训练方法，所述方法包括：6.步骤1)基于gazebo仿真器构建包括路空两栖无人车、障碍物锥筒和墙体的训练场景；7.步骤2)基于机器学习强化学习原理，将路空两栖无人车在训练场景中获取的当前时刻感知信息输入决策神经网络，采用∈贪婪方法与好奇心驱动方法相结合的策略规划行进轨迹并判断是否需要切换运动模态，将动作指令传入gazebo仿真器，指挥gazebo仿真器中的路空两栖无人车进行运动；8.步骤3)将每一步的运动相关数据存入经验池，基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化；转至步骤2)，直至路空两栖无人车触发终止条件或满足预设的训练步长，则终止一个训练周期；9.步骤4)当未满足预设的训练周期总数，转至步骤1)开始一个新的训练周期，否则得到训练好的决策神经网络。10.作为上述方法的一种改进，所述步骤1)包括：11.随机生成若干个障碍物锥筒，其随机分布于设定长宽尺寸的墙体长方形区域内；12.设定陆空两栖无人车运动的固定起点和固定终点；13.设定陆空两栖无人车的运动范围不可超出墙体长方形区域，行进过程中，可自由切换飞行和地面行驶两种运动模态，当与障碍物锥筒或墙体发生碰撞则判定失败。14.作为上述方法的一种改进，所述陆空两栖无人车的运动动作包括七种有效动作，在地面行驶模态下，动作[0,1,2,3,4,5]为有效动作，在飞行模态下，动作[5,6]为有效动作，其中，[0015]动作[0]为按设定的轮转线速度直行；[0016]动作[1]包括设定的轮转线速度，轮转角速度为第一轮转速度，方向向右；[0017]动作[2]包括设定的轮转线速度，轮转角速度为第二轮转速度，方向向右；[0018]动作[3]包括设定的轮转线速度，轮转角速度为第一轮转速度，方向向左；[0019]动作[4]包括设定的轮转线速度，轮转角速度为第二轮转速度，方向向左；[0020]动作[5]为旋翼转动提供起飞或前向飞行所需升力；[0021]动作[6]为旋翼转速减慢，无人车稳定降落。[0022]作为上述方法的一种改进，所述路空两栖无人车包括激光雷达和高度计，用于在训练场景中获取包括二维图像和高度信息的感知信息。[0023]作为上述方法的一种改进，所述决策神经网络为ddqn网络，输入为二维图像和高度信息，输出为动作价值函数q值，所述决策神经网络包括三层卷积神经网络、两个并联的四层全连接层以及加和函数；具体处理过程包括：[0024]三层卷积神经网络对输入的二维图像进行图像信息处理，将卷积神经网络的输出堆积成为一维向量后，分两路分别与高度信息进行向量的拼接后，作为两个全连接层的输入，经过四层全连接层，再经过加和函数输出相应的动作价值函数q值：q(st,at；θt)，其中，[0025]st为t时刻陆空两栖无人车的状态值，at为t时刻陆空两栖无人车的运动动作，θt为当前决策神经网络的参数。[0026]作为上述方法的一种改进，所述步骤2)的∈贪婪方法包括：[0027]对动作价值函数q值进行范围为(0,1)之间的均匀抽样，如果抽样数值小于设定的epsilon数值，以随机抽样方式选择动作，如果抽样数值大于设定的epsilon数值，则选择动作概率分布中最大概率对应的动作。[0028]作为上述方法的一种改进，所述步骤2)的好奇心驱动方法包括：[0029]输入当前状态st得到相应的动作at，并将当前动作输入环境，得到下一时刻状态st+1；[0030]通过预先建立的特征提取网络，得到特征ft+1，将ft+1和at同时输入到正向预测生成网络中，得到预测的特征值f‘t+1；[0031]通过对ft+1和f‘t+1做差的方式得到内在激励奖励函数[0032]采用均方损失函数构造ft+1和f‘t+1的损失函数，并通过预测优化器不断优化正向预测生成网络，使预测更加准确。[0033]作为上述方法的一种改进，所述通过对ft+1和f‘t+1做差的方式得到内在激励奖励函数具体包括：[0034]当地面行驶模态沿x轴每前进1m，[0035]当地面行驶模态沿x轴每后退1m，[0036]当每偏离中心线1m，[0037]当每一次起飞，[0038]当每一次降落，[0039]当飞行模态下每训练步长，[0040]当地面模态下每训练步长，[0041]当发生碰撞，[0042]当到达终点，[0043]作为上述方法的一种改进，所述步骤3)每一步的运动相关数据包括当前状态st，动作at，内在激励和预先设定由环境中产生的外在激励[0044]一种陆空两栖无人车自动模态切换与地面避障的训练系统，所述系统包括：训练场景构建模块、动作决策模块、网络优化模块和训练输出模块；其中，[0045]所述训练场景构建模块，用于基于gazebo仿真器构建包括路空两栖无人车、障碍物锥筒和墙体的训练场景；[0046]所述动作决策模块，用于基于机器学习强化学习原理，将路空两栖无人车在训练场景中获取的当前时刻感知信息输入决策神经网络，采用∈贪婪方法与好奇心驱动方法相结合的策略规划行进轨迹并判断是否需要切换运动模态，将动作指令传入gazebo仿真器，指挥gazebo仿真器中的路空两栖无人车进行运动；[0047]所述网络优化模块，用于将每一步的运动相关数据存入经验池，基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化；转至动作决策模块，直至路空两栖无人车触发终止条件或满足预设的训练步长，则终止一个训练周期；[0048]所述训练输出模块，用于当未满足预设的训练周期总数，转至训练场景构建模块开始一个新的训练周期，否则得到训练好的决策神经网络。[0049]与现有技术相比，本发明的优势在于：[0050]1、本发明提出了一种基于强化学习的陆空两栖无人车模态决策仿真器训练的方法。该方法在强化学习算法方面选用了ddqn网络，有效消除了强化学习中对状态动作值q估计过高的问题，并加入了好奇心驱动机制(curiosity-driven，鼓励无人车进行探索，同时通过n步td误差估计方法，减少了对状态动作值q的估计误差；[0051]2、本发明提出了与强化学习算法相配套的仿真器训练环境，该环境基于gazabo仿真器，并依照openai-gym的编写格式，对其他的强化学习算法也有很强的适应性；在仿真器中按照真实两栖无人车进行建模，还原了其在真实世界中的动力学模型，真实模拟了两栖无人车的传感器对周围环境的信息采集；[0052]3、本方法为多模态自动驾驶这一全新领域下一种可靠训练方法，为该领域提供了可实现方案。附图说明[0053]图1是仿真场景示意图；[0054]图2是激光雷达感知图；[0055]图3是引入方向势场后感知图；[0056]图4是极坐标转化后感知图；[0057]图5是随机生成的训练地图；[0058]图6是路空两栖无人车的测试地图；[0059]图7是决策神经网络结构；[0060]图8是好奇心网络示意图；[0061]图9是本发明的陆空两栖无人车自动模态切换与地面避障的训练方法流程图；[0062]图10是本发明的算法流程图。具体实施方式[0063]考虑到上述的问题，提出了本发明的多个方面，提供了快速训练陆空两栖无人载具自动模态切换的方法和系统，以下简称两栖无人车或无人车，并通过gazabo仿真环境和基于强化学习的决策方法来实现。[0064]本发明的第一个方面是，提供了一种充分模拟陆空两栖载具模态切换的仿真平台，该环境搭建基于gazebo环境，使两栖无人车仿真平台能够适用于所有主流强化学习算法。该平台可包括：仿真器中无人车模型，充分模拟两栖车在真实环境中感知与运动状态；仿真器中障碍物，模拟真实环境中障碍物与不可行驶通过地形；仿真器与算法终端接口，连接仿真器与决策网络，维持两者之间数据传输。[0065]本发明的第二个方面是，设计了基于duelingdqn的快速收敛决策算法。该算法可包括：duelingdqn为主体的网络，增加了网络的稳定性；加入优先经验回放(prioritizedexperiencereplay)机制加快算法收敛速度；网络更新方法采用n步时序差分法，增加网络更新过程中的稳定性；对于n步时序差分法智能体，选用了好奇心驱动(curiosity-driven)的探索方式，增加无人车探索未知状态空间的几率。[0066]该方法的主要流程为：[0067]首先gazabo中搭载环境，搭建两栖无人车所需要的环境，包括可以判定是否和无人两栖车发生碰撞的障碍物，判断无人两栖车是否超过边界的场地。随后初始化环境，将无人两栖车放置于起点,将障碍物随机布置在模拟训练场地中，训练所需环境搭载完成。[0068]其次开始进行决策算法训练，该算法基于机器学习强化学习的原理，并编写在python脚本中，算法首先与gazebo环境进行交互，仿真环境中的无人车对周围环境进行感知，将感知所得到的信息传入决策神经网络，决策神经网络根据无人车感知的信息和当前所处的状态进行决策，规划出行进的轨迹并且判断是否需要切换运动模态，并将该指令传入仿真器中，指令无人车进行运动，遵照gazebo仿真环境中的物理引擎进行运动。重复上述过程，直到无人车与障碍物发生碰撞，抵达终点或者超出场地限制。[0069]随后通过记录所得到的轨迹，决策算法计算出无人车此次行进轨迹中得到的奖励，计算得到相应的神经网络的损失函数，基于损失函数进行梯度下降，优化更新决策神经网络。当决策神经网络优化后，gazebo仿真器重新布置环境，无人车重新依据决策神经网络的指令进行运动，重新开始一次训练。[0070]不断重复上述过程，直到该决策神经网络收敛且无人车顺利从起点抵达终点，并且无人车可以多次无碰撞的寻到路径，说明决策神经网络已收敛并且可以帮助两栖无人车进行运动。[0071]下面结合附图和实施例对本发明的技术方案进行详细的说明。[0072]实施例1[0073]本发明的实施例1提出了一种陆空两栖无人车自动模态切换与地面避障的训练方法。[0074]本发明的第一个方面是根据openaigym的格式搭建的gazebo仿真平台，针对不同的算法，该仿真平台有着较强的适配性。其场景设定由三个部分组成：陆空两栖无人车，障碍物锥筒，限制运动范围的墙体。其具体设定为：陆空两栖无人车从固定起点出发，向仿真器中已设定的固定终点位置移动，无人车的运动范围不可超出围墙所划定的区域。行进过程中，无人车可自由切换飞行和地面行驶两种行进模态，如与障碍物发生碰撞则判定失败。其场景设定图如图1所示。[0075]为更好模拟现实中的车辆的行进轨迹，在仿真器的仿真环境中，陆空两栖无人车选择阿克曼底盘建立运动学模型，并依据底盘特性设计仿真环境中的动作空间。设定如表1所示：[0076]表1陆空两栖无人车运动空间(注：转向方向以右为正方向，左为负方向)[0077][0078][0079]无人车在地面行驶模态下，动作[0,1,2,3,4,5]为有效动作，当其位于飞行模态下，动作[5,6]为有效动作。仿真器中无人车的七种动作可以覆盖现实世界中无人车绝大多数运动状态，大大增加了仿真器的真实性。[0080]对于仿真器中两栖无人车的传感器，本发明选择了激光雷达和高度计两种传感器为两栖无人车采集信息用于网络训练。[0081]其中激光雷达作为感知障碍物的输入，可得以当前无人车为坐标原点的坐标系下，周围障碍物的相对位置，计算出无人车周围一定范围的地图信息，将这一局部地图使用势场的形式丰富信息，如图2所示。为引导两栖无人车行进，加入另一正值势场至感知图，感知图中心指向势场中心的方向即为无人车指向终点的方向，如图3所示。通过将带有方向势场的感知图从欧氏空间转化至极坐标空间，增强无人车决策神经网络感知性，如图4所示。[0082]本发明为增大被采集数据的多样性，增加强化学习决策网络可迁移性，进而增进无人车对不同环境的适应性，每次训练开始前，会在仿真器中随机产生障碍物的位置和个数，从而生成不同地图供无人车采集数据，迭代决策网络。在每次训练的开始前，仿真器随机生成0-5个障碍物，其随机分布于长[5,15]，宽[-3.05,3.05]的长方形区域中，如图5所示。[0083]除去无人车训练地图，本发明同样设计无人车测试地图。为控制因地图变化而产生的变量，客观评估被测无人车决策网络训练程度，测试无人车的避障能力和起降时机决策的能力，该地图中障碍物位置固定，如图6所示。通过相同地图，多次重复独立的测试，准确评估出无人车行进模态切换与自动驾驶能力。[0084]本发明第二个方面是：以stablebaseline3的dqn算法为基础的无人车自动模态切换决策算法，本发明改进并加入doubledqn网络、priorityexperiencereplay经验回放过程、n-steptd迭代更新方法和curiosity-drivenexploration探索激励机制，大幅加快训练过程，有效解决神经网络中梯度爆炸与梯度消失问题，从而快速且平稳地迭代决策神经网络，更新无人车行进模态切换策略。[0085]本发明中的决策网络的输入为二维图像和一维数据的结合。对于输入的二维图像信号，本发明采用三层卷积神经网络进行图像信息处理，将卷积神经网络输出的堆积成为一维向量后，与高度信息进行向量的拼接后，作为后续的全连接层的输入。经过四层全连接层输出相应的状态空间q值，具体的网络架构如图7所示。[0086]s1：[0087]在上述网络中，给定输入观测量(observation)的情况下输出每个动作对应的价值，也称为状态动作值函数q值，可表示为q(st,at；θt)，其中st为t时刻的观测值，at为t时刻的动作，θt为当前网络的参数。[0088]duelingdqn算法基于强化学习中的优势函数，可表示为：[0089]a*(s,a)＝q*(s,a)-v*(s)[0090]其中a*(s,a)是在状态s下执行a的优势函数，q*(s,a)状态s下执行a的状态价值函数，v*(s)是在状态s下的价值函数。a*(s,a)表示了在状态s的条件下，执行a动作相比于平均动作的优势，a的数值越大表明该动作越优秀。[0091]其中对公式1两边同时对动作a取最大值时推导而得maxaa*(s,a)，通过如下的公式：[0092]maxaa*(s,a)＝maxaq*(s,a)-v*(s)[0093]通过推导可得如下duelingdqn的基本公式：[0094]q*(s,a)＝v*(s)+a*(s,a)-maxaa*(s,a)[0095]s2:[0096]duelingdqn网路中动作采样的方式为epsilon-greedy的方法进行探索，即每步随机探索的概率为∈，其工作过程如下，进行范围为(0,1)之间的均匀抽样，如果该抽样数值小于epsilon数值，算法会在动作空间中通过随机抽样方式选择动作，如果该抽样数值大于epsilon数值，算法直接选择动作概率分布中最大概率对应的动作。[0097]s3：[0098]本发明为了增加智能体的对未知状态的探索性，采用epsilon-greedy之余，同时采用了好奇心激励网络。好奇心激励网络构造如图8中所示。其工作流程如下：[0099]1)首先与传统强化学习相同，输入当前状态st得到相应的动作atat，并将当前动作输入环境，得到下一时刻对应的动作st+1。[0100]2)通过一个固定的，不会更新的特征提取网络，输入t+1时刻对应的状态，得到特征ft+1。将t+1时刻的特征ft+1和t时刻的动作at同时输入到正向预测生成网络中，得到预测的特征值f‘t+1[0101]3)通过ft+1和f‘t+1做差的方式得到了内在激励奖励函数[0102]4)采用均方损失函数构造ft+1和f‘t+1的损失函数，并通过优化器不断优化预测正向预测生成网络，期望预测生成网络更加准确。[0103]s4：[0104]为让决策网络中参数集更新方向符合预期制定性能，本发明针对两栖无人车设计特定的奖励信号，如表2所示：[0105]表2奖励信号设计[0106]序号奖励信号1地面行驶模态沿x轴每前进1m,得到50奖励2地面行驶模态沿x轴每后退1m,得到50惩罚3每偏离中心线1m，得到0.1的惩罚4每一次起飞得到10的惩罚5每一次降落得到5的惩罚6飞行模态下每训练步长获得11的惩罚7地面行走模态每训练步长获得1的奖励8发生碰撞获得1000惩罚并结束训练周期，返回起始点9到达终点获得100奖励并结束训练周期，返回起始点[0107]s5：[0108]通过步骤s3中的奖励信号，可得无人车每一步长中相对应的奖励。对于奖励信号，本发明采用duelingdqn网络的估算方式计算状态动作函数q，与传统dqn算法不同之处在于，使用两个网络来预估的状态动作函数q值，减少过高估计对最终策略的影响。预估q值的计算如下：[0109][0110]stablebaseline3的dqn算法只使用了传统dqn的公式。本发明改进了stablebaseline3的网络，应用了doubledqn估算状态动作值函数q，减少过高估计情况的发生，加速算法的收敛。[0111]s6：[0112]传统dqn算法在与环境交互的过程中将采集得到的数据储存在一个数据池(buffer)中，网络更新过程中对数据池中的数据进行均匀抽样,抽样得到的数据进行网络的迭代。与传统的dqn算法不同的是，本发明使用优先经验回放(prioritizedexperiencereplaybuffer)方法,该方法根据每组数据的时序误差决定被选取的优先级，保证时序误差较大的数据优先进行训练,并在接下来的训练中，反复抽取高优先级的数据。这种方法可以保证蕴含更多信息量的数据优先输送如网络,全局加快网络学习速度。时序误差的计算公式为：[0113][0114]传统dqn算法的更新采用一步时序差分算法，即[0115][0116]其中为预估q值，rt+1为t+1时刻的奖励，γ为折扣率，为目标网络的参数，作为训练网络q(st,at；θt)的目标值，这种更新方式首先容易让神经网络陷入局部最优困局，而忽略全局最优解，最终的决策网络的性能下降。为了获得更准确的q值估计，本发明使用了n步时序差分法，具体计算公式如下：[0117][0118]n步时序差分法通过多步数据采样，可以很好的弥补单步时序差分更新所带来的过度估计的问题。[0119]结合仿真器环境与算法s1-s5，本发明的具体实施方法如下：如图9所示，[0120]1)初始化dqn网络好奇心网络ftarget(s0,a0),f(s0,a0),初始化超参数n0,n,∈,k,n,w,γ，s0为初始化的状态，a0是依据初始状态采集到的动作并重置仿真器训练环境，即为随机生成一个新的训练环境。无人车选用随机抽取动作的探索方式，进行n0步的探索，将收集得到数据存入经验池(experiencebuffer)[0121]2)开始强化学习训练一个周期。[0122]3)开始该强化学习周期下的一个训练步长。[0123]4)在该步长中，首先对周围环境进行观测，收集观测量(observation)。[0124]5)根据观测量，进行动作的选择。动作选择过程即为前文s2过程。采用贪心策略与好奇心驱动策略相结合的方式进行动作抽样。[0125]6)计算无人车此次执行动作所获得的汇报，通过s3过程，依据表2算出相应的奖励信号。。[0126]7)在环境中执行action，获取下一步的观测量信息，将以往信息存入经验池(experiencebuffer)。[0127]8)使用观测量和动作训练好奇心网络，loss为：[0128][0129]9)从buffer中抽取k组数据，根据s4步骤中n步td公式的状态动作值估算方法，得到预估的目标状态动作值q，即为yt。[0130]10)使用梯度下降方法训练duelingdqn网络，loss的计算公式为[0131][0132]同时根据loss更新相对应数据在经验池(experiencebuffer)中的优先级。[0133]11)每m步通过adam优化器根据计算出的损失函数优化神经网络，更新一次网络权重。[0134]12)结束一个训练步长。[0135]13)根据已训练步数更新∈,w。[0136]14)结束一个训练周期。[0137]15)重复上述训练过程2)-14)。[0138]强化学习算法示意图可见图10。[0139]实施例2[0140]本发明的实施例2提出了一种陆空两栖无人车自动模态切换与地面避障的训练系统，基于实施例1的方法实现，所述系统包括：训练场景构建模块、动作决策模块、网络优化模块和训练输出模块；其中，[0141]所述训练场景构建模块，用于基于gazebo仿真器构建包括路空两栖无人车、障碍物锥筒和墙体的训练场景；[0142]所述动作决策模块，用于基于机器学习强化学习原理，将路空两栖无人车在训练场景中获取的当前时刻感知信息输入决策神经网络，采用∈贪婪方法与好奇心驱动方法相结合的策略规划行进轨迹并判断是否需要切换运动模态，将动作指令传入gazebo仿真器，指挥gazebo仿真器中的路空两栖无人车进行运动；[0143]所述网络优化模块，用于将每一步的运动相关数据存入经验池，基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化；转至动作决策模块，直至路空两栖无人车触发终止条件或满足预设的训练步长，则终止一个训练周期；[0144]所述训练输出模块，用于当未满足预设的训练周期总数，转至训练场景构建模块开始一个新的训练周期，否则得到训练好的决策神经网络。[0145]最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。当前第1页12当前第1页12

技术特征：

1.一种陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述方法包括：步骤1)基于gazebo仿真器构建包括路空两栖无人车、障碍物锥筒和墙体的训练场景；步骤2)基于机器学习强化学习原理，将路空两栖无人车在训练场景中获取的当前时刻感知信息输入决策神经网络，采用∈贪婪方法与好奇心驱动方法相结合的策略规划行进轨迹并判断是否需要切换运动模态，将动作指令传入gazebo仿真器，指挥gazebo仿真器中的路空两栖无人车运动；步骤3)将每一步的运动相关数据存入经验池，基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化；转至步骤2)，直至路空两栖无人车触发终止条件或满足预设的训练步长，则终止一个训练周期；步骤4)当未达到预设的训练周期总数，转至步骤1)开始一个新的训练周期，否则得到训练好的决策神经网络。2.根据权利要求1所述的陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述步骤1)包括：随机生成若干个障碍物锥筒，其随机分布于设定长宽尺寸的墙体长方形区域内；设定陆空两栖无人车运动的固定起点和固定终点；设定陆空两栖无人车的运动范围不可超出墙体长方形区域，行进过程中，可自由切换飞行和地面行驶两种运动模态，当与障碍物锥筒或墙体发生碰撞则判定失败。3.根据权利要求2所述的陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述陆空两栖无人车的运动动作包括七种有效动作，在地面行驶模态下，动作[0,1,2,3,4,5]为有效动作，在飞行模态下，动作[5,6]为有效动作，其中，动作[0]为按设定的轮转线速度直行；动作[1]包括设定的轮转线速度，轮转角速度为第一轮转速度，方向向右；动作[2]包括设定的轮转线速度，轮转角速度为第二轮转速度，方向向右；动作[3]包括设定的轮转线速度，轮转角速度为第一轮转速度，方向向左；动作[4]包括设定的轮转线速度，轮转角速度为第二轮转速度，方向向左；动作[5]为旋翼转动提供起飞或前向飞行所需升力；动作[6]为旋翼转速减慢，无人车稳定降落。4.根据权利要求2所述的陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述路空两栖无人车设置激光雷达和高度计，用于在训练场景中获取包括二维图像和高度信息的感知信息。5.根据权利要求4所述的陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述决策神经网络为ddqn网络，输入为二维图像和高度信息，输出为动作价值函数q值，所述决策神经网络包括三层卷积神经网络、两个并联的四层全连接层以及加和函数；具体处理过程包括：三层卷积神经网络对输入的二维图像进行图像信息处理，将卷积神经网络的输出堆积成为一维向量后，分两路分别与高度信息进行向量的拼接后，作为两个全连接层的输入，经过四层全连接层，再经过加和函数输出相应的动作价值函数q值：q(s
t
,a
t
；θ
t
)，其中，s
t
为t时刻陆空两栖无人车的状态值，a
t
为t时刻陆空两栖无人车的运动动作，θ
t
为当前
决策神经网络的参数。6.根据权利要求5所述的陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述步骤2)的∈贪婪方法包括：对动作价值函数q值进行范围为(0,1)之间的均匀抽样，如果抽样数值小于设定的epsilon数值，以随机抽样方式选择动作，如果抽样数值大于设定的epsilon数值，则选择动作概率分布中最大概率对应的动作。7.根据权利要求5所述的陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述步骤2)的好奇心驱动方法包括：输入当前状态s
t
得到相应的动作a
t
，并将当前动作输入环境，得到下一时刻状态s
t+1
；通过预先建立的特征提取网络，得到特征f
t+1
，将f
t+1
和a
t
同时输入到正向预测生成网络中，得到预测的特征值f
‘
t+1
；通过对f
t+1
和f
‘
t+1
做差的方式得到内在激励奖励函数采用均方损失函数构造f
t+1
和f
‘
t+1
的损失函数，并通过预测优化器不断优化正向预测生成网络，使预测更加准确。8.根据权利要求7所述的陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述通过对f
t+1
和f
‘
t+1
做差的方式得到内在激励奖励函数具体包括：当地面行驶模态沿x轴每前进1m，当地面行驶模态沿x轴每后退1m，当每偏离中心线1m，当每一次起飞，当每一次降落，当飞行模态下每训练步长，当地面模态下每训练步长，当发生碰撞，当到达终点，9.根据权利要求8所述的陆空两栖无人车自动模态切换与地面避障的训练方法，其特征在于，所述步骤3)每一步的运动相关数据包括当前状态s
t
，动作a
t
，内在激励和预先设定由环境中产生的外在激励10.一种陆空两栖无人车自动模态切换与地面避障的训练系统，其特征在于，所述系统包括：训练场景构建模块、动作决策模块、网络优化模块和训练输出模块；其中，所述训练场景构建模块，用于基于gazebo仿真器构建包括路空两栖无人车、障碍物锥筒和墙体的训练场景；所述动作决策模块，用于基于机器学习强化学习原理，将路空两栖无人车在训练场景中获取的当前时刻感知信息输入决策神经网络，采用∈贪婪方法与好奇心驱动方法相结合的策略规划行进轨迹并判断是否需要切换运动模态，将动作指令传入gazebo仿真器，指挥
gazebo仿真器中的路空两栖无人车进行运动；所述网络优化模块，用于将每一步的运动相关数据存入经验池，基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化；转至动作决策模块，直至路空两栖无人车触发终止条件或满足预设的训练步长，则终止一个训练周期；所述训练输出模块，用于当未满足预设的训练周期总数，转至训练场景构建模块开始一个新的训练周期，否则得到训练好的决策神经网络。

技术总结

本发明提出了一种陆空两栖无人车自动模态切换与地面避障的训练方法，该方法包括：步骤1)基于Gazebo仿真器构建训练场景；步骤2)基于机器学习强化学习原理，将路空两栖无人车在训练场景中获取的感知信息输入决策神经网络，采用∈贪婪方法与好奇心驱动结合的策略规划行进轨迹及切换运动模态，将动作指令传入Gazebo仿真器指挥无人车运动；步骤3)将运动相关数据存入经验池，基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化；转至步骤2)直至无人车触发终止条件或满足预设的训练步长，则终止一个训练周期；步骤4)当未达到训练周期总数，转至步骤1)开始一个新的训练周期，否则得到训练好的决策神经网络。络。络。