移动机器人自主寻路避障启发式动态规划算法

自动泄压阀

方啸;郑德忠

【摘要】用启发式动态规划算法解决移动机器人自主寻路、避障问题.提出了传感器检测环境状态的方法,以及对传感器检测信息进行归一化处理的方案.对输入、输出量以及学习系统的强化信号进行定义,设计了机器人自主学习寻路、避障的控制策略.定义了连续型强化信号,使机器人通过学习,对优先寻路还是优先避障做出决策判断.为验证启发式动态规划算法在移动机器人寻路、避障问题上的学习能力,设计了3种不同的寻路、避障仿真实验:同目标、不同起始点,同起始点、不同目标,和移动目标仿真实验.仿真结果表明,对于不同的寻路、避障要求,基于启发式动态规划算法的移动机器人具有良好的学习及适应能力.

【期刊名称】《农业机械学报》

【年(卷),期】2014(045)007

【总页数】6页(P73-78)

【关键词】光纤环网移动机器人;寻路避障;启发式动态规划;强化学习

【作者】方啸;郑德忠

【作者单位】燕山大学电气工程学院,秦皇岛066004;罗德岛大学电气工程学院,罗德岛州金士顿02881;燕山大学电气工程学院,秦皇岛066004

【正文语种】中文

【中图分类】O221.3;TP242

引言

移动机器人自主寻路、避障问题是设计一个有自主学习能力的移动机器人，使其在未知环境里能通过学习，无碰撞地从给定起点行走到达指定目标［1－4］。目前，学者们最常讨论的方法是模糊神经网络算法［2－7］。该算法通过神经网络对输入量进行模糊化处理，并利用逻辑语言对输出量进行逻辑规则定义。其控制策略是通过输出量对逻辑规则表寻址，做出相应的寻路、避障动作。然而，该算法众多逻辑规则（如文献［7］定义了48条逻辑规则）占据了大量的储存空间，影响了计算速度。且对输出量进行人为规则定义，在环境变化的状态下其适用性不强。

本文提出用启发式动态规划算法［8］解决移动机器人寻路、避障问题的方案。与模糊神经网络算法相比，自适应动态规划算法无需通过逻辑语言对机器人行为进行人为定义，只需给出相应的环境状态信息，机器人便可在线学习寻路、避障策略［9］。在算法设计上，本文通过归一化处理输入、输出信号，对机器人寻路、避障策略进行设计。此外，连续型强化信号的定义使机器人能在学习过程中对寻路和避障的优先选择权做出自主判断。

1 启发式动态规划算法原理

自适应动态规划算法（Adaptive dynamic programming，ADP）是解决动态规划问题较好的算法之一［10－13］。其基本思想是采用贝尔曼最优化原理，通过在线环境交互，自行学习并改善控制策略（函数逼近Hamilton－Jacobi－Bellman（HJB）方程近似解），进而使系统趋于最优［8，14－16］。这种在线学习方式属于强化学习（Reinforcement learning，RL）［17－18］过程。它有别于监督学习（Supervised learning，SL）：监督学习是通过比较实际输出值与期望输出值的误差数值来调节系统的控制策略；而在强化学习里，系统并不知期望的输出值，仅通过学习过程中从环境里实时反馈的强化信号（奖励（reward）值或惩罚（punish）值）来判断当前控制策略的“好”、“坏”［10］。其目的是通过自主调节控制策略，使系统趋于“好”（最优）的状态［15，19］。

在自适应动态规划算法的结构里，启发式动态规划（Heuristic dynamic programming，HDP）算法是自适应动态规划算法里一个最基本的扩展结构［8，19－20］。该算法结构由一个动作网络和一个评价网络组成（如图1所示）。

其中动作网络为系统提供行为策略，评价网络则对当前行为策略进行评估［8，19］。算法的具体工作原理为：①两个网络里均含有一个多层感知机（Multi－layer perception，MLP）结构的神经网络，且神经网络里均含有一个隐藏层［21－22］。②动作网络根据系统的当前状态量 X（t），提供一个决策动作u（t）。③该决策动作 u（t）与 X（t）一同输入到评价网络。④评价网络根据动作网络输入量以及系统环境提供的强化信号 r（t），计算出代价函数 J（t），用以对当前决策动作进行评估。⑤系统利用梯度下降法则依次对动作网络和评价网络里的神经网络权值进行反馈调节，最小化代价函数 J（t），进而最优化控制策略 u（t）［10－11，19，23］。

图1 启发式动态规划算法结构图Fig.1 Structure of heuristic dynamic programming

任意时刻t，代价函数J的计算公式为

式中X（t）——系统状态量

u（t）——系统输出信号 U——效用函数

α——折扣因子（0＜α＜1），本文取 α＝0.95

动态规划的最优原理是根据当前系统状态量X（t），寻一个最优输出量 u（t），使系统的效用（利益）最大化［10，19］。效用最大化即代价最小化，因此动作网络反馈调节原理是通过比较效用函数期望值Uc（本文取 Uc＝0）和代价函数 J（t）的大小，从而最小化代价函数。代价函数最小化公式为

动作网络的动作误差为

为最小化动作误差 Ea（t）（使 J（t）趋于 Uc），动作网络里的神经网络权值更新法则为

/api/v3/search?p=1&t=all&q=式中wa（t）——动作网络权值矩阵

la（t）——动作网络学习速率，la（t）＞0

评价网络的作用是通过强化信号 r（t）对系统当前动作u（t）做出实时评估。根据马尔可夫决策理论［24］，任意时刻 t的折扣奖励值无穷累加和 R（t）计算公式为

棘轮棘爪

式中r（t＋1）——时刻 t＋1的强化信号

评价网络反馈调节策略是利用代价函数 J（t）去近似折扣奖励值无穷累加和R（t）。因此，评价网络的评价误差为

为最小化评价误差 Ec（t），评价网络里的神经网络权值更新法则为

式中wc（t）——评价网络权值矩阵

lc（t）——评价网络学习速率，lc（t）＞0

2 移动机器人寻路避障设计

2.1 移动机器传感器设置

本文移动机器人利用多个传感器检测环境状态，其传感器设置如图2所示。

图2 移动机器人传感器设置原理图Fig.2 Schematic of sensors setting for mobile robot

该移动机器人安置有6个传感器，其中前置、左置、右置、左前、右前传感器均为距离传感

豆袋弹器，用于检测机器人前进途中的周边环境状态［7］。其测量范围均为 l（本文取 l＝10 m）。d1、d2、d3、d4、d5为5个传感器测量值，即机器人与障碍物或目标的距离。

为使距离传感器在检测过程中能区分障碍物和目标，本文将障碍物和目标设置为不同形状、不同颜，如图3所示障碍物：蓝圆形；目标：红星形，并定义了一个区分系数γ：当检测到的物体为目标时，γ＝1；当检测到的物体为障碍物时，γ＝－1；当传感器未检测到任何物体时γ＝0。

除了距离传感器外，机器人还安置有一个目标传感器，该传感器用于检测目标所在方向与机器人前进方向的夹角θ2。在强化学习里，目标的具体位置是未知的，目标传感器的作用只是为机器人提供一个目标所在的大致方位，以便于其寻路。

2.2 移动机器人自适应学习系统设计

6个传感器测量值将被归一化处理，作为学习系统的输入信号。归一化处理方式为：距离传感器测量值

5个距离传感器的测量值 di被归一化到值域［－1，1］，其中 xi＝－1表示机器人撞到障碍

物，xi＝1表示机器人到达终点，xi＝0表示未检测到障碍物或目标。

目标传感器测量值

式中θ1——移动机器人前进方向与水平方向夹角

θ2——目标所在方向与机器人前进方向的夹角

Δθ——机器人前进方向与目标所在方向的角度偏差

θ——归一化处理后的测量值，当输入量θ＝1或θ＝－1时，表示机器人已背向目标行驶

归一化处理6个传感器测量值后，系统状态输入量 X（t）为

对于系统的决策动作，本文定义机器人以恒定的速度（v＝1 m/s）在环境中行驶，且在任意时刻 t，机器人可对其前进方向进行－10°（向左）、10°（向右）或0°（直行）的调整。系统的决策动作利用 sgn函数定义为

静态管理当系统输出量u（t）＞0时，机器人向左调整其前进方向 10°；u（t）＜0时，机器人向右调整前进方向10°；u（t）＝0时，机器人将保持其前进方向直行。

强化信号的设计，首先机器人根据区分系数γ的正负值对检测到的是目标还是障碍物进行判断。如果检测到的是目标，则分析函数Sen将取xi中的最大值；相反，如果检测到是障碍物，分析函数 Sen将取xi中的最小值。即

本文发布于:2024-09-21 04:30:34，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/104246.html

上一篇：追光者们：光纤通信走过的一百年

下一篇：文网文业务发展报告

标签：目标机器人学习网络传感器系统算法

留言与评论（共有 0 条评论）