路径规划和任务分配方法、装置、服务设备及存储介质



1.本发明涉及无人车执行任务技术领域,尤其涉及一种路径规划和任务分配方法、装置、服务设备及存储介质。


背景技术:



2.随着车联网技术的发展,人民生活与工业生产对智能化生产水平的要求逐渐增高,越来越多的研究人员对无人车的相关研究领域进行了较为深刻的探索。在一些普通场景中,无人车可以被用来替代人类去完成大量工作或完成人类所不能完成的工作,而在一些紧急和危险的场景中,该无人车甚至是不可替代的。
3.在无人的复杂环境下,至少一个无人车在执行任务时,现有的大多数任务分配方法是基于任务点位置间的直线距离得到的,然而,这些任务分配方法在应用于至少一个无人车时,会使得这至少一个无人车产生较大的额外开销,同时,这至少一个无人车可能无法以最优路径执行相应任务,从而导致任务执行的效率较低。


技术实现要素:



4.本发明提供一种路径规划和任务分配方法、装置、服务设备及存储介质,该方法考虑到了更现实的三维(3dimensions,3d)环境地理因素,建立综合了路径距离和地势起伏等多种因素的路径开销模型,利用深度强化学习(deep reinforcement learning,drl)算法探索和学习多个位置间的最优路径并获得相应的路径开销矩阵,并基于此路径开销矩阵,利用蚁算法,解决至少一个无人车与至少一个任务点之间的最优任务分配问题。
5.本发明提供一种路径规划和任务分配方法,包括:
6.在目标区域内,获取多个位置,该位置包括至少一个无人车的当前位置及至少一个任务点位置;
7.根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵;
8.根据该路径开销矩阵,利用蚁算法,确定该至少一个无人车中每个无人车对应的任务分配策略;
9.根据该目标任务分配策略,控制该目标无人车执行相应任务,该目标无人车为该至少一个无人车中的任一无人车。
10.根据本发明提供的一种路径规划和任务分配方法,该在目标区域内,获取多个位置,包括:在目标区域内,获取至少一个任务点位置,并接收至少一个无人车分别发送的当前位置。
11.根据本发明提供的一种路径规划和任务分配方法,该根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵,包括:根据该多个位置,基于预设的马尔可夫决策网络,确定该多个位置对应的至少一条路径及该至少一条路径分别对应的奖励;根据该奖励,确定该至少一条路径分别对应的开销;根据至少一个开销,确定该
多个位置对应的路径开销矩阵。
12.根据本发明提供的一种路径规划和任务分配方法,该预设的马尔可夫决策网络包括目标网络;该预设的马尔可夫决策网络是基于以下步骤得到的:从该多个位置中,确定该目标无人车的当前位置状态;基于当前位置状态,选择该当前位置状态对应的运行动作,确定该运行动作对应的奖励及该当前位置状态对应的下一位置状态,并存储至记忆库中;将该记忆库中随机采样的n个样本输入至该目标网络,更新该目标网络对应的位置状态和运行动作对应的目标行为值函数q1,并更新预设的马尔可夫决策网络对应的参数,n为大于等于1的整数。
13.根据本发明提供的一种路径规划和任务分配方法,该预设的马尔可夫决策网络包括初始化网络,该基于当前位置状态,选择该当前位置状态对应的运行动作,获得该运行动作对应的奖励及该当前位置状态对应的下一位置状态,包括:将该当前位置状态输入至该初始化网络,得到该当前位置状态和所有运行动作对应的当前行为值函数q2;利用贪婪算法,根据随机概率按照随机选择动作或者最大值函数选择动作,得到该当前位置状态对应的运行动作;获取该当前位置状态对应的第一高度、障碍点信息、下一位置状态及该下一位置状态对应的第二高度;根据该第一高度、该障碍点信息及该第二高度,确定该运行动作对应的奖励。
14.根据本发明提供的一种路径规划和任务分配方法,该更新预设的马尔可夫决策网络对应的参数,包括:根据该目标行为值函数q1及该当前行为值函数q2,得到损失函数;根据该损失函数,更新预设的马尔可夫决策网络对应的参数。
15.根据本发明提供的一种路径规划和任务分配方法,该基于当前位置状态,选择该当前位置状态对应的运行动作,确定该运行动作对应的奖励及该当前位置状态对应的下一位置状态,并存储至记忆库中,包括:基于当前位置状态,选择该当前位置状态对应的运行动作,确定该运行动作对应的奖励及该当前位置状态对应的下一位置状态;将该当前位置状态、该运行动作、该奖励及该下一位置状态作为样本存储在记忆库中,并将该下一位置状态作为新的当前位置状态。
16.本发明还提供一种任务执行装置,包括:
17.获取模块,用于在目标区域内,获取多个位置,该位置包括至少一个无人车的当前位置及至少一个任务点位置;
18.路径规划模块,用于根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵;
19.任务分配模块,用于根据该路径开销矩阵,利用蚁算法,确定该至少一个无人车中每个无人车对应的任务分配策略;
20.执行模块,用于根据该目标任务分配策略,控制该目标无人车执行相应任务,该目标无人车为该至少一个无人车中的任一无人车。
21.本发明还提供一种服务设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述路径规划和任务分配方法。
22.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述路径规划和任务分配方法。
technology,5g)及无线保真技术(wireless fidelity,wifi)等。
37.如图1所示,是本发明提供的路径规划和任务分配方法的场景示意图。在图1中,对路径规划和任务分配方法进行仿真实验,可得到环境模型10。在该环境模型10中,服务设备101与无人车102之间可通过无线通信技术进行连接,无人车102的数量为m个,m≥1。这m个无人车102可向服务设备101上传局部环境信息;服务设备101可向m个无人车102分别下发全局路径规划模型及每个无人车对应的任务分配策略。
38.其中,局部环境信息可以包括但不限于当前位置和无人车102所在当前位置的地势情况等。
39.任务分配策略可以包括无人车需要执行的任务集合及该任务集合中任务的执行顺序。
40.在该环境模型10中,无人车102所在的目标区域可以仿真为一个尺寸为w*w的栅格离散环境ω,ω∈r2,r表示实数。在ω中,每个栅格的边长可表示为λ;所有的栅格作为一个栅格集合,该栅格集合可表示为gf={c1,

,cw×w},其中,第i个栅格对应的栅格信息可表示为ci={xi,yi,hi}。
41.其中,目标区域指的是某些特定无人区域,例如:焦化厂或矿区废弃地等。该目标区域的路况信息较为复杂。
42.可选的,该目标区域是3d的。
43.上述m个无人车102可表示为v={v1,v2,

,vm};这m个无人车102对应的当前位置集合可表示为g
start
={c
v1
,c
v2
,

,c
vm
},g
start
∈gf。
44.m个无人车102的型号相同且最大装载量m相同;这m个无人车102中每个无人车102分别对应的一个第一标志,每个第一标志是不同的。
45.上述m个无人车102中目标无人车在到达任务点位置执行完任务之后,会回到该目标无人车对应的目标当前位置,该目标当前位置为该目标无人车起始出发执行任务的位置,该目标无人车对应的任务点位置中的任务可表示为t={t1,t2,

,tn},该目标无人车为上述m个无人车102中的任一无人车。其中,该目标无人车周围的虚线圈表示该目标无人车可感知到的局部环境范围对应的感知范围。
46.可选的,m个无人车102中每个无人车102执行任务的任务量q相同;这m个无人车101中第i个无人车被服务设备101分配执行的任务数可表示为ni。
47.上述任务点位置的数量为n个,n≥1,这n个任务点位置对应的总任务点集合可表示为g
task
={c
t1
,c
t2
,

,c
tn
},g
start
∈gf。
48.n个任务点位置中每个任务点位置分别对应的一个第二标志,每个第二标志是不同的。
49.可选的,在该环境模型10中,无人车102所在的目标区域中可能还会存在障碍物。
50.需要说明的是,本发明实施例的执行主体可以是任务执行装置,也可以是服务设备,下面以服务设备为例对本发明实施例进行进一步地说明。
51.如图2所示,是本发明提供的路径规划和任务分配方法的流程示意图,可以包括:
52.201、在目标区域内,获取多个位置。
53.其中,位置可以包括至少一个无人车的当前位置及至少一个任务点位置。
54.当前位置也可称为起始位置,指的是目标无人车当前所在位置对应的第一坐标信
息,该第一坐标信息可以包括第一经度信息和第一纬度信息等。
55.任务点位置指的是为焦化厂或矿区废弃地中需要无人车执行任务时所要达到位置对应的第二坐标信息,该第二坐标信息可以包括第二经度信息和第二纬度信息等。
56.在一些实施例中,在环境模型中,目标无人车的当前位置可用该目标无人车所在格栅中心点对应的二维位置坐标表示;目标任务点位置可用该目标任务点位置所在格栅中心点对应的二维位置坐标表示,该目标任务点位置为至少一个任务点位置中的任一任务点位置。
57.在一些实施例中,服务设备在目标区域内,获取多个位置,可以包括:服务设备在目标区域内,获取至少一个任务点位置,并接收至少一个无人车分别发送的当前位置。
58.可选的,目标无人车可利用设置在该目标无人车上的车载感知装置,在该车载感知装置对应的感知范围内,获取该目标无人车周围的局部环境信息。
59.其中,车载感知装置可以包括但不限于以下至少一项:视觉摄像头、激光雷达、超声波雷达及毫米波雷达等。
60.该感知范围可以是该车载感知装置出厂前设置的,也可以是用户根据目标无人车所在目标区域内实际环境情况自定义的,此处不作具体限定。
61.由于服务设备可与至少一个无人车之间通过无线通信技术进行连接,所以,在该至少一个无人车中每个无人车获取到对应的局部环境信息之后,该每个无人车可以向该服务设备发送该对应的局部环境信息中的当前位置,然后,该服务设备可以接收该每个无人车分别发送的当前位置。也就是说,该服务设备可以获取至少一个当前位置。同时,该服务设备还可以获取至少一个任务点位置。
62.在一些实施例中,在环境模型中,服务设备可以接收m个无人车分别发送的当前位置,也即,该服务设备可以获取m个当前位置。同时,该服务设备还可以获取n个任务点位置。
63.202、根据多个位置,基于预设的马尔可夫决策网络,得到多个位置对应的路径开销矩阵。
64.在一些实施例中,服务设备可利用深度强化学习drl的自适应路径规划方法,根据多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵。
65.服务设备基于drl的自适应路径规划方法对多个位置中的任意两个位置进行路径规划的过程可看作马尔可夫决策(markov decision processes,mdp)过程。
66.mdp过程指的是服务设备可以根据每个时刻观察到的目标无人车所处的当前位置状态,从可用的动作空间信息中选用一个行动作出决策,控制该目标无人车根据该动作决策进行移动。其中,每个时刻的下一时刻的状态是随机的,并且该状态的状态转移概率具有马尔可夫性。
67.可选的,动作空间信息中不同的移动方向可用不同的数字来表示。
68.示例性的,向上方移动用数字0表示;向下方移动用数字1表示;向左方移动用数字2表示及向右方移动用数字3表示。也就是说,该动作空间信息中的数字的大小为4,分别为数字0、1、2及3。
69.服务设备在获取多个位置之后,可以从这多个位置中随机获取任意两个位置,分别为第一位置和第二位置;然后,该服务设备控制目标无人车从该第一位置移动至该第二位置,或,控制该目标无人车从该第二位置移动至该第一位置,得到这两个位置之间的路径
及该目标无人车在该路径所使用的成本,即开销。以此类推,该服务设备可以控制目标无人车遍历这多个位置中的每个位置,获取多个开销,从而可确定这多个位置对应的路径开销矩阵。
70.其中,该第一位置可以是至少一个当前位置中的任一当前位置,也可以是至少一个任务点位置中的任一任务点位置;该第二位置可以是至少一个当前位置中的任一当前位置,也可以是至少一个任务点位置中的任一任务点位置,此处不作具体限定。
71.在一些实施例中,服务设备根据多个位置,基于预设的马尔可夫决策网络,得到多个位置对应的路径开销矩阵,可以包括:服务设备根据多个位置,基于预设的马尔可夫决策网络,确定多个位置对应的至少一条路径及至少一条路径分别对应的奖励;该服务设备根据奖励,确定至少一条路径分别对应的开销;该服务设备根据至少一个开销,确定多个位置对应的路径开销矩阵。
72.其中,奖励信息简称奖励,该奖励可以包括正向奖励和反向奖励。正向奖励指的是目标无人车从当前位置s
now
成功达到任务点位置s
goal
时获得的奖励;反向奖励指的是从当前位置s
now
达到任务点位置s
goal
的过程中碰到障碍物时获得的惩罚,以避免后续该目标无人车碰到该障碍物。
73.奖励与开销具有一定的关系,若奖励为正向奖励,则路径对应的开销是较小的,若该奖励是反向奖励,由于目标无人车需要绕过障碍物,所以,该路径对应的开销是较大的。服务设备在获取至少一个开销之后,就可以得到这至少一个开销对应的路径开销矩阵。
74.在一些实施例中,预设的马尔可夫决策网络可以包括目标网络;预设的马尔可夫决策网络是基于以下步骤得到的:服务设备从多个位置中,确定目标无人车的当前位置状态;该服务设备基于当前位置状态,选择当前位置状态对应的运行动作,确定运行动作对应的奖励及当前位置状态对应的下一位置状态,并存储至记忆库中;该服务设备将记忆库中随机采样的n个样本输入至目标网络,更新目标网络对应的位置状态和运行动作对应的目标行为值函数q1,并更新预设的马尔可夫决策网络对应的参数,n为大于等于1的整数。
75.其中,运行动作为上述动作空间信息中的移动方向。
76.目标无人车从第一位置向第二位置或从该第二位置向该第一位置移动过程中涉及的每个运行动作都会对应一个奖励。也就是说,目标无人车在移动过程中出现多少个运行动作,就会对应多少个奖励信息。
77.服务设备在应用预设的马尔可夫决策网络之前,需要先对该预设的马尔可夫决策网络进行训练。在整个训练过程中,由于目标无人车在移动时会得到z个当前位置状态,z≥2,那么,基于这z个当前位置状态,服务设备可以获取z个样本,该z个样本中的第j个样本包括第j个当前位置状态、第j个运动动作、第j个奖励及第j+1个位置状态;然后,该服务设备将这z个样本存储至记忆库中,以备后续对样本进行学习;接着,该服务设备从该记忆库中随机采样n个样本,z≥n≥1,并将这n个样本输入至该预设的马尔可夫决策网络包括的目标网络中,从而有效且准确地更新目标网络对应的位置状态和运行动作对应的目标行为值函数q1,并更新预设的马尔可夫决策网络对应的参数,n为大于等于1的整数。
78.在一些实施例中,预设的马尔可夫决策网络可以包括初始化网络,服务设备基于当前位置状态,选择当前位置状态对应的运行动作,获得运行动作对应的奖励及当前位置状态对应的下一位置状态,可以包括:服务设备将当前位置状态输入至初始化网络,得到当
前位置状态和所有运行动作对应的当前行为值函数q2;该服务设备利用贪婪算法,根据随机概率按照随机选择动作或者最大值函数选择动作,得到当前位置状态对应的运行动作;该服务设备获取当前位置状态对应的第一高度、障碍点信息、下一位置状态及下一位置状态对应的第二高度;该服务设备根据第一高度、障碍点信息及第二高度,确定运行动作对应的奖励。
79.其中,所有运行动作指的是目标无人车从第一位置向第二位置或从该第位置向该第一位置移动过程中所涉及到的所有动作。该所有运行动作可以包括至少一个运行动作。
80.贪婪算法指的是在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,该贪婪算法所做出的仅是在某种意义上的局部最优解。
81.随机选择动作指的是服务设备从动作状态空间中随机选择一个动作,使得目标无人机执行。
82.障碍点位置指的是障碍物所在的位置,障碍点位置对应的障碍点信息指的是该障碍物所在位置对应的第三坐标信息,该障碍物指的是阻碍目标无人车移动的物体,该第三坐标信息可以包括第三经度信息和第三纬度信息等。可选的,障碍点位置的数量不限。
83.可选的,服务设备利用贪婪算法,根据最大值函数选择动作为
84.其中,a
t
表示目标无人车在当前位置状态对应的运行动作,s表示该目标无人车对应的前一位置状态,a表示该目标无人车对应的前一运行动作,θ表示初始网络对应的网络参数。
85.在一些实施例中,服务设备控制目标无人车从当前位置s
now
向任务点位置s
goal
移动的过程中,可能会为了减少整条移动路径的开销而绕开地势较高或较低的地方。在环境模型中,目标无人车每次只能移动一个栅格,也即,该目标无人车只能进行上方、下方、左方和右方这四个方向进行一个栅格的移动。其中,该目标无人车对应的动作集合可包括:向上方移动、向下方移动、向左方移动及向右方移动。
86.可选的,服务设备根据第一高度、障碍点信息及第二高度,确定运行动作对应的奖励,可以包括:服务设备根据奖励函数,确定运行动作对应的奖励。
87.其中,
88.p表示正向奖励,p为大于0的整数;q表示反向奖励,q为小于等于0的整数;表示高度差启发式函数,可使目标无人车的移动路径更加安全且符合实际。
89.p和q可以是用户根据大量仿真实验数据得到的。示例性的,正向奖励p的取值为20,反向奖励q的取值为-5,此时,该奖励函数为
90.高度差启发式函数
91.c1表示第一系数,c2表示第二系数,c2《c1《0;h
t
表示目标无人车在当前时刻t时对应的第一海拔;h
t+1
表示该目标无人车在下一时刻t+1时对应的第二海拔;δh=|h
t+1-h
t
|表示第二海拔h
t+1
与第一海拔h
t
之间的高度差;d表示高度差阈值。
92.第一系数c1、第二系数c2及高度差阈值d可以是用户根据大量仿真实验数据得到的。示例性的,高度差阈值d的取值为0.5,此时,该高度差启发式函数
93.在服务设备基于mdp网络进行路径规划训练的过程中,奖励函数是十分重要的,可对该mdp网络进行有效收敛。上述奖励函数的设置,使得该目标无人车从当前位置s
now
向任务点位置s
goal
进行有效移动且在移动过程中可有效避开障碍物,同时,还能保证移动路径的安全度和平坦度。
94.示例性的,如图3a所示,是本发明提供的深度强化学习模型的结构示意图。在图3a中,在深度强度学习drl模型中,服务设备根据环境模型中的全局环境信息,即根据多个位置,基于预设的马尔可夫决策网络,得到这多个位置中任意两个位置之间的路径对应的动作集合;该服务设备在目标区域内,获取环境状态信息,即获取障碍点位置;该服务设备根据障碍点位置对应的障碍点信息及动作集合,确定动作集合对应的奖励信息集合;该服务设备根据奖励信息集合,确定每个路径对应的开销。
95.其中,该动作集合包括目标无人车在任意两个位置的移动过程中所涉及到的所有运行动作,该奖励信息集合是与该动作集合对应的。该动作集合中涉及多少个运行动作,该奖励信息集合就涉及多少个奖励。
96.上述深度强度学习drl模型也可称为全局路径规划模型。
97.可选的,服务设备还可以将全局路径规划模型向与该服务设备进行通信连接的无人车发送。然后,每个无人车接收该服务设备发送的该全局路径规划模型并存储该全局路径规划模型。
98.在一些实施例中,服务设备更新预设的马尔可夫决策网络对应的参数,可以包括:服务设备根据目标行为值函数q1及当前行为值函数q2,得到损失函数;该服务设备根据损失函数,更新预设的马尔可夫决策网络对应的参数。
99.目标行为值函数q1为目标无人车对应的行为预测值,当前行为值函数q2为目标无人车对应的行为实际值。服务设备可以根据目标行为值函数q1与当前行为值函数q2的差值,得到损失函数;然后,该服务设备可以优化这个损失函数,使得该目标行为值函数q1与该当前行为值函数q2的差值较小,从而更新预设的马尔可夫决策网络对应的参数,以得到较为准确的预设的马尔可夫决策网络。
100.在一些实施例中,服务设备基于当前位置状态,选择当前位置状态对应的运行动作,确定运行动作对应的奖励及当前位置状态对应的下一位置状态,并存储至记忆库中,可以包括:服务设备基于当前位置状态,选择当前位置状态对应的运行动作,确定运行动作对应的奖励及当前位置状态对应的下一位置状态;该服务设备将当前位置状态、运行动作、奖励及下一位置状态作为样本存储在记忆库中,并将下一位置状态作为新的当前位置状态。
101.在一些实施例中,服务设备采用双层q学习深度强化学习(deep reinforcement learning with double q-learning,ddqn)算法,更新深度强度学习drl模型中的参数。也
就是说,该服务设备可以采用ddqn算法更新mdp网络中的参数。
102.可选的,在ddqn算法中,输入相关参数:网络参数θ、目标网络参数θ-、批量梯度下降的样本数n、折扣因子γ、迭代次数t、学习率α、探索率ε及目标参数更新频率c。
103.服务设备先初始化记忆库d;接着,该服务设备随机初始化网络对应的参数θ,并利用该参数θ初始化当前行为值函数q2;然后,该服务设备将目标网络对应的参数θ-作为网络参数θ,即令θ-=θ,并利用该参数θ-初始化目标行为值参数q1;最后,该服务设备循环进入t次迭代,t=1,2,

,t。在循环迭代中,该服务设备先初始化该服务设备的当前状态信息s
t
,将该当前状态信息s
t
作为输入,得到q网络中所有运行动作对应的q值输出,该服务设备可用ε-greedy方法选择动作a
t
,也就是说,该服务设备以探索率ε随机选择一个动作a
t
,或者,该服务设备利用最大值函数来确定运行动作a
t
,即然后,在当前状态s下,执行运行动作a
t
,返回新的状态s
t+1
以及奖励r
t
;。此时,将(s
t
,a
t
,r
t
,s
t+1
)存储在记忆库d中。接着,该服务设备令s
t+1
=s
t
,并从最新的记忆库d中随机采样n个样本,可得到每个样本对应的目标行为值参数q1,n为大于等于1的整数。
104.其中,第j个样本为(sj,aj,rj,s
j+1
),该第j个样本对应的目标行为值参数q1为
[0105][0106]
然后,该服务设备利用adam优化器更新初始化网络对应的参数θ;以更新频率c更新目标网络对应的参数θ-,也即,每隔c步更新目标网络参数θ-,并令θ-=θ。最后,整个循环迭代结束。
[0107]
203、根据路径开销矩阵,利用蚁算法,确定至少一个无人车中每个无人车对应的任务分配策略。
[0108]
每个任务点位置对应一个任务,在目标区域内,有至少一个任务需要无人车进行执行。那么,服务设备就需要根据路径开销矩阵,对将这至少一个任务分配给至少一个无人车。
[0109]
在一些实施例中,在环境模型中,服务设备需要将n个任务分配给m个无人车;然后,该服务设备根据路径开销矩阵,可以确定每个无人车需要执行的任务及这些任务的执行顺序,从而确定每个无人车对应的任务分配策略。
[0110]
服务设备控制每个无人车遍历所有任务点位置对应的任务,可以把每个任务不重复地分配给每个无人车,也就是说,每个无人车被分配的任务是不同的,也即每个无人车对应的任务点集合是不同的,且每个任务点集合中的任务是不重叠的。
[0111]
其中,该任务点集合的数量为至少一个。
[0112]
在一些实施例中,服务设备可以根据路径开销矩阵,基于蚁算法,得到目标无人车对应的目标任务分配策略。
[0113]
其中,蚁算法也可称为蚂蚁算法,是一种体智能优化算法。该蚁算法通过模拟自然界中,蚁觅食寻的过程来寻最短路径。由于蚂蚁在觅食过程中会沿路释放信息素,而信息素会随着时间慢慢蒸发,所以,觅食路径越短,蚂蚁走过的越多,该路径对应的信息素浓度积累就会越多,从而根据信息素浓度即可得到较优的觅食路线。
[0114]
也就是说,服务设备利用蚁算法,可以确定目标无人车执行任务的最佳任务分
配策略,该最佳任务分配策略是指至少一个无人车在遍历所有任务点位置后花费开销最小的策略。
[0115]
可选的,服务设备根据最大装载量及路径开销矩阵,确定目标无人车对应的目标任务分配策略,可以包括:服务设备根据分配函数,确定目标无人车对应的目标任务分配策略;
[0116]
分配函数为
[0117]
分配函数对应的约束条件为
[0118][0119][0120]cij
表示m个无人车中第i个无人车由当前位置移动至n个任务点位置中第j个任务点位置时路径(i,j)对应的开销,第i个无人车为目标无人车;a
ij
表示二进制数;a
ij
=1表示n个任务点位置对应的任务中第j个任务被分配给第i个无人车执行;表示n个任务点位置对应的任务中的每个任务只由m个无人车中的一个无人车执行;ni《m/q表示m个无人车中每个无人车被分配执行任务的任务量q不超过每个无人车对应的最大装载量m;表示m个无人车遍历n个任务点位置对应的任务。
[0121]
在一些实施例中,服务设备根据分配函数,可以确定每个无人车中第一无人车对应的第一任务点集合及第二无人车对应的第二任务点集合。
[0122]
第一任务点集合中的任务点位置与第二任务点集合中的任务点位置不存在重合的情况。
[0123]
第一无人车遍历第一任务点集合中的任务点位置对应的第一开销,与第二无人车遍历第二任务点集合中的任务点位置对应的第二开销之和是最小的。以此类推,服务设备基于上述方法,可以得到至少一个无人车对应的开销之和是最小的。
[0124]
在一些实施例中,服务设备可利用路径开销矩阵中,基于ddqn算法生成的各位置间的路径-开销,解决m个无人车协同完成n个任务的最优分配策略问题,该服务设备可将该问题简化为:求解m个无人车从不同起始位置出发,不重复的遍历完成n个任务并返回每个无人车分别对应的起始位置的最优策略。
[0125]
可选的,服务设备根据最大装载量及路径开销矩阵,确定目标无人车对应的目标任务分配策略,可以包括,服务设备根据路径开销矩阵,利用蚁算法,得到目标无人车对应的目标任务分配策略。
[0126]
其中,目标任务分配策略可以包括目标无人车对应的目标任务点集合及该目标任务点集合中任务的执行顺序。
[0127]
目标任务点集合可以包括目标无人车目标当前位置及至少一个目标任务点位置。目标任务点集合与目标无人车的个数对应,也就是说,有多少个目标无人车,就会有多少个目标任务点集合,每个目标无人车的目标任务点集合都是不同的。在环境模型中,有m个目标无人车,因此,有m个目标任务点集合,这m个目标任务点集合都是不同的。
[0128]
目标任务点位置指的是目标无人车执行任务所对应的任务点位置,也即,该目标
无人车需执行至少一个目标任务点位置对应的任务。
[0129]
在一些实施例中,服务设备根据路径开销矩阵,利用蚁算法,从路径开销矩阵中确定目标无人车对应的最佳路径,控制目标无人车从当前位置向目标任务点位置进行移动。
[0130]
可选的,服务设备根据路径开销矩阵,利用蚁算法,得到目标无人车对应的目标任务分配策略,可以包括:服务设备基于蚁算法,控制目标无人车从目标任务点集合中的目标当前位置遍历每个目标任务点位置,得到该目标无人车对应的路径,并确定该路径对应的目标信息素浓度;该服务设备根据目标信息素浓度,确定该目标无人车在路径开销矩阵中对应的目标任务分配策略。
[0131]
待完成任务点列表可用ak表示,k=1,2,

,n。
[0132]
服务设备基于蚁算法,可以将目标无人车看作是一只蚂蚁,然后,将m个蚂蚁进行初始化,得到m个无人车分别对应的目标任务点集合,该目标任务点集合可用num表示,num=[x1,x2,

,xm],且
[0133]
服务设备可根据待执行任务的数量,利用赌的方法生成每个目标无人车分别对应的num。
[0134]
在服务设备将目标无人车遍历目标任务点集合中各个目标任务点位置之间的路径,并确定路径对应的目标信息素浓度的过程中,服务设备可以根据增量公式,获取第k只蚂蚁从任务点位置e到达任务点位置f时经过的目标路径对应的信息素增量。
[0135]
其中,增量公式为
[0136]
表示第k只蚂蚁的目标路径所对应的信息素增量;lk表示第k只蚂蚁经该标路径所对应的开销;q表示常数,可以是用户根据大量仿真实验得到的。
[0137]
从增量公式可以看出,目标路径所对应的开销越小,信息素增量越大,信息素浓度越高,说明该目标路径也越优。
[0138]
服务设备可以根据初始化公式,对目标路径对应的信息素浓度进行初始化。
[0139]
其中,初始化公式为
[0140]
服务设备可以根据更新公式,对目标路径对应的信息素进行更新。
[0141]
其中,更新公式为τ
ef
(t+1)=(1-ρ)τ
ef
(t)+δτ
ef

[0142]
ρ表示目标信息素的挥发速率。
[0143]
服务设备根据目标公式,确定第k只蚂蚁经过目标路径所对应的目标信息素浓度。
[0144]
其中,目标公式为
[0145]
服务设备根据上述过程,可以得到每个无人车所经每个无人车对应的目标路径及该每个目标路径对应的目标信息素浓度。
[0146]
可选的,服务设备在根据目标信息素浓度,确定目标无人车在路径开销矩阵中对应的目标任务分配策略,可以包括:服务设备概率公式,确定路径开销矩阵对应的状态转移
概率;服务设备根据启发公式,得到目标无人车对应的启发信息;该服务设备根据该状态转移概率及启发信息,得到该目标无人车在路径开销矩阵中对应的目标任务分配策略。
[0147]
其中,概率公式为
[0148]
表示第k只蚂蚁在时刻t对应的状态转移概率;α表示信息素因子,β表示启发式因子,η
ef
表示启发信息。
[0149]
启发公式η
ef
=1/l
ef

[0150]
l
ef
表示目标路径对应的开销。启发信息η
ef
使得蚁算法可快速收敛,可快速得到目标无人车在路径开销矩阵中对应的目标任务分配策略。
[0151]
可选的,服务设备根据目标当前位置及至少一个目标任务点位置,得到待完成任务点列表,可以包括:服务设备将目标当前位置及至少一个目标任务点位置进行编号排序,得到第一任务列表;该服务设备利用两元素优化(2-optimization,2-opt)方法,基于第一任务列表中各个位置之间路径的开销,确定开销最小的目标路径;该服务设备根据目标路径,确定待完成任务点列表。
[0152]
服务设备可以将目标当前位置及至少一个目标任务点位置按照k的取值进行编号排序,得到第一任务列表。该过程可以称作对第一任务列表的初始化操作。
[0153]
服务设备利用两元素优化方法,可将任务点列表中任意两个位置的顺序进行交换,并比较交换前后移动路径对应的开销,保存较小开销对应的路径,以此迭代,直到达到最大优化次数,即可得到较优的目标路径。
[0154]
示例性的,如图3b所示,是本发明提供的任务分配策略集合的示意图。在图3b中,任务分配策略集合包括三个无人车分别对应的任务分配策略。也即,该图3b为目标区域中,服务设备为三个无人车分配十个任务的分配策略结果图,分配依据为路径开销矩阵中各位置间的路径-开销。
[0155]
其中,三个无人车分别为第一无人车、第二无人车及第三无人车。第一无人车对应当前位置1,第二无人车对应当前位置2,第三无人车对应当前位置3。这三个当前位置用矩形表示。
[0156]
三个无人车要到达10个任务点位置,分别为任务点位置1、任务点位置2、任务点位置3、任务点位置4、任务点位置5、任务点位置6、任务点位置7、任务点位置8、任务点位置9及任务点位置10。这十个任务点位置用圆形表示。
[0157]
第一无人车对应的任务分配策略为:当前位置1

任务点位置8

任务点位置3

任务点位置4

当前位置1;
[0158]
第二无人车对应的任务分配策略为:当前位置2

任务点位置1

任务点位置2

任务点位置9

任务点位置10

当前位置2;
[0159]
第三无人车对应的任务分配策略为:当前位置3

任务点位置6

任务点位置7

任务点位置5

当前位置3。
[0160]
也就是说,每个无人车根据相应的任务分配策略,可以从当前位置出发,最终回到当前位置。
[0161]
204、根据目标任务分配策略,控制目标无人车执行相应任务。
[0162]
其中,目标无人车为每个无人车中的任一无人车。
[0163]
示例性的,目标无人车对应的目标任务分配策略为:任务点集合包括;当前位置1、任务点位置3、任务点位置4及任务点位置8;任务点集合中任务的执行顺序:当前位置1

任务点位置8

任务点位置3

任务点位置4

当前位置1。服务设备根据该目标任务分配策略,控制目标无人车从当前位置1移动至任务点位置8,然后,从任务点位置8移动至任务点位置3,接着,从任务点位置3移动至任务点位置4;最后,从任务点位置4移动至当前位置1,该目标无人车从当前位置出发,按照任务点位置的顺序进行移动,在每个任务点位置执行相应任务,最终回到该当前位置。
[0164]
服务设备根据目标任务分配策略,控制目标无人车执行相应任务,可以包括:服务设备将目标任务分配策略向目标无人车发送;该目标无人车接收该服务设备发送的目标任务分配策略,并根据该目标任务分配策略,执行相应任务。
[0165]
示例性的,如图3c所示,是本发明提供的服务设备进行任务分配的场景示意图。在图3c中,服务设备可以在目标区域内,即在环境模型中,获取多个位置;然后,该服务设备基于drl算法,对这多个位置及任意两个位置之间的路径进行训练,得到该目标区域对应的路径开销矩阵;接着,该服务设备根据该路径开销矩阵,利用蚁算法,得到目标区域内每个无人车对应的任务分配策略,并将该任务分配策略下发至对应的无人车,以使每个无人车根据对应的任务分配策略,执行相应任务。
[0166]
在本发明实施例中,在目标区域内,获取多个位置,该位置包括至少一个无人车的当前位置及至少一个任务点位置;根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵;根据该路径开销矩阵,利用蚁算法,确定该至少一个无人车中每个无人车对应的任务分配策略,即可确定目标无人车需要执行哪些任务点位置对应的任务及这些任务的执行顺序;根据该目标任务分配策略,控制该目标无人车有效执行相应任务,该目标无人车为该至少一个无人车中的任一无人车。服务设备可协同规划至少一个无人车的任务分配策略,以保证每个无人车按照最优路径执行相应任务,提高任务执行的效率。也就是说,该方法考虑到了更现实的3d环境地理因素,建立综合了路径距离和地势起伏等多种因素的路径开销模型,利用深度强化学习drl算法探索和学习多个位置间的最优路径并获得相应的路径开销矩阵,并基于此路径开销矩阵,利用蚁算法,解决至少一个无人车与至少一个任务点之间的最优任务分配问题。
[0167]
下面对本发明提供的任务执行装置进行描述,下文描述的任务执行装置与上文描述的路径规划和任务分配方法可相互对应参照。
[0168]
如图4所示,是本发明提供的任务执行装置的结构示意图,可以包括:
[0169]
获取模块401,用于在目标区域内,获取多个位置,该位置包括至少一个无人车的当前位置及至少一个任务点位置;
[0170]
路径规划模块402,用于根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵;
[0171]
任务分配模块403,用于根据该路径开销矩阵,利用蚁算法,确定该至少一个无人车中每个无人车对应的任务分配策略;
[0172]
执行模块404,用于根据该目标任务分配策略,控制该目标无人车执行相应任务,
only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0182]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,该计算机程序被处理器执行时,计算机能够执行上述各方法所提供的路径规划和任务分配方法,该方法包括:在目标区域内,获取多个位置,该位置包括至少一个无人车的当前位置及至少一个任务点位置;根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵;根据该路径开销矩阵,利用蚁算法,确定该至少一个无人车中每个无人车对应的任务分配策略;根据该目标任务分配策略,控制该目标无人车执行相应任务,该目标无人车为该至少一个无人车中的任一无人车。
[0183]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的路径规划和任务分配方法,该方法包括:在目标区域内,获取多个位置,该位置包括至少一个无人车的当前位置及至少一个任务点位置;根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵;根据该路径开销矩阵,利用蚁算法,确定该至少一个无人车中每个无人车对应的任务分配策略;根据该目标任务分配策略,控制该目标无人车执行相应任务,该目标无人车为该至少一个无人车中的任一无人车。
[0184]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0185]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0186]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种路径规划和任务分配方法,其特征在于,包括:在目标区域内,获取多个位置,所述位置包括至少一个无人车的当前位置及至少一个任务点位置;根据所述多个位置,基于预设的马尔可夫决策网络,得到所述多个位置对应的路径开销矩阵;根据所述路径开销矩阵,利用蚁算法,确定所述至少一个无人车中每个无人车对应的任务分配策略;根据所述目标任务分配策略,控制所述目标无人车执行相应任务,所述目标无人车为所述至少一个无人车中的任一无人车。2.根据权利要求1所述的方法,其特征在于,所述在目标区域内,获取多个位置,包括:在目标区域内,获取至少一个任务点位置,并接收至少一个无人车分别发送的当前位置。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述多个位置,基于预设的马尔可夫决策网络,得到所述多个位置对应的路径开销矩阵,包括:根据所述多个位置,基于预设的马尔可夫决策网络,确定所述多个位置对应的至少一条路径及所述至少一条路径分别对应的奖励;根据所述奖励,确定所述至少一条路径分别对应的开销;根据至少一个开销,确定所述多个位置对应的路径开销矩阵。4.根据权利要求3所述的方法,其特征在于,所述预设的马尔可夫决策网络包括目标网络;所述预设的马尔可夫决策网络是基于以下步骤得到的:从所述多个位置中,确定所述目标无人车的当前位置状态;基于当前位置状态,选择所述当前位置状态对应的运行动作,确定所述运行动作对应的奖励及所述当前位置状态对应的下一位置状态,并存储至记忆库中;将所述记忆库中随机采样的n个样本输入至所述目标网络,更新所述目标网络对应的位置状态和运行动作对应的目标行为值函数q1,并更新预设的马尔可夫决策网络对应的参数,n为大于等于1的整数。5.根据权利要求4所述的方法,其特征在于,所述预设的马尔可夫决策网络包括初始化网络,所述基于当前位置状态,选择所述当前位置状态对应的运行动作,获得所述运行动作对应的奖励及所述当前位置状态对应的下一位置状态,包括:将所述当前位置状态输入至所述初始化网络,得到所述当前位置状态和所有运行动作对应的当前行为值函数q2;利用贪婪算法,根据随机概率按照随机选择动作或者最大值函数选择动作,得到所述当前位置状态对应的运行动作;获取所述当前位置状态对应的第一高度、障碍点信息、下一位置状态及所述下一位置状态对应的第二高度;根据所述第一高度、所述障碍点信息及所述第二高度,确定所述运行动作对应的奖励。6.根据权利要求5所述的方法,其特征在于,所述更新预设的马尔可夫决策网络对应的参数,包括:根据所述目标行为值函数q1及所述当前行为值函数q2,得到损失函数;
根据所述损失函数,更新预设的马尔可夫决策网络对应的参数。7.根据权利要求5或6所述的方法,其特征在于,所述基于当前位置状态,选择所述当前位置状态对应的运行动作,确定所述运行动作对应的奖励及所述当前位置状态对应的下一位置状态,并存储至记忆库中,包括:基于当前位置状态,选择所述当前位置状态对应的运行动作,确定所述运行动作对应的奖励及所述当前位置状态对应的下一位置状态;将所述当前位置状态、所述运行动作、所述奖励及所述下一位置状态作为样本存储在记忆库中,并将所述下一位置状态作为新的当前位置状态。8.一种路径规划和任务分配装置,其特征在于,包括:获取模块,用于在目标区域内,获取多个位置,所述位置包括至少一个无人车的当前位置及至少一个任务点位置;路径规划模块,用于根据所述多个位置,基于预设的马尔可夫决策网络,得到所述多个位置对应的路径开销矩阵;任务分配模块,用于根据所述路径开销矩阵,利用蚁算法,确定所述至少一个无人车中每个无人车对应的任务分配策略;执行模块,用于根据所述目标任务分配策略,控制所述目标无人车执行相应任务,所述目标无人车为所述至少一个无人车中的任一无人车。9.一种服务设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述路径规划和任务分配方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述路径规划和任务分配方法。

技术总结


本发明提供一种路径规划和任务分配方法、装置、服务设备及存储介质,该方法包括:在目标区域内,获取多个位置,位置包括至少一个无人车的当前位置及至少一个任务点位置;根据多个位置,基于预设的马尔可夫决策网络,得到多个位置对应的路径开销矩阵;根据路径开销矩阵,利用蚁算法,确定至少一个无人车中每个无人车对应的任务分配策略;根据目标任务分配策略,控制目标无人车执行相应任务,目标无人车为至少一个无人车中的任一无人车。该方法可以通过获取的路径开销矩阵来代替传统的直线路径,可有效降低任务执行所花费的开销,此外,可协同规划至少一个无人车的任务分配策略,以保证每个无人车按照最优路径执行相应任务,提高任务执行的效率。任务执行的效率。任务执行的效率。


技术研发人员:

孙阳 金冰慧 吴文君 高强 司鹏搏

受保护的技术使用者:

北京工业大学

技术研发日:

2022.07.12

技术公布日:

2022/11/1

本文发布于:2024-09-22 19:45:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/24668.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:位置   目标   当前位置   路径
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议