一种自动驾驶控制方法及装置与流程

1.本技术涉及车辆技术领域，特别涉及一种自动驾驶控制方法及装置。

背景技术：

2.现有技术中，自车的自动驾驶决策通常采用根据特定的情形来制定对应的决策方法，对影响自车驾驶决策的因素考虑单一，在复杂多变的驾驶环境下，自车的自动驾驶决策存在决策准确度低、决策不全面等问题。

技术实现要素：

3.本技术提供了一种自动驾驶控制方法及装置，用以克服自车的自动驾驶决策存在决策准确度低、决策不全面等问题。
4.本技术是通过以下技术方案实现的：
5.一方面，本技术提供了一种自动驾驶控制方法，所述方法包括：
6.获取与自车对应的当前驾驶状态；所述当前驾驶状态包括自车周围的环境信息、第一目标车辆的驾驶信息、所述自车与所述第一目标车辆的碰撞时间以及所述第一目标车辆的偏航信息；所述第一目标车辆为所述自车周围的车辆；
7.将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标强化学习模型基于样本车辆的样本驾驶状态序列，以及与样本指令集合进行训练得到；所述目标奖励值表征在所述当前驾驶状态下，所述自车执行多种预设自动驾驶控制指令中任一自动驾驶控制指令，所得到的最大奖励值；
8.基于所述目标奖励值，确定对所述自车的目标自动驾驶控制指令；所述目标自动驾驶控制指令为所述多种预设自动驾驶控制指令中的一种。
9.进一步地，所述样本驾驶状态序列包括多个连续样本状态，以及与所述多个连续样本状态分别对应的奖励标签；所述样本指令集合中包括所述多种预设自动驾驶控制指令；
10.所述获取与自车对应的当前驾驶状态之前，所述方法还包括：
11.将每个连续样本状态以及所述多种预设自动驾驶控制指令输入到待训练强化学习模型，得到目标训练奖励值；所述目标训练奖励值为所述多种预设自动驾驶控制指令分别对应的训练奖励值中的最大值；所述多种预设自动驾驶控制指令分别对应的训练奖励值，为在所述每个连续样本状态下执行相应预设自动驾驶控制指令所对应的训练奖励值；
12.基于所述每个连续样本状态对应的目标训练奖励值，以及所述每个连续样本状态对应的奖励标签，确定目标损失信息；
13.基于所述目标损失信息对所述待训练强化学习模型进行训练，得到所述目标强化学习模型。
14.进一步地，所述获取与自车对应的当前驾驶状态之前，所述方法还包括：
15.获取所述第一目标车辆的速度、加速度、加速度变化率以及方向盘转角速率；
16.基于所述第一目标车辆的所述速度、所述加速度、所述加速度变化率以及所述方向盘转角速率，对所述第一目标车辆进行分类，得到所述第一目标车辆的分类结果；
17.基于所述目标车辆的分类结果，确定所述第一目标车辆的驾驶信息。
18.进一步地，所述基于所述目标奖励值，确定对所述自车的目标自动驾驶控制指令，包括：
19.在所述目标奖励值大于预设奖励值的情况下，确定对所述自车的目标自动驾驶控制指令为加速行驶指令；所述预设奖励值大于零；
20.在所述目标奖励值小于零的情况下，确定对所述自车的目标自动驾驶控制指令为减速行驶指令；
21.在所述目标奖励值大于等于零，小于等于所述预设奖励值的情况下，确定对所述自车的目标自动驾驶控制指令为保持车速指令。
22.进一步地，所述第一目标车辆的驾驶信息包括所述第一目标车辆的驾驶状态信息，以及所述第一目标车辆的驾驶方向信息；
23.所述将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值包括：
24.在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车相对行驶，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零；
25.在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车相对行驶，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值。
26.进一步地，所述第一目标车辆的驾驶信息包括所述第一目标车辆的驾驶状态信息，以及所述第一目标车辆的驾驶方向信息；
27.所述将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值包括：
28.在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆位于所述自车前方，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值；
29.在所述第一目标车辆的驾驶方位信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆位于所述自车前方，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零。
30.进一步地，所述第一目标车辆的驾驶信息包括所述第一目标车辆的驾驶状态信息，以及所述第一目标车辆的驾驶方向信息；
31.所述将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值包括：
32.在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆变道且所述第一目标车辆变道后与所述自车不在同一车道的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值。
33.进一步地，所述第一目标车辆的驾驶信息包括所述第一目标车辆的驾驶状态信息，以及所述第一目标车辆的驾驶方向信息；
34.所述将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值包括：
35.在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆切入所述自车所在的车道，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零；
36.在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆切入所述自车所在的车道，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值。
37.第二方面，本技术提供了一种自动驾驶控制装置，所述装置包括：
38.状态获取模块，用于获取与自车对应的当前驾驶状态；所述当前驾驶状态包括自车周围的环境信息、第一目标车辆的驾驶信息、所述自车与所述第一目标车辆的碰撞时间以及所述第一目标车辆的偏航信息；所述第一目标车辆为所述自车周围的车辆；
39.奖励值获取模块，用于将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标强化学习模型基于样本车辆的样本驾驶状态序列，以及与样本指令集合进行训练得到；所述目标奖励值表征在所述当前驾驶状态下，所述自车执行多种预设自动驾驶控制指令中任一自动驾驶控制指令，所得到的最大奖励值；
40.指令确定模块，用于基于所述目标奖励值，确定对所述自车的目标自动驾驶控制指令；所述目标自动驾驶控制指令为所述多种预设自动驾驶控制指令中的一种。
41.第三方面，本技术提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一项的自动驾驶控制方法。
42.第四方面，本技术提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一项的自动驾驶控制方法。
43.采用上述技术方案，本技术提供了一种自动驾驶控制方法及装置具有如下有益效果：
44.本技术中，将获取与自车对应当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值，目标奖励值为在当前驾驶状态下，自车执行多种预设自动驾驶控制指令中任一自动驾驶控制指令，所得到的最大奖励值；在当前驾驶状态下，自车根据该最大奖励值能作出最适合的驾驶决策；由此基于目标奖励值，确定对自车的目标自动驾
驶控制指令，提高了自车驾驶决策的准确性；进一步地，驾驶状态信息考虑到了自车信息、自车周围的车辆信息以及环境信息，提高了自车驾驶决策的全面性。
附图说明
45.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
46.图1是本技术实施例提供的一种自动驾驶控制方法的流程示意图；
47.图2是本技术实施例提供的一种目标强化学习模型的流程示意图；
48.图3是本技术实施例提供的一种第一目标车辆的驾驶信息确认方法的流程示意图；
49.图4是本技术实施例提供的一种目标自动驾驶控制指令的确认方法的流程示意图；
50.图5是本技术实施例提供的一种自车与第一目标车辆相对行驶的场景的示意图；
51.图6是本技术实施例提供的一种第一目标车辆变道的场景的示意图；
52.图7是本技术实施例提供的一种第一目标车辆切入的场景的示意图；
53.图8是本技术实施例提供的一种自动驾驶控制装置的框图；
54.图9是本技术实施例提供的一种用于实现自动驾驶控制方法的电子设备结构示意图。
具体实施方式
55.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
56.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
57.本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
58.本技术实施例提供的一种自动驾驶控制方法的流程示意图，参阅图1，执行主体可
以是自车传感器，该方法可以包括：
59.s101：获取与自车对应的当前驾驶状态；所述当前驾驶状态包括自车周围的环境信息、第一目标车辆的驾驶信息、所述自车与所述第一目标车辆的碰撞时间以及所述第一目标车辆的偏航信息；所述第一目标车辆为所述自车周围的车辆；
60.本技术实施例中，自车周围的环境信息包括天气、车道数、道路设施、道路类型等；第一目标车辆的驾驶信息包括速度、加速度、加速度变化率及方向盘转角速率等行驶参数；自车与第一目标车辆的碰撞时间表示自车与第一目标车辆碰撞的时间；第一目标车辆的偏航信息表示第一目标车辆变道意图的深浅及切入的快慢。其中，第一目标车辆可以为自车传感器检测到的周围的一个或多个车辆。
61.本技术实施例中，自车与第一目标车辆的碰撞时间的表达式如下:
62.ttc＝d/(v1-v2) (1)
63.其中，ttc表示自车与第一目标车辆的碰撞时间，d是自车与第一目标车辆的距离，v1表示自车的速度，v2表示第一目标车辆的速度。
64.本技术实施例中，第一目标车辆的偏航信息包括第一目标车辆的偏航速率，第一目标车辆的偏航速率可以通过先获取第一目标车辆的偏航角，再基于偏航角求导数得到，也可以通过偏航角速率传感器获取。
65.s102：将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标强化学习模型基于样本车辆的样本驾驶状态序列，以及与样本指令集合进行训练得到；所述目标奖励值表征在所述当前驾驶状态下，所述自车执行多种预设自动驾驶控制指令中任一自动驾驶控制指令，所得到的最大奖励值；
66.本技术实施例中，当前驾驶状态对应的目标奖励值的表达式如下：
67.r0＝w1*r1+w2*r2+w3*r3+w4*r4 (2)
68.其中，r0表示当前驾驶状态对应的目标奖励值，r1表示自车周围的环境信息的奖励值，r2表示第一目标车辆的驾驶信息的奖励值，r3表示自车与第一目标车辆的碰撞时间的奖励值，r4表示第一目标车辆的偏航信息的奖励值，w1、w2、w3、w4均是非负的权重系数，w1+w2+w3+w4＝1,权重系数在强化学习模型训练完成后为定值，强化学习模型训练完成后为目标强化学习模型。
69.本技术实施例中，样本车辆的样本驾驶状态包括样本车辆周围的环境信息、第二目标车辆的驾驶信息、样本车辆与第二目标车辆的碰撞时间以及第二目标车辆的偏航信息；第二目标车辆为样本车辆周围的车辆。
70.本技术实施例中，样本车辆的样本驾驶状态序列可表示为多个样本驾驶状态按顺序训练，样本指令集合表示每个样本驾驶状态对应的多种预设自动驾驶控制指令。
71.s103：基于所述目标奖励值，确定对所述自车的目标自动驾驶控制指令；所述目标自动驾驶控制指令为所述多种预设自动驾驶控制指令中的一种。
72.本技术实施例中，自车可以根据目标奖励值的大小，确定对自车的目标自动驾驶控制指令，目标自动驾驶控制指令可以为当前驾驶状态对应的多种预设自动驾驶控制指令中的一种，使得自车的自动驾驶决策的准确度更高以及决策更加全面。
73.进一步地，样本驾驶状态序列包括多个连续样本状态，以及与多个连续样本状态分别对应的奖励标签；样本指令集合中包括多种预设自动驾驶控制指令；在获取与自车对
应的当前驾驶状态之前，目标强化学习模型的训练方法可参阅图2，该方法可以包括：
74.s201：将每个连续样本状态以及所述多种预设自动驾驶控制指令输入到待训练强化学习模型，得到目标训练奖励值；所述目标训练奖励值为所述多种预设自动驾驶控制指令分别对应的训练奖励值中的最大值；所述多种预设自动驾驶控制指令分别对应的训练奖励值，为在所述每个连续样本状态下执行相应预设自动驾驶控制指令所对应的训练奖励值；
75.本技术实施例中，奖励标签可以为多个连续样本状态分别对应的预设奖励值，预设奖励值可以是自车执行每个样本状态对应的多种预设自动驾驶控制指令中任一自动驾驶控制指令所得到的最大奖励值。待训练强化学习模型的训练过程如下：将每个连续样本状态以及多种预设自动驾驶控制指令输入待训练强化学习模型中，待训练强化学习模型可以预演当前样本状态下自车执行对应的多个自动驾驶控制指令中每个自动驾驶控制指令对应的训练奖励值，继而待训练强化学习模型输出当前样本状态下多个训练奖励值中的最大值，即输出当前样本状态下的目标训练奖励值，自车基于目标训练奖励值执行目标自动驾驶控制指令，以使待训练强化学习模型进入下一个样本状态，继续对待训练强化学习模型进行训练，直至待训练强化学习模型收敛。
76.s202：基于所述每个连续样本状态对应的目标训练奖励值，以及所述每个连续样本状态对应的奖励标签，确定目标损失信息；
77.本技术实施例中，基于每个连续样本状态对应的目标训练奖励值，以及每个连续样本状态对应的奖励标签，确定强化学习模型训练所用的目标损失信息，采用策略梯度方法对待训练强化学习模型进行训练。
78.s203：基于所述目标损失信息对所述待训练强化学习模型进行训练，得到所述目标强化学习模型。
79.本技术实施例中，多个样本状态连续，通过多次迭代计算使待训练强化学习模型收敛并更新待训练强化学习模型的参数，依次通过待训练强化学习模型得到多个样本状态对应的目标训练奖励值，其中待训练强化学习模型收敛的条件可以是迭代次数达到预设的总的迭代次数，也可以是待训练强化学习模型的损失信息小于预设损失信息；从而完成对待训练强化学习模型的训练，得到目标强化学习模型。
80.进一步地，获取与自车对应的当前驾驶状态之前，第一目标车辆的驾驶信息确认方法可参阅图3，该方法可以包括：
81.s301：获取所述第一目标车辆的速度、加速度、加速度变化率以及方向盘转角速率；
82.本技术实施例中，第一目标车辆的驾驶信息包括速度、加速度、加速度变化率以及方向盘转角速率。
83.s302：基于所述第一目标车辆的所述速度、所述加速度、所述加速度变化率以及所述方向盘转角速率，对所述第一目标车辆进行分类，得到所述第一目标车辆的分类结果；
84.本技术实施例中，可基于第一目标车辆的驾驶信息对第一目标车辆进行分类，第一目标车辆的分类结果包括保守型、激进型和普通型。具体的，保守型第一目标车辆的奖励值可以设为正值，激进型第一目标车辆的奖励值可以设为负值，普通型第一目标车辆的奖励值可以设为零。
85.在一个实际应用中，以速度为例，在高速公路上，保守型第一目标车辆的速度小于90km/h，普通型第一目标车辆的速度的范围是90km/h-110km/h，激进型第一目标车辆的速度大于110km/h。
86.s303：基于所述第一目标车辆的分类结果，确定所述第一目标车辆的驾驶信息。
87.本技术实施例中，由于将第一目标车辆分为3类，从而在自车传感器获取与自车对应的当前驾驶状态时，因为对第一目标车辆进行了分类预处理，从而将第一目标车辆的分类结果作为目标强化学习模型的输入，能够降低模型处理数据量和处理复杂度，提高目标强化学习模型的数据处理效率。
88.进一步地，目标自动驾驶控制指令的确认方法可参阅图4，该方法可以包括：
89.s401：在所述目标奖励值大于预设奖励值的情况下，确定对所述自车的目标自动驾驶控制指令为加速行驶指令；所述预设奖励值大于零；
90.本技术实施例中，目标奖励值可以为正值，可以为负值，可以为零，其定义了在不同驾驶状态下自车执行的不同决策行为，决策行为可以根据目标奖励值进行调整，提高了决策行为的全面性和准确性。
91.s402：在所述目标奖励值小于零的情况下，确定对所述自车的目标自动驾驶控制指令为减速行驶指令；
92.本技术实施例中，在目标奖励值小于零的情况下，自车对应的当前驾驶状态与第一目标车辆相比，不占优势，自车减速让行。
93.s403：在所述目标奖励值大于等于零，小于等于所述预设奖励值的情况下，确定对所述自车的目标自动驾驶控制指令为保持车速指令。
94.本技术实施例中，在目标奖励值大于等于零，小于等于预设奖励值的情况下，自车与第一目标车辆互不占优势，自车保持车速。
95.进一步地，第一目标车辆的驾驶信息包括第一目标车辆的驾驶状态信息，以及第一目标车辆的驾驶方位信息；
96.在第一目标车辆的驾驶方位信息表征第一目标车辆与自车相对行驶，且第一目标车辆的驾驶状态信息表征第一目标车辆加速行驶的情况下，将当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值；目标奖励值小于零；
97.在第一目标车辆的驾驶方向信息表征第一目标车辆与自车相对行驶，且第一目标车辆的驾驶状态信息表征第一目标车辆减速行驶的情况下，将当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值；目标奖励值大于预设奖励值。
98.在一个实际应用中，自车1与第一目标车辆2相对行驶的场景可参阅图5，第一目标车辆2与自车1相对行驶，具体可以是无转向保护场景，指在十字路口，如何判断哪辆车先行的情况，对于此场景下，自车1轨迹为左转，第一目标车辆2轨迹为直行，会出现自车1与第一目标车辆2轨迹冲突的情况，需要判断车辆的行驶优先权；将当前驾驶状态输入目标强化学习模型，如果第一目标车辆2加速抢行，当前驾驶状态对应的目标奖励值就小，自车1选择减速让行；反之，如果第一目标车辆2减速让行，当前驾驶状态对应的目标奖励值就大，自车1选择加速抢行，提高了行车的安全性以及决策的准确性。
99.进一步地，第一目标车辆的驾驶信息包括第一目标车辆的驾驶状态信息，以及第一目标车辆的驾驶方位信息；
100.在第一目标车辆的驾驶方向信息表征第一目标车辆与自车同向行驶，第一目标车辆位于自车前方，且第一目标车辆的驾驶状态信息表征第一目标车辆加速行驶的情况下，将当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值；目标奖励值大于预设奖励值；
101.在第一目标车辆的驾驶方位信息表征第一目标车辆与自车同向行驶，第一目标车辆位于自车前方，且第一目标车辆的驾驶状态信息表征第一目标车辆减速行驶的情况下，将当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值；目标奖励值小于零。
102.在一个实际应用中，第一目标车辆为保守型，自车周围的环境信息是天气晴朗、平直道路，跟车场景下，由于当前驾驶状态对应的目标奖励值较大，自车可以随着第一目标车辆的速度增加而增加，在保证道路行驶安全性的条件下，提高车辆的通行效率。
103.进一步地，第一目标车辆的驾驶信息包括第一目标车辆的驾驶状态信息，以及第一目标车辆的驾驶方向信息；
104.在第一目标车辆的驾驶方向信息表征第一目标车辆与自车同向行驶，第一目标车辆变道且第一目标车辆变道后与自车不在同一车道的情况下，将当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值；目标奖励值大于预设奖励值。
105.在一个实际应用中，第一目标车辆2变道的场景的示意图可参阅图6，天气晴朗、道路平坦，第一目标车辆2变道行驶，目标奖励值大于预设奖励值，自车1可以加速行驶，提高了车辆的通行效率。
106.进一步地，第一目标车辆的驾驶信息包括第一目标车辆的驾驶状态信息，以及第一目标车辆的驾驶方位信息；
107.在第一目标车辆的驾驶方向信息表征第一目标车辆与自车同向行驶，第一目标车辆切入自车所在的车道，且第一目标车辆的驾驶状态信息表征第一目标车辆加速行驶的情况下，将当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值；目标奖励值小于零；
108.在第一目标车辆的驾驶方向信息表征第一目标车辆与自车同向行驶，第一目标车辆切入自车所在的车道，且第一目标车辆的驾驶状态信息表征第一目标车辆减速行驶的情况下，将当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值；目标奖励值大于预设奖励值。
109.在一个实际应用中，第一目标车辆2切入的场景的示意图可参阅图7，比如匝道汇入场景，车道数减少，自车1与第一目标车辆2存在行驶优先权、车辆通行效率及车辆安全通行的问题，从而可以将当前驾驶状态输入到目标强化学习模型中，基于得到的目标奖励值，确定自车1的驾驶决策行为。其中，可以通过第一目标车辆2的偏航信息确定第一目标车辆2的行驶轨迹，根据自车1与第一目标车辆2的碰撞时间保证优先通行的前提下，保证通行安全性，自车1与第一目标车辆2的碰撞时间的奖励值与目标强化学习模型训练得到的目标奖励值正相关，第一目标车辆2的偏航速率越大，一定程度上表示自车1应该保持减速慢行，第一目标车辆2的偏航信息的奖励值与目标强化学习模型训练得到的目标奖励值负相关。
110.在一个实际应用中，第一目标车辆2为保守型，天气晴朗、平直道路环境下，第一目标车辆2的偏航速率较小，自车1与第一目标车辆2的碰撞时间较大，目标强化学习模型训练
得到的目标奖励值较大，此时自车1在匝道汇入场景下，自车1拥有路权，自车1应该优先快速通过匝道路口，提高匝道路口的车辆通行效率和保证车辆通行安全性。
111.本技术上述实施例，具有如下有益效果：本技术中，将获取与自车对应当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值，目标奖励值为在当前驾驶状态下，自车执行多种预设自动驾驶控制指令中任一自动驾驶控制指令，所得到的最大奖励值；在当前驾驶状态下，自车根据该最大奖励值能作出最适合的驾驶决策；由此基于目标奖励值，确定对自车的目标自动驾驶控制指令，提高了自车驾驶决策的准确性；进一步地，驾驶状态信息考虑到了自车信息、自车周围的车辆信息以及环境信息，提高了自车驾驶决策的全面性。
112.本技术实施例还提供了一种自动驾驶控制装置，自动驾驶控制装置的框图可参阅图8，该装置可以包括：
113.状态获取模块10，用于获取与自车对应的当前驾驶状态；所述当前驾驶状态包括自车周围的环境信息、第一目标车辆的驾驶信息、所述自车与所述第一目标车辆的碰撞时间以及所述第一目标车辆的偏航信息；所述第一目标车辆为所述自车周围的车辆；
114.奖励值获取模块20，用于将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标强化学习模型基于样本车辆的样本驾驶状态序列，以及与样本指令集合进行训练得到；所述目标奖励值表征在所述当前驾驶状态下，所述自车执行多种预设自动驾驶控制指令中任一自动驾驶控制指令，所得到的最大奖励值；
115.指令确定模块30，用于基于所述目标奖励值，确定对所述自车的目标自动驾驶控制指令；所述目标自动驾驶控制指令为所述多种预设自动驾驶控制指令中的一种。
116.进一步地，自动驾驶控制装置还可以包括：
117.第一获取模块，用于将每个连续样本状态以及所述多种预设自动驾驶控制指令输入到待训练强化学习模型，得到目标训练奖励值；所述目标训练奖励值为所述多种预设自动驾驶控制指令分别对应的训练奖励值中的最大值；所述多种预设自动驾驶控制指令分别对应的训练奖励值，为在所述每个连续样本状态下执行相应预设自动驾驶控制指令所对应的训练奖励值；
118.损失信息确定模块，用于基于所述每个连续样本状态对应的目标训练奖励值，以及所述每个连续样本状态对应的奖励标签，确定目标损失信息；
119.模型获取模块，用于基于所述目标损失信息对所述待训练强化学习模型进行训练，得到所述目标强化学习模型。
120.进一步地，自动驾驶控制装置还可以包括：
121.第二获取模块，用于获取所述第一目标车辆的速度、加速度、加速度变化率以及方向盘转角速率；
122.结果获取模块，用于基于所述第一目标车辆的所述速度、所述加速度、所述加速度变化率以及所述方向盘转角速率，对所述第一目标车辆进行分类，得到所述第一目标车辆的分类结果；
123.第一信息确定模块，用于基于所述第一目标车辆的分类结果，确定所述第一目标车辆的驾驶信息。
124.进一步地，所述指令确定模块30包括：
125.第一指令确定模块，用于在所述目标奖励值大于预设奖励值的情况下，确定对所述自车的目标自动驾驶控制指令为加速行驶指令；所述预设奖励值大于零；
126.第二指令确定模块，用于在所述目标奖励值小于零的情况下，确定对所述自车的目标自动驾驶控制指令为减速行驶指令；
127.第三指令确定模块，用于在所述目标奖励值大于等于零，小于等于所述预设奖励值的情况下，确定对所述自车的目标自动驾驶控制指令为保持车速指令。
128.进一步地，所述奖励值获取模块20包括：
129.第三获取模块，用于在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车相对行驶，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零；
130.第四获取模块，用于在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车相对行驶，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值。
131.进一步地，所述奖励值获取模块20还包括：
132.第五获取模块，用于在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆位于所述自车前方，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值；
133.第六获取模块，用于在所述第一目标车辆的驾驶方位信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆位于所述自车前方，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零。
134.进一步地，所述奖励值获取模块20还包括：
135.第七获取模块，用于在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆变道且所述第一目标车辆变道后与所述自车不在同一车道的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值。
136.进一步地，所述奖励值获取模块20还包括：
137.第八获取模块，用于在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆切入所述自车所在的车道，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零；
138.第九获取模块，用于在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆切入所述自车所在的车道，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预
设奖励值。
139.本技术实施例还提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现本实施例上述的任一项方法。
140.存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据该设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。
141.本技术实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行，即上述电子设备可以包括移动终端、计算机终端、服务器或者类似的运算装置。其中，上述的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。
142.具体地，图9是本技术实施例提供一种用于实现上述自动驾驶控制方法的电子设备结构示意图。如图9所示，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)610(处理器610可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器630，一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中，存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器610可以设置为与存储介质620通信，在电子设备600上执行存储介质620中的一系列指令操作。电子设备600还可以包括一个或一个以上电源660，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口640，和/或，一个或一个以上操作系统621，例如windows server
tm
，mac os x
tm
，unix
tm
,linux
tm
，freebsd
tm
等等。
143.处理器610可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(dsp，digital signal processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。
144.输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备600的通信供应商提供的无线网络。在一个实例中，输入输出接口640包括一个网络适配器(network interface controller，nic)，其可通过与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口640可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
145.操作系统621可以包括用于处理各种基本系统服务和执行硬件相关任务的系统程
序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。
146.本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备600还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。
147.本技术实施例还提供了一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现上述任一项实施例的自动驾驶控制方法。
148.可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
149.本技术的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如本实施例上述任一方法。
150.需要说明的是：上述本技术实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
151.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
152.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
153.以上仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

技术特征：

1.一种自动驾驶控制方法，其特征在于，所述方法包括：获取与自车对应的当前驾驶状态；所述当前驾驶状态包括自车周围的环境信息、第一目标车辆的驾驶信息、所述自车与所述第一目标车辆的碰撞时间以及所述第一目标车辆的偏航信息；所述第一目标车辆为所述自车周围的车辆；将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标强化学习模型基于样本车辆的样本驾驶状态序列，以及与样本指令集合进行训练得到；所述目标奖励值表征在所述当前驾驶状态下，所述自车执行多种预设自动驾驶控制指令中任一自动驾驶控制指令，所得到的最大奖励值；基于所述目标奖励值，确定对所述自车的目标自动驾驶控制指令；所述目标自动驾驶控制指令为所述多种预设自动驾驶控制指令中的一种。2.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述样本驾驶状态序列包括多个连续样本状态，以及与所述多个连续样本状态分别对应的奖励标签；所述样本指令集合中包括所述多种预设自动驾驶控制指令；所述获取与自车对应的当前驾驶状态之前，所述方法还包括：将每个连续样本状态以及所述多种预设自动驾驶控制指令输入到待训练强化学习模型，得到目标训练奖励值；所述目标训练奖励值为所述多种预设自动驾驶控制指令分别对应的训练奖励值中的最大值；所述多种预设自动驾驶控制指令分别对应的训练奖励值，为在所述每个连续样本状态下执行相应预设自动驾驶控制指令所对应的训练奖励值；基于所述每个连续样本状态对应的目标训练奖励值，以及所述每个连续样本状态对应的奖励标签，确定目标损失信息；基于所述目标损失信息对所述待训练强化学习模型进行训练，得到所述目标强化学习模型。3.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述获取与自车对应的当前驾驶状态之前，所述方法还包括：获取所述第一目标车辆的速度、加速度、加速度变化率以及方向盘转角速率；基于所述第一目标车辆的所述速度、所述加速度、所述加速度变化率以及所述方向盘转角速率，对所述第一目标车辆进行分类，得到所述第一目标车辆的分类结果；基于所述第一目标车辆的分类结果，确定所述第一目标车辆的驾驶信息。4.根据权利要求1所述的自动驾驶控制方法，其特征在于，所述基于所述目标奖励值，确定对所述自车的目标自动驾驶控制指令，包括：在所述目标奖励值大于预设奖励值的情况下，确定对所述自车的目标自动驾驶控制指令为加速行驶指令；所述预设奖励值大于零；在所述目标奖励值小于零的情况下，确定对所述自车的目标自动驾驶控制指令为减速行驶指令；在所述目标奖励值大于等于零，小于等于所述预设奖励值的情况下，确定对所述自车的目标自动驾驶控制指令为保持车速指令。5.根据权利要求4所述的自动驾驶控制方法，其特征在于，所述第一目标车辆的驾驶信息包括所述第一目标车辆的驾驶状态信息，以及所述第一目标车辆的驾驶方向信息；所述将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目
标奖励值包括：在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车相对行驶，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零；在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车相对行驶，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值。6.根据权利要求4所述的自动驾驶控制方法，其特征在于，所述第一目标车辆的驾驶信息包括所述第一目标车辆的驾驶状态信息，以及所述第一目标车辆的驾驶方向信息；所述将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值包括：在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆位于所述自车前方，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值；在所述第一目标车辆的驾驶方位信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆位于所述自车前方，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零。7.根据权利要求4所述的自动驾驶控制方法，其特征在于，所述第一目标车辆的驾驶信息包括所述第一目标车辆的驾驶状态信息，以及所述第一目标车辆的驾驶方向信息；所述将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值包括：在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆变道且所述第一目标车辆变道后与所述自车不在同一车道的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值。8.根据权利要求4所述的自动驾驶控制方法，其特征在于，所述第一目标车辆的驾驶信息包括所述第一目标车辆的驾驶状态信息，以及所述第一目标车辆的驾驶方向信息；所述将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值包括：在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆切入所述自车所在的车道，且所述第一目标车辆的驾驶状态信息表征所述第一目标车辆加速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值小于零；在所述第一目标车辆的驾驶方向信息表征所述第一目标车辆与所述自车同向行驶，所述第一目标车辆切入所述自车所在的车道，且所述第一目标车辆的驾驶状态信息表征所述
第一目标车辆减速行驶的情况下，将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标奖励值大于所述预设奖励值。9.一种自动驾驶控制装置，其特征在于，所述装置包括：状态获取模块，用于获取与自车对应的当前驾驶状态；所述当前驾驶状态包括自车周围的环境信息、第一目标车辆的驾驶信息、所述自车与所述第一目标车辆的碰撞时间以及所述第一目标车辆的偏航信息；所述第一目标车辆为所述自车周围的车辆；奖励值获取模块，用于将所述当前驾驶状态输入目标强化学习模型，得到与所述当前驾驶状态对应的目标奖励值；所述目标强化学习模型基于样本车辆的样本驾驶状态序列，以及与样本指令集合进行训练得到；所述目标奖励值表征在所述当前驾驶状态下，所述自车执行多种预设自动驾驶控制指令中任一自动驾驶控制指令，所得到的最大奖励值；指令确定模块，用于基于所述目标奖励值，确定对所述自车的目标自动驾驶控制指令；所述目标自动驾驶控制指令为所述多种预设自动驾驶控制指令中的一种。10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-8任一项所述的自动驾驶控制方法。11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-8任一项所述的自动驾驶控制方法。

技术总结

本申请公开了一种自动驾驶控制方法及装置，方法包括：获取与自车对应的当前驾驶状态；当前驾驶状态包括自车周围的环境信息、第一目标车辆的驾驶信息、自车与第一目标车辆的碰撞时间以及第一目标车辆的偏航信息；将当前驾驶状态输入目标强化学习模型，得到与当前驾驶状态对应的目标奖励值；基于目标奖励值，确定对自车的目标自动驾驶控制指令。本申请能够根据自车信息、自车周围的车辆信息以及环境信息进行驾驶决策，提高了自车驾驶决策的准确性和全面性。面性。面性。