首页 > 专利技术

车辆行动评价装置、车辆行动评价方法以及车辆行动评价程序与流程

车辆行动评价装置、车辆行动评价方法以及车辆行动评价程序
1.相关申请的交叉引用
2.本技术以在2020年2月17日在日本技术的日本专利申请第2020－24654号为基础，在整体上通过参照引用基础申请的内容。
技术领域
3.本公开涉及车辆行动评价装置、车辆行动评价方法以及车辆行动评价程序。

背景技术：

4.例如，在专利文献1中，记载有评价车辆要行驶的将来的轨道的轨道评价装置。该轨道评价装置生成本车辆要行驶的将来的轨道，并预测本车辆的周边的物体的将来位置，对于本车辆的将来的轨道上的多个地点，基于与预测出的物体的将来位置之间的与道路的长边方向相关的相对位置关系和与道路的宽度方向相关的相对位置关系来进行评价。而且，基于每个地点的评价结果来评价本车辆的将来轨道。
5.专利文献1:日本特开2018－95149号公报
6.在上述的专利文献1的轨道评价装置中，以本车辆和物体进行匀速运动或匀加速度运动等为前提，求出本车辆的目标轨道候补、物体的将来位置。而且，对于本车辆的目标轨道候补的各坐标，基于与推荐车道的中心线的偏离距离、横向的变动量的大小(即，角速度)、从对象车道的脱离量以及在行进方向和横向上的与物体的间隔来计算评价值。通过将每个坐标的评价结果相加来评价目标轨道候补。
7.然而，本车辆和其他车辆等物体并不是总是进行匀速运动、匀加速度运动，也有根据交通状况，使速度降低或有时停止的情况。另外，本车辆也可能遇到在推荐车道上行驶未必为目标轨道的状况。例如，在遇到可行驶的道路宽度因本车辆的行驶车道上的停放车辆而变窄的状况的情况下，本车辆需要暂时驶出到对面车道来行驶。此时，当存在在对面车道上行驶的其他车辆的情况下，本车辆应采取的行动可能会根据其他车辆的行动而变化。例如，在本车辆先开始绕过停放车辆的行动时，当在对面车道上行驶的其他车辆使速度降低或停止的情况下，希望本车辆直接继续绕过停放车辆的行动，并返回到原来的行驶车道。另一方面，当其他车辆在对面车道上行进到停放车辆的位置的情况下，为了本车辆让其他车辆通行，所以优选使速度降低或停止。
8.在专利文献1的轨道评价装置中，以本车辆和物体进行匀速运动或匀加速度运动等为前提，来求出本车辆的目标轨道候补、物体的将来位置，并且，仅以距推荐车道的距离、与物体的间隔来进行目标轨道候补的评价。因此，在如上述那样的状况下，很难设定可以采取期望的行动的目标轨道候补，并对该目标轨道候补赋予较高的评价。

技术实现要素：

9.本公开是鉴于上述的点而完成的，目的在于提供一种能够适当地评价适合本车辆
面临的各种交通状况的本车辆的行动的车辆行动评价装置、车辆行动评价方法以及车辆行动评价程序。
10.为了实现上述目的，本公开的车辆行动评价装置是用于评价本车辆的将来的行动的装置，上述车辆行动评价装置构成为具备：
11.设定部，设定在预定跑道行驶时本车辆可以采取的多个行动；以及
12.评价部，具有函数器，上述函数器在本车辆的周边环境、本车辆的状况以及其他车辆的状况的组合不同的多个环境下进行模拟，并基于行驶状况－报酬数据进行了学习，上述行驶状况－报酬数据被创建为在本车辆能够避免与其他车辆接触的本车辆的状况下赋予较高的报酬，在本车辆已与其他车辆接触的本车辆的状况下赋予比上述报酬低的报酬，上述评价部使用该函数器，对由设定部设定的本车辆的行动，计算考虑了本车辆周围的其他车辆的行驶状态的报酬，并基于该计算出的报酬来评价本车辆的行动。
13.另外，本公开的车辆行动评价方法是用于评价本车辆的将来的行动的方法，
14.由至少一个处理器执行，
15.上述车辆行动评价方法构成为具备：
16.设定步骤，设定在预定跑道行驶时本车辆可以采取的多个行动；以及
17.评价步骤，使用函数器，对在设定步骤中设定的本车辆的行动计算考虑了本车辆周围的其他车辆的行驶状态的报酬，并基于该计算出的报酬来评价本车辆的行动，其中，上述函数器在本车辆的周边环境、本车辆的状况以及其他车辆的状况的组合不同的多个环境下进行模拟，并基于行驶状况－报酬数据进行了学习，上述行驶状况－报酬数据被创建为：在本车辆能够避免与其他车辆接触的本车辆的状况下赋予较高的报酬，在本车辆已与其他车辆接触的本车辆的状况下赋予比上述报酬低的报酬。
18.进一步，本公开的车辆行动评价程序是存储于计算机可读取的非过渡存储介质，且包含命令的程序，且构成为在该命令被至少一个处理器执行的情况下，使至少一个处理器进行如下步骤：
19.设定在预定跑道行驶时本车辆可以采取的多个行动，
20.使用函数器，对所设定的本车辆的行动计算考虑了本车辆周围的其他车辆的行驶状态的报酬，并基于该计算出的报酬来评价本车辆的行动，上述函数器在本车辆的周边环境、本车辆的状况以及其他车辆的状况的组合不同的多个环境下进行模拟，并基于行驶状况－报酬数据进行了学习，上述行驶状况－报酬数据在本车辆能够避免与其他车辆接触的本车辆的状况下赋予较高的报酬，在本车辆已与其他车辆接触的本车辆的状况下赋予比上述报酬低的报酬。
21.根据上述的车辆行动评价装置、车辆行动评价方法以及车辆行动评价程序，函数器对所设定的本车辆可以采取将来的行动计算考虑了其他车辆的行驶状态的报酬。基于该计算出的报酬来评价本车辆的行动。函数器在本车辆的周边环境、本车辆的状况以及其他车辆的状况的组合不同的多个环境下进行模拟，并基于行驶状况－报酬数据进行了学习，上述行驶状况－报酬数据被创建为在本车辆能够避免与其他车辆接触的本车辆的状况下赋予较高的报酬，在本车辆已与其他车辆接触的本车辆的状况下赋予比上述报酬低的报酬。因此，本车辆的将来的行动越包含与能够避免与其他车辆的接触的本车辆的行驶状况相类似的行驶状况，赋予越高的报酬。因此，能够基于对本车辆的将来的行动赋予的报酬，
适当地评价该本车辆的将来的行动是否适合本车辆所面临的交通状况。
22.此外，为了容易理解本公开，权利要求书中的参照编号仅表示与后述的实施方式中的具体的结构的对应关系的一个例子，并不旨在限制本公开的范围。
23.另外，关于上述的特征以外的权利要求书的各权利要求所记载的技术特征，根据后述的实施方式的说明以及附图变得清楚。
附图说明
24.图1是表示应用了实施方式的车辆行动评价装置的自动驾驶系统的整体结构的结构图。
25.图2是表示时空状态行动图的一个例子的图。
26.图3是用于对近似函数器的创建方法的一个例子进行说明的图。
27.图4是表示在图1所示的自动驾驶系统中，为了自动地驾驶车辆而执行的处理的流程图。
28.图5是表示评价本车辆的行动而生成的本车辆行动评价生成处理的流程图。
29.图6是对当在本车辆的行驶车道上存在停放车辆，本车辆必须绕过该停放车辆行驶的状况下，存在在对面车道上行驶的其他车辆的情况下，本车辆和其他车辆可以采取的行动进行说明的图。
30.图7是表示考虑到其他车辆的驾驶特性的时空状态行动图的一个例子的图。
31.图8是作为优选考虑其他车辆的驾驶特性的例子，示出在本车辆想要从侧道汇合到主线时，在本车辆的附近存在在主线上行驶的其他车辆的状况的图。
32.图9是表示考虑到交通信号的状态的时空状态行动图的一个例子的图。
33.图10是作为优选考虑交通信号的状态的例子，示出当在具有信号灯的交叉路口本车辆为了右转而等待时，存在在对面车道上行驶来的其他车辆的状况的图。
具体实施方式
34.(第一实施方式)
35.以下，参照附图对本公开的实施方式进行详细说明。此外，在本实施方式中，对将车辆行动评价装置应用于车辆的自动驾驶系统的例子进行说明。应予说明，本公开的车辆行动评价装置的应用例并不限制于车辆的自动驾驶系统。例如，也可以应用于将通过车辆行动评价装置评价为适当的本车辆的行动作为推荐行动提示给本车辆的驾驶员的系统。
36.在图1中，示出应用了本实施方式的车辆行动评价装置的自动驾驶系统100的整体结构。如图1所示，自动驾驶系统100具备各种传感器10、长期计划创建部20、中期计划创建部30、交互式预测部40、短期计划创建部60以及路径跟随控制部70。
37.各种传感器10例如包含相机、lidar、毫米波雷达等传感器中的至少一个。各种传感器10检测本车辆的周边环境信息、表示本车辆的状态的本车辆信息以及表示存在于本车周围的其他车辆的状态的其他车辆信息。各种传感器10检测路上的坠落物、路上停放车辆等障碍物、护栏、路缘石、行驶划分线等路面显示、以及树木等静止物体作为周边环境信息。并且，各种传感器10检测行人、人以外的动物、其他车辆等移动物体作为周边环境信息。另外，各种传感器10检测本车辆的位置、方向、速度、加速度作为本车辆信息。进一步，也可以
检测本车辆的加加速度(每单位时间的加速度的变化)作为本车辆信息。各种传感器10检测其他车辆的位置、方向、速度、加速度作为其他车辆信息。进一步，也可以检测其他车辆的加加速度作为其他车辆信息。此外，自动驾驶系统100也可以经由通信从控制中心等外部服务器获取本车辆信息和其他车辆信息中的至少一部分。
38.长期计划创建部20基于由车辆的乘员指定的出发地(当前位置)以及目的地，利用道路地图数据库，来创建车辆为了从出发地(当前位置)到达目的地而行驶的道路的路径(行驶路径)。在车辆具备导航装置的情况下，该长期计划创建部20由导航装置构成。或者，长期计划创建部20也可以设置于管理中心等外部服务器。而且，也可以通过车辆的乘员将与出发地(当前位置)以及目的地相关的信息发送至外部服务器，在外部服务器中创建到目的地的行驶路径。
39.中期计划创建部30比长期计划创建部20更详细地设定到目的地为止的行驶路径。具体而言，例如，当在行驶路径上存在多个车道的情况下，中期计划创建部30确定本车辆在哪个车道行驶。首先，中期计划创建部30获取由长期计划创建部20创建的到目的地的行驶路径。另外，中期计划创建部30从长期计划创建部20(道路地图数据库)获取车辆的当前位置周边的道路信息(车道数、车道宽度、形状等)。并且，中期计划创建部30获取由各种传感器10检测出的本车辆的周边环境信息、本车辆信息以及其他车辆信息。
40.在本车辆所行驶的道路具有多个车道的情况下，中期计划创建部30基于获取到的道路信息以及本车辆信息，来确定本车辆所行驶的车道位置。另外，中期计划创建部30在基于获取到的道路信息、周边环境信息掌握到在本车辆的周围存在其他车辆的情况下，也确定其他车辆所行驶的车道(是相同的行进方向的车道还是对面车道，并且在有多个车道的情况下，其他车辆所行驶的车道位置)。
41.而且，中期计划创建部30基于获取到的行驶路径、道路信息、周边环境信息以及本车辆信息，来计算到规定时间(例如，5秒)或者规定距离(例如，100m)之前的本车辆的道路上的预定轨道。该规定时间或者规定距离可以分别是固定值，也可以是例如根据本车辆的速度而变化的可变值。
42.例如，中期计划创建部30也可以在基于周边环境信息掌握了在本车辆所行驶的车道上不存在障碍物，而且，在本车辆的周围不存在其他车辆等移动物体的情况下，不经由交互式预测部40来决定表示本车辆的行进预定轨道的本车辆路径。由于与障碍物、其他车辆的接触可能性较低，所以中期计划创建部30也可以在本车辆沿道路行驶的情况下，计算出沿着本车辆所行驶的车道的预定轨道，而且，在本车辆进行左右转弯、分支等的情况下，计算出与该左右转弯道路、分支道路的形状相应的预定轨道。即使在检测出障碍物、其他车辆的情况下，该障碍物、其他车辆未受本车辆的行动的影响的状态的情况下，中期计划创建部30也可以线性预测其他车辆的行动，并基于该预测结果来决定本车辆路径。
43.另一方面，若从周边环境信息可以得知在道路上存在停放车辆等障碍物，则中期计划创建部30基于道路信息来计算能够避免该障碍物在道路上行驶的预定轨道。另外，在行驶路径为在前方的交叉路口右转或者左转的情况下，当本车辆在右转车道或者与左转车道不同的车道上行驶的情况下，中期计划创建部30计算出用于向右转车道或者左转车道进行车道变更的预定轨道。
44.此外，在中期计划创建部30计算预定轨道时，即使在本车辆的周围存在其他车辆，
中期计划创建部30也不考虑其他车辆所行驶的车道位置、其他车辆的位置等，来计算本车辆的预定轨道。其理由是因为交互式预测部40基于预定轨道来决定不与其他车辆接触的本车辆的行动(本车辆路径以及目标速度)。因此，当在本车辆的周围存在其他车辆的情况下，中期计划创建部30将决定不与其他车辆接触的本车辆路径所需的信息输出至交互式预测部40。具体而言，中期计划创建部30向交互式预测部40输出本车辆的当前的(以及过去的)本车辆信息、本车辆的车道位置信息、其他车辆的当前的(以及过去的)其他车辆信息、其他车辆的车道位置信息、本车辆的预定轨道、障碍物的位置以及尺寸、道路信息等。
45.交互式预测部40作为设定部的功能，设定本车辆可以采取的多个行动。在这里，作为设定的行动，例如，可举出“等待”、“徐行”、“行进”、“转向灯点亮”等。多个行动也可以只是以相互不同的速度的行进。即，交互式预测部40也可以设定以速度a的行进和以与速度a不同的速度b行进，作为多个行动。并且，交互式预测部40决定表示在本车辆执行所设定的各个行动时的本车辆的行进预定轨道的本车辆路径。该本车辆路径基于本车辆的行动和本车辆的预定轨道来决定。例如，在本车辆等待的情况下，本车辆路径停留在本车辆的等待地点，但在本车辆行进的情况下，以描绘本车辆的预定轨道的方式决定本车辆路径。另外，在本车辆以某一速度行驶的情况下和以比该速度相对低(或者高)的速度行驶的情况下，每单位时间的本车辆路径的长度发生变化。并且，也可以根据本车辆行进的速度，变更基于预定轨道的本车辆路径的轨道。例如，在预定轨道描绘曲线时，也可以以在本车辆以相对较高的速度行进的情况下，与以相对较低的速度行进的情况相比，曲率变小的方式，决定本车辆路径。
46.交互式预测部40针对本车辆的各个行动，设定其他车辆可以采取的多个行动。并且，交互式预测部40决定表示在其他车辆执行所设定的各个行动时的其他车辆的行进预定轨道的其他车辆路径。与上述的本车辆路径同样地决定其他车辆路径。
47.例如，交互式预测部40决定直到经过规定时间(例如，1～5秒)为止的上述的本车辆路径以及其他车辆路径。如上所述，本车辆路径以及其他车辆路径的每单位时间的长度、轨道根据本车辆以及其他车辆的行动而变化。因此，与本车辆可以采取的多个行动对应的本车辆路径和与针对该本车辆的行动其他车辆可以采取的多个行动对应的其他车辆路径的各个组合不仅包含本车辆与其他车辆的距离上的(空间上的)关系，也包含时间上的关系。因此，与本车辆可以采取的多个行动对应的本车辆路径和与针对该本车辆的行动其他车辆可以采取的多个行动对应的其他车辆路径的各个组合的集合为在时间上、空间上表示本车辆与其他车辆的各种状态的时空状态行动图。在该时空状态行动图中，也可以包含本车辆路径以及其他车辆路径的多个地点的本车辆的速度、加速度、方向等附加信息、以及其他车辆的速度、加速度、方向等附加信息。
48.图2示出时空状态行动图的一个例子。应予说明，图2所示的是本车辆以及其他车辆均将可以采取的行动设为等待和行进这两种的简单的例子。
49.在交互式预测部40中，使用近似函数器50来评价本车辆可以采取的多个行动和针对该本车辆的行动其他车辆可以采取的多个行动的各个组合。在这里，近似函数器50作为输出部发挥作用，该输出部输出与本车辆和其他车辆的接触可能性相关的信息作为评价结果。在图2中，示出将与本车辆和其他车辆的接触可能性相关的信息作为报酬值的例，但与本车辆和其他车辆的接触可能性相关的信息只要是表示本车辆与其他车辆的接触可能性
的程度的信息，也可以是字母、符号等。该评价考虑本车辆的位置、速度及本车辆路径、以及其他车辆的位置、速度及其他车辆路径来决定。而且，交互式预测部40作为成为选择部的功能，基于近似函数器50的评价结果来选择本车辆的行动。具体而言，选择能够避免本车辆与其他车辆的接触的可能性高的本车辆的行动，并将表示该行动的信息输出至中期计划创建部30。交互式预测部40例如将表示报酬值最大时的本车辆的行动的信息输出至中期计划创建部30。表示本车辆的行动的信息可以是所设定的多个行动中的一个行动，除了该一个行动以外，也可以将执行该行动时的本车辆路径以及在该本车辆路径上行进时的规定时间间隔(例如，1秒间隔)内的目标速度输出至中期计划创建部30。后者由于能够减少生成更加详细的行驶轨道的短期计划创建部60的运算负担，所以是优选的。此外，对于使用近似函数器50的评价方法，在后面详细说明。另外，交互式预测部40相当于本公开中的车辆行动评价装置。
50.这些中期计划创建部30和交互式预测部40例如由本车辆的车载ecu构成。车载ecu是搭载于车辆的计算机，将微型计算机作为主体而构成，该微型计算机具备至少一个处理器、ram、rom等计算机可读取的非过渡存储介质、输入输出接口以及连接这些部件的总线。在车载ecu所具备的非过渡存储介质中，储存有用于执行图6所示的车辆行动生成处理的程序。而且，车载ecu所具备的处理器执行该程序。此外，中期计划创建部30和交互式预测部40可以由一个车载ecu构成，也可以由单独的车载ecu构成。另外，也可以将中期计划创建部30以及交互式预测部40的功能设置于外部服务器，该外部服务器能够与本车辆通信并且配置在本车辆的外部。
51.中期计划创建部30接收由交互式预测部40输出的表示本车辆的行动的信息，并将该信息输出至短期计划创建部60。短期计划创建部60基于表示接收到的本车辆的行动的信息(例如，本车辆路径和目标速度)，来创建用于实际控制本车辆的动作的短期计划(例如，到1～2秒后的计划)，并输出至路径跟随控制部70。由此，决定本车辆的详细的行进轨道。此外，短期计划创建部60也构成为接收来自各种传感器10的检测信号，在发生了预料之外的情况(例如，与预测时不同的其他车辆的行动、移动物体跳出隐蔽处等)的情况下等，短期计划创建部60通过创建使本车辆紧急停止、或使本车辆的行进方向变更的短期计划，也能够应对预料之外的情况。
52.路径跟随控制部70包含转向操纵控制部、发动机控制部、制动控制部等，通过控制车辆的转向操纵方向、驱动力以及制动力，按照由短期计划创建部60创建的短期计划来控制本车辆的动作。短期计划创建部60和路径跟随控制部70例如也由本车辆的车载ecu构成。
53.接下来，对交互式预测部40中的使用近似函数器50的评价方法进行说明。首先，参照图3，对近似函数器50的创建方法的一个例子进行说明。如图3所示，近似函数器50由模拟器120、报酬计算部130、近似函数器生成部140创建。模拟器120、报酬计算部130、近似函数器生成部140设置在车外。
54.模拟器120根据表示各种交通环境下的本车辆与其他车辆的行动的各种场景(左右转弯、超车、绕过障碍物的交错、汇合、分支等)，在各种交通环境下生成本车辆以及其他车辆的行驶轨道，模拟本车辆以及其他车辆的行驶状况。该被模拟的本车辆以及其他车辆的行驶状况伴随着包含本车辆以及其他车辆的停止的速度的变化。并且，被模拟的行驶状况包含能够避免接触的本车辆与其他车辆的行驶状况和已接触的本车辆与其他车辆的行
驶状况。
55.模拟器120将表示将本车辆与其他车辆的行驶状况细分为多个阶段的各阶段中的本车辆与其他车辆的行驶状况的行驶数据输出至报酬计算部130。具体而言，模拟器120将本车辆的位置、速度、加速度等本车辆的状态、本车辆的预定路径、障碍物的位置、其他车辆的位置、速度、加速度等其他车辆的状态、经过时间等数据作为各阶段中的行驶数据输出至报酬计算部130。
56.报酬计算部130基于接收到的行驶数据，对本车辆与其他车辆的行驶状况下的本车辆的状况赋予报酬。以下，对报酬的计算方法的几个例子进行说明。报酬计算部130计算在本车辆与其他车辆接触了的情况下，作为惩罚被赋予的第一成本。并且，报酬计算部130计算在本车辆与其他车辆接触了的情况下，对该接触以前的阶段的本车辆的行驶状况，到达接触的时间越短被设定为越大的第二成本。而且，报酬计算部130作为计算出的第一成本和第二成本的合计的倒数来计算报酬。由此，能够越是能够避免与其他车辆的接触的可能性较高的行驶状况，被赋予越高的报酬，相反，越是与其他车辆的接触的可能性较高的行驶状况，被赋予越低的报酬。
57.另外，报酬计算部130也可以基于根据行驶数据掌握的本车辆与包含其他车辆的物体的距离来计算第三成本，该距离越近将第三成本设定为越大，也考虑该第三成本(除了第一成本和第二成本的合计值以外，还计算该合计值的倒数)，来计算报酬。这是因为认为本车辆与物体的距离越短，接触的可能性越高。此外，当在本车辆的周围存在多个物体(例如，障碍物和其他车辆)的情况下，对各个物体计算第三成本。
58.另外，报酬计算部130也可以计算第四成本，为了避免本车辆与其他车辆的接触所需的时间(经过时间)越长，将第四成本设定为越大，也考虑该第四成本(除了第一～第三成本的合计值以外，也计算该合计值的倒数)，来计算报酬。这是因为通过考虑经过时间，能够对能够更迅速地避免与其他车辆的接触的行驶状况(本车辆的行动)赋予更高的报酬。
59.另外，报酬计算部130也可以计算第五成本，本车辆脱离应行驶的车道的继续时间和/或距离越长，将第五成本设定为越大，也考虑该第五成本来计算报酬。这是因为，例如，在因本车辆的行驶车道上的停放车辆而行驶车道的一部分被堵塞，本车辆为了绕过停放车辆，而需要至少一部分或者完全在对面车道上行驶的情况下，在对面车道上行驶的时间越长和/或在对面车道上行驶的距离越长，与其他车辆接触的可能性越高。进一步，报酬计算部130也可以计算第六成本，本车辆的加速度越大将第六成本设定为越大，也考虑该第六成本，来计算报酬。这是因为认为本车辆的加速度越高，与其他车辆等的接触的可能性越高。
60.此外，也可以在上述的第一～第六成本的基础上进一步、或代替上述的第一～第六成本，基于反映出本车辆与其他车辆的接触可能性的其他成本来计算对本车辆的行动赋予的报酬。另外，在上述的第一～第六成本中，作为本车辆与其他车辆接触时的惩罚的第一成本被设定为比其他成本相对地大。并且，对达到本车辆与其他车辆接触以前的阶段的行驶状况赋予的第二成本通过将第一成本以与达到接触的时间相应的折扣率进行折扣来计算。具体而言，到达到接触的时间越短，折扣率越小。因此，能够对本车辆与其他车辆接触的行驶状况以及达到接触的行驶状况，赋予非常低的报酬。
61.像这样，报酬计算部130通过对本车辆与其他车辆的各种行驶状况赋予与接触的可能性(或者，能够避免接触的可能性)相应的报酬，来创建行驶状况－报酬数据。所创建的
行驶状况－报酬数据被赋予给近似函数器生成部140。此外，报酬计算部130也可以将各个行驶状况和针对这些各个行驶状况的报酬数据直接赋予给近似函数器生成部140，但也可以按本车辆的每个预定轨道，汇总该预定轨道所包含的行驶状况和报酬数据，并赋予给近似函数器生成部140。
62.近似函数器生成部140基于由报酬计算部130创建的行驶状况－报酬数据，使近似函数器50学习近似本车辆与其他车辆的各种行驶状况(时空间状态)与报酬的关系的函数。作为该近似函数器50，能够使用深度神经网络，作为学习方法，能够使用所谓的深度q学习。然而，近似函数器50并不限制于神经网络，例如，也可以使用支持向量机(svm)等。这样的近似函数器50能够对上述的时空状态行动图所包含的本车辆可以采取的多个行动和针对该本车辆的行动其他车辆可以采取的多个行动的各个组合，基于本车辆的位置、速度及本车辆路径以及其他车辆的位置、速度及其他车辆路径，对本车辆的行动赋予作为评价的报酬。此外，对将预先创建的函数作为近似函数器50搭载于车辆的例子进行了说明，但涉及近似函数器50的函数也可以基于过去的评价结果、车辆的行驶历史再学习。
63.接下来，参照图4的流程图对在图1所示的自动驾驶系统100中为了自动地驾驶车辆而执行的处理进行说明。
64.在图4的流程图中，在步骤s100中，长期计划创建部20利用道路地图数据库，设定车辆为了从出发地(当前位置)到达目的地而行驶的道路的路径(行驶路径)。在步骤s110中，中期计划创建部30获取由长期计划创建部20设定的到目的地的行驶路径。
65.在步骤s120中，在中期计划创建部30以及交互式预测部40中，生成被评价为适当的本车辆的行动(本车辆路径、目标速度)。下面，基于图5的流程图，对该本车辆行动评价生成处理进行详细说明。在接下来的步骤s130中，短期计划创建部60基于所生成的本车辆的行动，来创建用于实际控制本车辆的动作的短期计划。在步骤s140中，路径跟随控制部70通过按照所创建的短期计划来控制车辆的转向操纵方向、驱动力以及制动力，来控制本车辆的动作。
66.在步骤s150中，判定本车辆是否到达指定的目的地。若未到达，则重复从步骤s120起的处理。此外，在目的地被变更的情况下，再次从最初的步骤s100开始执行处理。
67.接下来，参照图5的流程图，对在中期计划创建部30以及交互式预测部40中执行的车辆行动评价生成处理进行说明。该车辆行动评价生成处理对应上述的s120的工序。
68.在最初的步骤s200中，输入车辆的当前位置周边的道路信息以及由各种传感器10检测出的周边环境信息和本车辆信息。在接下来的步骤s210中，基于周边环境信息，来识别包含其他车辆的物体的形状、位置、尺寸、是移动物体还是静止物体等。
69.在步骤s220中，基于步骤s210中的识别结果，来判定在本车辆的周围是否存在其他车辆。当判定为在本车辆的周围存在其他车辆的情况下，进入步骤s230的处理。另一方面，当判定为在本车辆的周围不存在其他车辆的情况下，进入步骤s320的处理。
70.在步骤s230中，将为了设定本车辆可以采取的行动以及针对本车辆的行动其他车辆可以采取的行动所需的信息、以及在本车辆的行动与其他车辆的行动的各个组合中为了评价本车辆的行动所需的信息输出至交互式预测部40。具体而言，输出当前和过去的本车辆的位置、方向、速度、以及加速度等本车辆状态信息、本车辆所行驶的车道位置信息、当前和过去的其他车辆的位置、方向、速度以及加速度等其他车辆状态信息、其他车辆的车道位
置信息、包含本车辆的预定轨道、障碍物的位置和尺寸、道路形状、车道数等的道路信息。
71.在步骤s240中，交互式预测部40基于获取到的各种信息，来设定至少包含本车辆是等待还是行进的本车辆可以采取的多个行动。并且，交互式预测部40在步骤s250中规定表示本车辆执行所设定的各个行动时的本车辆的行进预定轨道的本车辆路径。
72.在步骤s260中，交互式预测部40对其他车辆也设定针对本车辆的各个行动其他车辆可以采取的多个行动，该多个行动至少包含其他车辆是等待还是行进。并且，交互式预测部40在步骤s270中，决定表示其他车辆执行所设定的各个行动时的其他车辆的行进预定轨道的其他车辆路径。
73.而且，交互式预测部40在步骤s280中，对本车辆可以采取的多个行动和针对该本车辆的行动其他车辆可以采取的多个行动的各个组合，使用近似函数器50，基于本车辆的位置、速度及本车辆路径以及其他车辆的位置、速度及其他车辆路径，对本车辆的行动赋予报酬。例如，近似函数器50在根据道路形状、车道数、本车辆的预定轨道、障碍物的位置、方向、尺寸等掌握的环境下，对本车辆路径所包含的多个地点的本车辆的位置、方向、速度、加速度和与其对应的其他车辆路径所包含的多个地点的其他车辆的位置、方向、速度、加速度的组合，按每个地点，基于学习内容来计算报酬。而且，通过对本车辆路径以及其他车辆路径所包含的多个地点上的报酬进行合计，对本车辆的行动和其他车辆的行动的各个组合中的本车辆的行动计算报酬。
74.例如，如图6所示，本车辆在本车辆的行驶车道上存在停放车辆且本车辆必须绕过该停放车辆来行驶的状况下，遇到存在在对面车道上行驶来的其他车辆的场景。在该情况下，本车辆先接近停放车辆，在能够开始绕过停放车辆的行动的情况下，在对面车道上行驶的其他车辆等待直到本车辆返回到原来的行驶车道、或者减缓速度的可能性较高。在行驶状况－报酬数据中也包含有这样的行驶状况，在该情况下，对本车辆绕过停放车辆行进的行动赋予相对较高的报酬。因此，在这样的行驶状况下，在本车辆的行动与其他车辆的行动的组合中的本车辆的行动中，对本车辆绕过停放车辆行进的行动赋予较高的报酬。
75.另一方面，当在对面车道上行驶的其他车辆先接近停放车辆的情况下，本车辆为了错开其他车辆的通过，而需要在停放车辆的附近等待或减缓速度。在行驶状况－报酬数据中也包含有这样的行驶状况，在该情况下，对本车辆等待其他车辆的通过或减缓速度的行动赋予较高的报酬。因此，在这样的行驶状况下，在本车辆的行动与其他车辆的行动的组合中的本车辆的行动中，对本车辆等待或者速度减缓的行动赋予较高的报酬。
76.在本实施方式中，由于像这样，对本车辆可以采取的多个行动和针对该本车辆的行动其他车辆可以采取的多个行动的各个组合，使用近似函数器50，对本车辆的行动赋予报酬，所以能够对适合实际的状况的本车辆的行动赋予较高的报酬。
77.再次，返回到图5的流程图继续说明。若在步骤s280中，对本车辆的行动和其他车辆的行动的各个组合中的本车辆的行动赋予报酬，则进入步骤s290，判定在被赋予的各个报酬中最高的报酬与第二高的报酬之间，是否产生了规定值以上的差。此时，若判定为产生了规定值以上的差，则进入步骤s310的处理。另一方面，若判定为未产生规定值以上的差，则进入步骤s300的处理。
78.当在最高的报酬与第二高的报酬之间未产生规定值以上的差的情况下，认为无法完全断定哪个本车辆的行动是最佳的行动的优劣。因此，在本实施方式中，为了执行紧接着
本车辆的行动和其他车辆的行动的各个组合本车辆可以采取的多个行动的设定、本车辆执行所设定的各个行动时的本车辆路径的决定、针对本车辆的各个行动其他车辆可以采取的多个行动的设定、以及其他车辆执行所设定的各个行动时的其他车辆路径的决定，而循环到步骤s240的处理。在循环时，根据其他车辆的行动、其他车辆路径，考虑本车辆怎样行动或本车辆路径受到的影响。进一步，在再次循环的情况下，根据在第一次的循环中考虑到的本车辆的行动以及本车辆路径，考虑其他车辆的行动、其他车辆路径受到的影响。通过使这样处理循环，能够对本车辆和/或其他车辆采取的行动，高精度地预测本车辆和/或其他车辆发生怎样的行动变化。但是，若无限制地允许该循环，则产生重复循环，而无法决定本车辆的行动的担忧。因此，在步骤s310中，判定循环次数是否达到规定次数。而且，构成为若循环次数未达到规定次数，则循环到步骤s240的处理，但在循环次数达到规定次数的情况下，进入步骤s310的处理。
79.在步骤s310中，基于所赋予的报酬，来选择被赋予了最高的报酬的本车辆的行动。而且，交互式预测部40将与所选择的本车辆的行动相关的信息(本车辆路径以及目标速度)输出至中期计划创建部30。此外，在步骤s310中，也可以代替基于报酬来选择本车辆的行动，交互式预测部40对中期计划创建部30指示其他行动。例如，也可以对中期计划创建部30指示维持当前的本车辆的速度/加速度、缓缓地减少速度、停止中的任意一个。
80.另一方面，在步骤s220中，当在判定为在本车辆的周围不存在其他车辆的情况下执行的步骤s320中，中期计划创建部30基于道路信息来决定本车辆的行动，以沿着行驶路径行驶。例如，在本车辆沿道路行驶的情况下，计算沿着本车辆所行驶的车道的预定轨道，并计算在该定轨道上行驶时的目标速度。另外，在本车辆进行左右转弯、分支等的情况下，中期计划创建部30计算与该左右转弯道路、分支道路的形状相应的预定轨道以及目标速度。
81.以上，如说明的那样，根据本实施方式的车辆行动评价装置，由于使用近似函数器50对本车辆的行动和其他车辆的行动的各个组合中的本车辆的行动进行评价，所以能够基于对本车辆的(将来的)行动赋予的报酬，适当地评价该本车辆的行动是否适合本车辆所面临的交通状况。
82.此外，在本实施方式的车辆行动评价装置中，为了评价本车辆的行动而由至少一个处理器进行的处理相当于本公开的车辆行动评价方法。另外，在本实施方式的车辆行动评价装置中，包含用于至少一个处理器执行车辆行动评价方法的命令的程序相当于本公开的车辆行动评价程序。
83.(第二实施方式)
84.接下来，对本公开的第二实施方式进行说明。但是，由于本实施方式的车辆行动评价装置与第一实施方式的车辆行动评价装置同样地构成，所以省略与结构相关的说明。
85.在上述的第一实施方式中，例如，基于图6，示出当在本车辆的行驶车道上存在停放车辆，且本车辆必须绕过该停放车辆来行驶的状况下，存在在对面车道上行驶来的其他车辆的状况，对本车辆和其他车辆可以采取的行动进行了说明。然而，在存在其他车辆的情况下，在驾驶该其他车辆的驾驶员有紧急状况的情况下，与没有这样的状况的情况相比，其他车辆的行动不同的情况较多。在本实施方式中，也考虑这样的其他车辆的驾驶特性的点与第一实施方式不同。
86.在本实施方式中，如图7所示，在时空状态行动图中，考虑其他车辆的驾驶特性。具体而言，根据由各种传感器10检测的其他车辆的动作，来判定其他车辆具有进行激烈的驾驶的驾驶特性，还是具有进行温和的驾驶的驾驶特性。此时，由于仅根据短时间内的其他车辆的动作很难断定具有激烈的驾驶特性还是具有温和的驾驶特性，所以例如优选计算激烈的驾驶特性的概率和温和的驾驶特性的概率。并且，作为其他车辆的驾驶特性，例如，也可以划分为激烈的、平均的、温和的等三种以上。
87.在能够断定其他车辆的驾驶特性的情况下，也可以仅考虑关于该驾驶特性分支的本车辆的行动与其他车辆的行动的组合。然而，在对其他车辆的驾驶特性计算出各个特性的概率的情况下，对从各个驾驶特性分支出的本车辆的行动与其他车辆的行动的组合，决定本车辆路径以及其他车辆路径。此时，作为其他车辆的行动，能够考虑其他车辆的驾驶特性。例如，能够估计在激烈的驾驶特性的其他车辆行进的情况下的速度、加速度高于在温和的驾驶特性的其他车辆行进的情况下的速度、加速度。而且，最终对本车辆的行动赋予的报酬可以根据各个驾驶特性的概率，进行增减计算。
88.作为优选考虑其他车辆的驾驶特性的例子，例如，除了在第一实施方式中使用图6说明的状况以外，图8所示的状况也符合。图8示出在本车辆想要从侧道汇合到主线时，在本车辆的附近存在在主线上行驶的其他车辆的状况。在图8所示的状况下，在其他车辆具有激烈的驾驶特性的情况下，如用更长的箭头所示的那样，继续以较高的速度行驶的可能性较高。另一方面，在其他车辆具有温和的驾驶特性的情况下，使速度降低的可能性较高，以使得本车辆能够进行主线汇合。在行驶状况－报酬数据中，也包含有其他车辆的驾驶特性为激烈的情况下和温和的情况下的行驶状况。因此，通过近似函数器50，在其他车辆的驾驶特性为激烈的情况下，对使速度降低的本车辆的行动赋予相对较高的报酬，在其他车辆的驾驶特性为温和的情况下，对在其他车辆之前汇合到主线的本车辆的行动赋予相对较高的报酬的可能性升高。像这样，通过考虑其他车辆的驾驶特性，即使其他车辆与本车辆的相对的位置关系相同，本车辆应采取的最佳的行动也发生变化。
89.并且，作为与图8类似的状况，例如，在本车辆需要进行车道变更的情况下，在其他车辆在该变更目的地的车道上行驶时，优选考虑该其他车辆的驾驶特性。并且，当在本车辆的周围存在其他车辆的所有状况下，也可以考虑其他车辆的驾驶特性。
90.(第三实施方式)
91.接下来，对本公开的第三实施方式进行说明。然而，由于本实施方式的车辆行动评价装置也与第一实施方式的车辆行动评价装置同样地构成，所以省略与结构相关的说明。
92.在上述的第二实施方式中，考虑到其他车辆的驾驶特性创建了时空状态行动图，但在本实施方式中，考虑交通信号的状态来创建时空状态行动图的点与第二实施方式不同。
93.在本实施方式中，如图9所示，在时空状态行动图中，考虑交通信号的状态。具体而言，如图10所示，当本车辆想要在交叉路口右转时，存在在对面车道上朝向交叉路口行进来的其他车辆的情况下，创建与交通信号的状态相应的时空状态行动图。此外，对于交通信号的状态而言，能够根据由各种传感器10检测的检测结果，来判定交通信号是绿点亮状态还是黄点亮状态。并且，当在交通信号中设置有右转箭头信号的情况下，也可以判定是否是右转箭头点亮状态。
94.若检测出交通信号是绿点亮状态，则在图9所示的时空状态行动图中，关于从绿灯分支的本车辆的行动与其他车辆的行动的组合，决定本车辆路径以及其他车辆路径。在这里，在绿灯的情况下，与本车辆的右转动作相比，优先在对面车道上接近交叉路口的其他车辆的行驶。在行驶状况－报酬数据中，也包含这样的行驶状况。因此，通过近似函数器50对本车辆等待且其他车辆行进的行动的组合中的本车辆的行动赋予较高的报酬的可能性升高。但是，在认为到其他车辆进入交叉路口之前有充分的时间的状况下，对本车辆为了右转而发出信号的本车辆的行动赋予较高的报酬的可能性升高。
95.另一方面，若检测出交通信号为黄点亮状态，则在时空状态行动图中，关于从黄灯分支的本车辆的行动与其他车辆的行动的组合，决定本车辆路径以及其他车辆路径。在这里，在为黄灯的情况下，在对面车道上接近交叉路口的其他车辆在交叉路口的停止线处停止，等待右转的本车辆为了右转而行进的可能性升高。在行驶状况－报酬数据中，也包含有这样的行驶状况。因此，通过近似函数器50对本车辆为了右转而行进且其他车辆在停止线处停止的行动的组合中的本车辆的行动赋予较高的报酬的可能性升高。在右转箭头信号点亮的情况下，其可能性进一步提高。像这样，通过考虑交通信号的状态，在本车辆在实际的交通环境中遇到的场景中，能够选择更加适当的行动作为本车辆的行动。
96.以上，对本公开的优选的实施方式进行了说明，但本公开决不限于上述的实施方式，能够在不脱离本公开的主旨的范围内，实施各种变形。
97.例如，在上述的实施方式中，将自动驾驶系统100构成为包含长期计划创建部20、中期计划创建部30以及短期计划创建部60，但也可以将这些结构任意地统合。并且，中期计划创建部30和交互式预测部40也可以统合地构成。

技术特征：

1.一种车辆行动评价装置，是用于评价本车辆的将来的行动的车辆行动评价装置，具备：设定部(s240)，设定在预定跑道行驶时本车辆可以采取的多个行动；以及评价部(s280)，具有函数器(50)，上述函数器(50)在上述本车辆的周边环境、上述本车辆的状况以及其他车辆的状况的组合不同的多个环境下进行模拟，并基于行驶状况－报酬数据进行了学习，上述行驶状况－报酬数据被创建为在上述本车辆能够避免与上述其他车辆接触的上述本车辆的状况下赋予较高的报酬，在上述本车辆已与上述其他车辆接触的上述本车辆的状况下赋予比上述报酬低的报酬，上述评价部(s280)使用该函数器，对由上述设定部设定的上述本车辆的行动，计算考虑了上述本车辆周围的其他车辆的行驶状态的报酬，并基于该计算出的报酬来评价上述本车辆的行动。2.根据权利要求1所述的车辆行动评价装置，其中，上述模拟包含在上述多个环境下上述本车辆的行动以及速度与上述其他车辆的行动以及速度的不同组合。3.根据权利要求1或2所述的车辆行动评价装置，其中，上述行驶状况－报酬数据被创建为：关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，计算第一成本和第二成本，上述第一成本在上述本车辆与上述其他车辆接触的情况下，被设定为惩罚，在上述本车辆与上述其他车辆接触的情况下，对于该接触以前的阶段的上述本车辆的行驶状况，到达到接触的时间越短将上述第二成本设定为越大，将报酬计算为上述第一成本和第二成本的合计的倒数。4.根据权利要求3所述的车辆行动评价装置，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第三成本，与包含上述其他车辆的物体的距离越近将上述第三成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第三成本来计算报酬而创建的数据。5.根据权利要求3或4所述的车辆行动评价装置，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第四成本，为了避免上述本车辆与上述其他车辆的接触所需的时间越长，将上述第四成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第四成本来计算报酬而创建的数据。6.根据权利要求3至5中任一项所述的车辆行动评价装置，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第五成本，脱离上述本车辆应行驶的车道的持续时间和/或距离越长，将上述第五成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第五成本来计算报酬而创建的数据。7.根据权利要求3至6中任一项所述的车辆行动评价装置，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第六成本，上述本车辆的加速度越大将上述第六成本设定为越大，
上述行驶状况－报酬数据是也考虑了上述第六成本来计算报酬而创建的数据。8.根据权利要求3至7中任一项所述的车辆行动评价装置，其中，上述第一成本与其他成本相比相对较大地设定。9.一种车辆行动评价方法，是用于评价本车辆的将来的行动的车辆行动评价方法，由至少一个处理器执行，具备如下步骤：设定步骤(s240)，设定在预定跑道行驶时本车辆可以采取的多个行动；以及评价步骤(s280)，使用函数器(50)，对在上述设定步骤中设定的上述本车辆的行动计算考虑了上述本车辆周围的其他车辆的行驶状态的报酬，并基于该计算出的报酬来评价上述本车辆的行动，其中，上述函数器(50)在上述本车辆的周边环境、上述本车辆的状况以及其他车辆的状况的组合不同的多个环境下进行模拟，并基于行驶状况－报酬数据进行了学习，上述行驶状况－报酬数据被创建为在上述本车辆能够避免与上述其他车辆接触的上述本车辆的状况下赋予较高的报酬，在上述本车辆已与上述其他车辆接触的上述本车辆的状况下赋予比上述报酬低的报酬。10.根据权利要求9所述的车辆行动评价方法，其中，上述模拟包含在上述多个环境下上述本车辆的行动以及速度与上述其他车辆的行动以及速度的不同组合。11.根据权利要求9或10所述的车辆行动评价方法，其中，上述行驶状况－报酬数据被创建为：关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，计算第一成本和第二成本，上述第一成本在上述本车辆与上述其他车辆接触的情况下，被设定为惩罚，在上述本车辆与上述其他车辆接触的情况下，对于该接触以前的阶段的上述本车辆的行驶状况，到达到接触的时间越短将上述第二成本设定为越大，将报酬计算为上述第一成本和第二成本的合计的倒数。12.根据权利要求11所述的车辆行动评价方法，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第三成本，与包含上述其他车辆的物体的距离越近将上述第三成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第三成本来计算报酬而创建的数据。13.根据权利要求11或12所述的车辆行动评价方法，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第四成本，为了避免上述本车辆与上述其他车辆的接触所需的时间越长，将上述第四成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第四成本来计算报酬而创建的数据。14.根据权利要求11至13中任一项所述的车辆行动评价方法，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第五成本，脱离上述本车辆应行驶的车道的持续时间和/或距离越长，将上述第五成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第五成本来计算报酬而创建的。15.根据权利要求11至14中任一项所述的车辆行动评价方法，其中，
关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第六成本，上述本车辆的加速度越大将上述第六成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第六成本来计算报酬而创建的数据。16.根据权利要求11至15中任一项所述的车辆行动评价方法，其中，上述第一成本与其他成本相比相对较大地设定。17.一种车辆行动评价程序，上述程序存储于计算机可读取的非过渡存储介质，且包含命令，上述命令被构成为在被至少一个处理器执行的情况下，使至少一个上述处理器进行如下处理：设定在预定跑道行驶时本车辆可以采取的多个行动(s240)；通过使用函数器(50)，对设定的上述本车辆的行动计算考虑了上述本车辆周围的其他车辆的行驶状态的报酬，并基于该计算出的报酬来评价上述本车辆的行动(s280)，来评价上述本车辆的将来的行动，其中，上述函数器(50)在上述本车辆的周边环境、上述本车辆的状况以及其他车辆的状况的组合不同的多个环境下进行模拟，并基于行驶状况－报酬数据进行了学习，上述行驶状况－报酬数据被创建为在上述本车辆能够避免与上述其他车辆接触的上述本车辆的状况下赋予较高的报酬，在上述本车辆已与上述其他车辆接触的上述本车辆的状况下赋予比上述报酬低的报酬。18.根据权利要求17所述的车辆行动评价程序，其中，上述模拟包含在上述多个环境下上述本车辆的行动以及速度与上述其他车辆的行动以及速度的不同组合。19.根据权利要求17或18所述的车辆行动评价程序，其中，上述行驶状况－报酬数据被创建为：关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，计算第一成本和第二成本，上述第一成本在上述本车辆与上述其他车辆接触的情况下，被设定为惩罚，在上述本车辆与上述其他车辆接触的情况下，对于该接触以前的阶段的上述本车辆的行驶状况，到达到接触的时间越短将上述第二成本设定为越大，将报酬计算为上述第一成本和第二成本的合计的倒数。20.根据权利要求19所述的车辆行动评价程序，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的行驶状况，进一步计算第三成本，与包含上述其他车辆的物体的距离越近将上述第三成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第三成本来计算报酬而创建的数据。21.根据权利要求19或20所述的车辆行动评价程序，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第四成本，为了避免上述本车辆与上述其他车辆的接触所需的时间越长，将上述第四成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第四成本来计算报酬而创建的数据。22.根据权利要求19～21中任一项所述的车辆行动评价程序，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本
车辆的行驶状况，进一步计算第五成本，脱离上述本车辆应行驶的车道的持续时间和/或距离越长，将上述第五成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第五成本来计算报酬而创建的数据。23.根据权利要求19～22中任一项所述的车辆行动评价程序，其中，关于将上述本车辆和上述其他车辆的行驶状况细分为多个阶段的各阶段中的上述本车辆的行驶状况，进一步计算第六成本，上述本车辆的加速度越大将上述第六成本设定为越大，上述行驶状况－报酬数据是也考虑了上述第六成本来计算报酬而创建的数据。24.根据权利要求19～23中任一项所述的车辆行动评价程序，其中，上述第一成本与其他成本相比相对较大地设定。

技术总结

本发明提供一种车辆行动评价装置、车辆行动评价方法以及车辆行动评价程序。作为车辆行动评价装置的交互式预测部(40)使用近似函数器(50)，对本车辆可以采取的将来的行动，计算考虑了其他车辆的行驶状态的报酬。基于该计算出的报酬来评价本车辆的行动。近似函数器(50)在本车辆的周边环境、本车辆的状况以及其他车辆的状况的组合不同的多个环境下进行模拟，并基于行驶状况－报酬数据进行了学习，该行驶状况－报酬数据被创建为在本车辆能够避免与其他车辆接触的本车辆的状况下赋予较高的报酬，在本车辆已与其他车辆接触的本车辆的状况下赋予比上述报酬低的报酬。赋予比上述报酬低的报酬。赋予比上述报酬低的报酬。