一种基于安全评论家的绿波车速跟踪控制方法及系统



1.本发明涉及汽车智能驱动领域,尤其是涉及一种基于安全评论家的绿波车速跟踪控制方法及系统。


背景技术:



2.随着人均汽车保有量不断增加,交通网络的负荷日益加大,越来越多的问题开始暴露在传统的道路设计方法中,根据国家统计局数据统计,2021年,全国共发生道路交通事故244937起,造成63194人死亡、258532人受伤,直接财产损失13.8亿元,事故发生数较10年相比略有上升;在能耗方面,发达国家交通运输能耗占终端能耗比重通常在20%~40%之间,在我国占仍不足20%,随着经济发展和生活水平的提高,我国交通用能占全社会能耗比重上升是必然趋势,并将成为能源消费增长的最主要领域。
3.基于绿波的交通规划方法可能为解决这些问题带来帮助。绿波交通是一个整体的交通控制概念,它是一种多点信号控制技术,道路的交叉口由信号灯协调控制,以确保道路安全和通行效率;通常采用交通信号控制对绿波交通理论进行控制和优化,可以为行人和车辆提供更好的出行环境。受到良好的绿波车速引导的车辆更容易在路口遇到绿灯。利用绿波交通理论针对安全、节能减排,本文进行车速引导,更有利于道路安全和节能减排。
4.目前已经有关于干线交通动态速度规划算法的研究,以类似的思路,我们提出一种有助于车辆尽可能不停地通过交叉路口的策略,称之为绿波速度引导策略,这种引导的实现依赖于配套硬件;随着车联网技术发展,交通设施可以实时获得车辆位置和速度信息,处理完这些信息后,可以通过v2i(车辆到基础设施)设备将建议速度传递给车辆,而车载电子设备可以通过车载显示器等人机交互接口为驾驶员提供速度建议,从而实现预期的驾驶风格。由于驾驶员对建议车速做出反应需要一定时间,而且不能持续关注建议车速,因此可以使用强化学习技术,自动对速度跟踪进行优化。
5.强化学习已经在实验室环境中的控制领域显示出强大的潜力,但在现实中部署这些系统时,安全性是限制其性能发挥的一个重要瓶颈。直观方法是手动为学习过程添加约束,以防止智能体采取不安全的动作或进入风险太大的状态;但手动添加约束的弊端是不能简单地推广到新场景或新环境;另外一个重要问题在于,在车辆高速行驶的实况下,力矩分配过程必须快速完成,才能保证驱动的响应性、动力性和安全性等要求,训练和测试的时间安全性是实际应用需要考虑的重要因素;在强化学习回路中,因为智能体需要充分探索环境以优化其行为,所以不可避免地会遇到危险状况,虽然一些训练算法采用复杂的技术来降低这种情况发生的概率,但总是难以避免,如何保证这种情况下训练的安全性也需要着重考虑。


技术实现要素:



6.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于安全评论家的绿波车速跟踪控制方法及系统。
7.本发明的目的可以通过以下技术方案来实现:
8.一种基于安全评论家的绿波车速跟踪控制方法,该方法包括以下步骤:
9.步骤1:交通信息层通过传感器和通信设施建立高精地图,并收集道路信息和车辆信息;
10.步骤2:车辆通过v2i通信设施与道路侧的基础设施进行通信,道路侧根据路段通行状态和路口交通信号控制信息得到指导绿波车速,并通过v2i通信设施将指导绿波车速传递至上层控制层;
11.步骤3:上层控制层通过建立的强化学习框架进行基于安全评论家函数强化学习算法的车速跟踪控制,并将获取的目标加速度传输至下层控制模块;
12.步骤4:下层控制模块根据总需求力矩进行兼顾动力学与节能的综合力矩分配,并将分配后的力矩输出至车辆;
13.步骤5:车辆的每个轮毂发动机按照分配的力矩进行驱动,以实现车辆保持对指导绿波车速的跟踪,进而提高路段通行效率。
14.所述的步骤1中,通信设施包括车辆间、车辆与基础设施以及车辆与外部网络的通信设施,道路信息包括路段通行状态和路口交通信号控制信息。
15.所述的步骤3中,上层控制层通过建立的强化学习框架进行基于安全评论家函数强化学习算法的车速跟踪控制的过程具体为:
16.步骤301:将指导绿波车速、车辆纵向速度、纵向加速度以及车辆运动参数和路况信息输入至智能体,并输出目标加速度,完成一次迭代;
17.步骤302:车辆根据目标加速度更新驱动力矩,从而完成智能体与环境的交互;
18.步骤303:智能体接收新的环境信息和反馈,并基于安全评论家函数强化学习算法进行强化学习,即将强化学习分为两个阶段,分别为预训练阶段和微调阶段,在预训练阶段中,同时训练一个安全评论家和一个策略,使得智能体能够自由探索不安全行为,安全评论家得到判断不安全行为的条件,在微调阶段中,采用新的目标训练任务训练策略,并采用预训练阶段中得到的安全评论家限制策略的更新与动作的选择,即将预训练阶段中得到的策略用于目标训练任务,对于目标训练任务,智能体避免对不安全行为的访问,策略根据训练得到的安全评论家选择安全行为,屏蔽掉不安全行为,若没有安全行为,则选择失败概率最低的行为,以避免局部最优的策略,进而正确地根据外界信息获取目标加速度。
19.所述的步骤303中,安全评论家函数强化学习算法具体为:
20.安全评论家函数强化学习算法将强化学习分为两个阶段,分别为预训练阶段和微调阶段,在预训练阶段中,同时训练一个安全评论家和一个策略,使得智能体能够自由探索不安全行为,安全评论家得到判断不安全行为的条件,在微调阶段中,采用新的目标训练任务训练策略,并采用预训练阶段中得到的安全评论家限制策略的更新与动作的选择,即将预训练阶段中得到的策略用于目标训练任务,对于目标训练任务,智能体避免对不安全行为的访问,策略根据训练得到的安全评论家选择安全行为,屏蔽掉不安全行为,若没有安全行为,则选择失败概率最低的行为;
21.用于预训练阶段的马尔可夫决策过程的定义表达式为:
22.t
pre
=《s,a,p
pre
,r
pre

pre
,i》
23.其中,t
pre
为预训练环境,即预训练阶段,s为状态空间,a为动作空间,p
pre
为预训练
环境中的状态转移概率,r
pre
为预训练环境中的奖励函数,μ
pre
为预训练环境中的初始状态分布,i为安全指示器,用以指示给定状态是否安全;
24.用于微调阶段中目标训练任务的马尔可夫决策过程的定义表达式为:
25.t
target
=《s,a,p
target
,r
target

target
,i》
26.其中,t
taeget
为目标训练任务,p
target
为目标训练任务中的状态转移概率,r
target
为目标训练任务中的奖励函数,μ
target
为目标训练任务中的初始状态分布,i为安全指示器;
27.在安全的预训练环境t
pre
中进行预训练后,智能体必须优化其在目标训练任务t
target
中的预期回报,同时尽量减少对不安全状态的访问,对于目标训练任务,策略必须保证不访问不安全状态s
unsafe
={s|i(s)=1}:
[0028][0029]
其中,i(s)=1代表不安全状态,∈
safe
为目标安全阈值,t为总步数,
[0030]
为总的回报函数期望,i(s
t
)为当前时刻安全状态,目标具体为保证)为当前时刻安全状态,目标具体为保证即进入不安全状态的概率小于安全阈值的前提下,最大化奖励期望,s
t

[0031]
t时刻的状态,a
t
为t时刻的动作,ρ
π
表示对应的状态编译。
[0032]
所述的预训练阶段的过程具体为:
[0033]
步骤a:定义目标安全阈值∈=∈
safe

[0034]
步骤b:在每次迭代中,从当前的动作受安全评论家约束的策略中收集数据,将数据放在缓冲区,采用缓冲区中的混合策略更新安全评论家并用最大熵强化学习算法更新策略;
[0035]
步骤c:迭代结束后,返回预训练策略和安全评论家假设预训练后得到的安全q函数是最优的,能够正确估计失效概率,则安全q函数
[0036]
所述的步骤b中,安全评论家的表达式为:
[0037][0038]
其中,为安全评论家,用以评估策略π从状态s
t
开始采取动作a
t
时到未来的失效概率,i(s
t
)为当前时刻安全状态,p
pre
为状态转移概率,γ
safe
为折扣因子,t

为t时刻的下一时刻,t为总步数,γ
safe
为折扣因子,i(s
t

)为未来的安全状态,表示当前时刻的下一时刻状态由预训练阶段的状态转移概率函数决定,之后时刻的状态由策略和状态转移概率函数决定;
[0039]
当安全评论家为二元分类器时,采用动态规划训练安全评论家,通过折扣因子γ
safe
限制过去的故障信号的传播距离,累积折扣故障概率由贝尔曼方程估计,安全q函数
的表达式为:
[0040][0041]
其中,为安全q函数,s

和a

分别为未来的某个状态和动作,γ
safe
为折扣因子,表示该状态由状态转移概率函数决定,该时刻动作由策略取样决定;
[0042]
将安全q函数采用参数ψ参数化为神经网络,产生的目标为:
[0043][0044]
其中,j
safe
(ψ)为回报期望,表示当前和未来的状态-动作对的轨迹分布由策略π决定,为延时目标网络对应的q函数;
[0045]
基于sac算法通过最大化策略的奖励和熵鼓励智能体进行探索,并在受安全评论家约束的混合策略下优化安全评论家,对于数据中的安全的状态-动作对,从该点开始的后续行为将被限制为安全,从而产生可靠的目标标签,避免安全评论家消极;
[0046]
在预训练阶段中,安全评论家与一个随机的安全约束策略同时训练,使安全约束策略对安全q函数中的动作a取样概率为0,设所有满足条件的策略集合为建立任意策略到满足条件的策略集合的映射为:
[0047][0048]
其中,π为任意的策略,为满足约束条件的距离策略π最近的策略,即安全约束策略;
[0049]
根据安全评论家的定义,受安全q函数约束的策略产生的动作的表达式为:
[0050][0051]
其中,为受安全q函数约束的策略产生的动作,π(a|s)为原策略产生的动作,∈为安全q函数的安全阈值,即目标安全阈值,表示若动作超过目标安全阈值的范围,则拒绝该动作,通过将动作的输出分布从π屏蔽到仅满足安全阈值的采样动作,以确保受约束的策略的安全。
[0052]
所述的微调阶段的过程具体为:
[0053]
安全评论家强化学习算法将策略初始化为受安全约束的预训练策略并微调到一个新的安全关键目标训练任务t
traget
,为此,采用预训练阶段得到的安全评论家生成安全约束的马尔可夫决策过程,在对目标训练任务进行微调时,基于预训练阶段中的数据收集方法采用受安全评论家约束的策略收集所有数据,并根据目标训练任务奖励函数更新策略,为了使未约束策略π

对范围内的动作进行采样,其中,
为满足安全约束损失∈的策略分布,为满足安全约束损失∈的策略,在标准sac策略的目标中添加安全约束成本,同时优化预期回报,改进后的sac策略的目标为:
[0054][0055]
其中,α和v分别为熵和安全约束的拉格朗日乘数,为目标熵,a

为未来的某个动作,表示策略初始化为预训练得到的策略,未来的动作a

由策略π

θ
采样,θ为策略的参数。
[0056]
所述的步骤4中,下层控制模块根据总需求力矩进行兼顾动力学与节能的综合力矩分配的过程具体为:
[0057]
获取目标加速度车辆实时的四轮转速和纵向加速度,结合车辆的运动状态以及电机损耗和轮胎滑移损耗计算得到分配给车辆的每个轮毂发动机的力矩;
[0058]
建立轮胎滑移能量损耗模型:
[0059]
ps=f
svs
[0060]js
=2(p
s,r
+p
s,f
)
[0061]
其中,fs为轮胎接地面滑动区域纵向受力,即纵向滑移力,vs为汽车纵向滑移速度,ps为纵向滑移力功率,js为摩擦损失的能量,p
s,f
为前轮滑移损失功率,p
s,r
为后轮滑移损失功率;
[0062]
建立轮毂电机损耗模型:
[0063][0064]jm
=2(p
loss,r
+p
loss,f
)
[0065]
其中,ηm为电机的效率,pm为电机功率,jm为电机能量损失,p
loss
为轮毂电机损失功率,p
loss,r
表示后轮轮毂电机损失功率,p
loss,f
表示前轮轮毂电机损失功率;
[0066]
总能量消耗的表达式为:
[0067]
j=js+jm[0068]
其中,j为总能量消耗;
[0069]
设置关于兼顾动力学与节能的综合力矩分配的约束条件,并在约束条件下求解每个轮毂电机的驱动力矩。
[0070]
所述的约束条件为:
[0071]
t
req
=2(t
m,r
+t
m,f
)
[0072]
t
m,mim
(nm(t))≤tm≤t
m,max
(nm(t))
[0073]nm,min
≤nm≤n
m,max
[0074]
其中,t
m,r
与t
m,f
分别表示后电机转矩和前电机转矩,t
m,mim
(nm(t))与t
m,max
(nm(t))分别是电机的最小与最大扭矩,n
m,min
与n
m,max
分别是电机的最小与最大转速,t
req
为总电机转矩,nm为电机转速,tm为单个电机的转矩。
[0075]
一种实现所述绿波车速跟踪控制方法的绿波车速跟踪控制系统,该系统包括交通信息层、上层控制层、下层控制层、数据收集层以及缓冲区;
[0076]
所述的交通信息层通过综合采用v2x设备、装备在车辆上的传感器以及道路侧收集的路段通行状态与路口交通信号控制信息综合计算得到指导绿波车速,通过车路协同设施将指导绿波车速传递到车辆,交通信息层获取的其他信息用以为上层控制层提供输入参数;
[0077]
所述的上层控制层接收在交通信息层获取的指导绿波车速、道路行驶状态信息以及车辆动力学参数,采用安全评论家函数强化学习算法进行训练,获取目标加速度;
[0078]
所述的下层控制层接收车辆动力学参数和上层控制层传输的目标加速度,根据总需求力矩进行兼顾动力学与节能的综合力矩分配,下层控制层将分配后的力矩输出至车辆;
[0079]
所述的数据收集层用以收集数据;
[0080]
所述的缓冲区用以存储数据,并在整个训练过程中用以执行更新。
[0081]
与现有技术相比,本发明具有以如下有益效果:
[0082]
1、本发明根据路段通行状态和路口交通信号控制信息得到指导绿波车速,并基于安全评论家函数强化学习算法进行车速跟踪控制,根据总需求力矩进行兼顾动力学与节能的综合力矩分配,并将分配后的力矩输出至车辆,以实现车辆保持对指导绿波车速的跟踪,进而提高路段通行效率;
[0083]
2、本发明采用的安全评论家函数强化学习算法与无约束的sac相比,能够通过在安全行为空间中进行大量探索来缓解这些问题,从而产生更稳定和有效的学习,提升训练的安全性,加速训练过程,降低失败概率。
附图说明
[0084]
图1为本发明的方法流程图。
[0085]
图2为本发明的系统结构示意图。
具体实施方式
[0086]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0087]
本发明考虑马尔可夫决策过程(mdp)上的强化学习问题,该强化学习问题通过元组进行描述:
[0088]
《s,a,γ,r,p,μ》
[0089]
其中,s为状态空间,a为动作空间,γ为折扣因子,为奖励函数,p(
·
|s,a)为状态转移概率,s为状态,a为动作,μ为初始状态分布,强化学习的目的是学习一个策略π
θ
:s
×a→
[0,1],使预期回报j(θ)具有最大值,回报期望j(θ)的表达式为:
[0090][0091]
其中,h(π
θ
(
·
|s
t
))表示策略的动作熵,α>0为调整参数。
[0092]
在动力学控制问题中,容易引发事故的状态难以在学习前完全获知;然而,不安全
的状态是容易判断的,比如车速或转矩超出了安全区间,完全指明这些安全约束难度较大,而且可能存在偏见或严重妨碍强化学习,在潜在奖励函数和安全约束不确定时更是如此,然而发生事故的条件比较容易确定,因此,目的是学习一项任务的最佳策略,同时最大幅度地减少训练期间事故的发生概率。
[0093]
为了实现这个目的,本发明引入了一个安全的预训练环境以及一个安全指示器,其中,预训练环境能够容忍安全事故,安全指示器用以提示给定状态是否安全,在预训练环境和目标训练任务中,将故障状态视为终端,这种配置能够使智能体进行安全学习,并将策略转移到新任务而不会累积额外的失效成本。
[0094]
本发明将强化学习分为两个阶段:
[0095]
第一个阶段为预训练阶段,在预训练阶段中解决更简单/更安全的任务;
[0096]
第二个阶段为微调阶段,将学习到的策略转移到安全性更高的目标训练任务中,并保证安全性。
[0097]
用于预训练的马尔可夫决策过程的定义表达式为:
[0098]
t
pre
=《s,a,p
pre
,r
pre

pre
,i》
[0099]
其中,t
pre
为预训练环境,p
pre
为预训练环境中的状态转移概率,r
pre
为预训练环境中的奖励函数,μ
pre
为预训练环境中的初始状态分布,i为安全指示器;
[0100]
用于目标训练任务的马尔可夫决策过程的定义表达式为:
[0101]
t
target
=《s,a,p
target
,r
target

target
,i》
[0102]
其中,t
taeget
为目标训练任务,p
target
为目标训练任务中的状态转移概率,r
target
为目标训练任务中的奖励函数,μ
target
为目标训练任务中的初始状态分布,i为安全指示器;
[0103]
在安全的预训练环境t
pre
中进行预训练后,智能体必须优化其在目标训练任务t
target
中的预期回报,同时尽量减少对不安全状态的访问,对于目标训练任务,策略必须保证不访问不安全状态s
unsafe
={s|i(s)=1}:
[0104][0105]
其中,∈
safe
为目标安全阈值,t为总步数,为总的回报函数期望,i(s
t
)为当前时刻安全状态;
[0106]
引入目标安全阈值∈
safe
,用以表示给定策略预期风险的上限,当用作策略训练期间采样的动作的单步约束时,在某些假设下用以保证策略π在该阈值下是安全的,不止是在收敛时,在整个训练过程中都需要施加这种安全约束。
[0107]
为解决上述问题,引入安全q函数强化学习算法(sqrl),如上述过程,安全q函数将强化学习分为两个阶段,分别为预训练阶段和微调阶段,在预训练阶段同时学习策略和安全概念,然后采用学习后的安全措施微调目标训练任务的策略;微调阶段训练的安全由学习过程本身保证,安全评论家在给定状态和动作的情况下计算安全约束策略的失败概率,通过安全评论家学习得到的安全约束保证策略安全,安全q函数强化学习算法的过程具体为:
[0108]
1、预训练阶段:
[0109]
预训练阶段的目的是学习得到一个最佳的安全评论家和最优预训练策略将最优预训练策略作为目标训练任务训练的初始化,预训练阶段t
pre
的最佳的安全评论家将评估给定策略π的期望,安全评论家的表达式为:
[0110][0111]
其中,用以评估策略π从状态s
t
开始采取动作a
t
时到未来的失效概率,i(s
t
)为当前时刻失效概率,p
pre
为状态转移概率,γ
safe
为折扣因子;
[0112]
关于安全评论家的训练方法,若安全评论家为一个二元分类器,则采用监督学习评估单个时间步的安全标签,但为了学习未来的累积失效概率,安全评论家必须对未来的时间步长进行推理,因此采用动态规划训练安全评论家:
[0113]
与一般的q函数学习类似,采用折扣因子γ
safe
限制过去的故障信号的传播距离,累积折扣故障概率由贝尔曼方程估计,安全q函数的表达式为:
[0114][0115]
其中,为安全q函数,s

和a

分别为未来的某个状态和动作;
[0116]
将安全q函数用参数ψ参数化为神经网络,产生的目标为:
[0117][0118]
为了在不失败的情况下学习新任务目标,必须首先在预训练阶段探索一系列不同的状态-动作对,包括不安全的状态-动作对,为保证智能体的充分探索,选择soft actor-critic(sac)算法,其通过最大化策略的奖励和熵鼓励智能体进行探索。
[0119]
最后,选择优化安全评论家时采用的策略,若使用来自sac算法的全部经验,可能会导致安全评论家过于消极,因为其中包含来自所有遇到的策略的混合数据;若混合策略从一开始就包含一个随机的、不安全的策略,那么即使是在一个状态下的谨慎行为也可能被认为是不安全的,因为之后会观察到有风险的行为,因此需要同时注意,既要包含一系列不安全条件的多样化数据,又要避免学习消极的安全评论家,为解决这个问题,在受安全评论家约束的混合策略下优化安全评论家,对于数据中的安全的状态-动作对,从该点开始的后续行为将被限制为安全,从而产生可靠的目标标签,避免安全评论家消极;
[0120]
在预训练阶段,安全评论家与一个随机的安全约束策略同时训练,使安全约束策略对安全q函数中的动作a取样概率为0,设所有满足条件的策略集合为令映射将任何策略映射到中离它最近的策略,根据安全评论家的定义,受安全q函数约束的策略产生的动作的表达式为:
[0121]
[0122]
其中,为受安全q函数约束的策略产生的动作,π(a|s)为原策略产生的动作,∈为安全q函数的安全阈值,即目标安全阈值,表示若动作超过目标安全阈值的范围,则拒绝该动作,通过将动作的输出分布从π屏蔽到仅满足安全阈值的采样动作,以确保受约束的策略的安全;
[0123]
预训练阶段的步骤为:
[0124]
步骤a:定义目标安全阈值∈=∈
safe
,超过目标安全阈值的动作会因风险太大被拒绝;
[0125]
步骤b:在每次迭代中,从当前的动作受安全评论家约束的策略中收集数据,将数据放在缓冲区,利用缓冲区中的混合策略更新安全评论家,并用最大熵(maxent)强化学习算法更新策略;
[0126]
步骤c::迭代结束后,返回预训练策略和安全评论家假设预训练后得到的安全q函数是最优的,能够正确估计失效概率,则安全评论家与安全q函数相等。
[0127]
微调阶段:
[0128]
在微调阶段中,安全q函数强化学习算法将策略初始化为受安全约束的预训练的安全约束策略并微调到一个新的安全关键目标训练任务t
traget
,为此,采用预训练的安全评论家生成安全约束的马尔可夫决策过程,在对目标训练任务进行微调时,所有数据均采用受安全评论家约束的策略进行收集,遵循预训练阶段中采用的数据收集方法,并根据目标训练任务的奖励函数更新策略,为了鼓励未约束的策略π

对范围内的动作进行采样,为策略目标添加了安全约束成本,同时优化预期回报,标准sac策略目标的表达式为:
[0129][0130]
其中,α和ν分别为熵和安全约束乘数,为目标熵(sac的超参数);
[0131]
在实际的驱动控制问题上应用安全q函数强化学习算法训练安全评论家和策略时,需要在具体实现中做几个近似,这些近似对性能影响甚微,在现有的异策略算法之上加一个数据收集层作为实现,数据收集层用以收集数据并在一个缓冲区中存储数据,该缓冲区在整个训练过程中用以执行更新,本发明将记录存储在一个离线重放缓冲区d
offline
中,当收集用以训练的样本时,还保留一个小的缓冲区d
safe
,用于存储来在离线训练策略n
off
步后,最新策略产生的k条轨迹,以训练安全评论家,在预训练阶段中,采用拒绝抽样方法(rejection sampling)查故障概率仅低于安全阈值的动作,并使用当前的安全评论家进行评分,这等同于对安全但有风险的动作进行抽样,使智能体探索安全边界,以正确识别给定状态下的安全和不安全动作,也可以采用诸如交叉熵之类的方法,进行故障概率加权的基于重要性的采样,为安全评论家提供接近安全阈值的安全和不安全操作的最多信息,最终安全策略的行为主要由安全超参数∈
safe
和γ
safe
决定,这两个参数基于特定任务和环境进行设定,在预训练阶段中调整安全超参数∈
safe
和γ
safe
以达到最佳预训练性能,因为在解
决目标训练任务时进行调整是不安全的。
[0132]
在微调阶段,安全采样策略转为根据安全评论家选择安全动作,再次采样k个动作,屏蔽不安全动作,再在原始分布输出π(
·
|s)下,以与其对数成比例的概率对剩余选项进行重要性采样;若没有到安全动作,则选择失效概率最低的动作。
[0133]
在动力学控制问题中,难以在学习前完全获知容易引发事故的状态,然而,不安全状态是容易判断的,比如车速或转矩超出了安全区间,但完全获取这些安全约束的难度大,且可能存在偏见或严重妨碍强化学习的情况发生,在潜在奖励函数和安全约束不确定时更严重,然而发生事故的条件比较容易确定,因此,本发明的目的为学习一项任务的最佳策略,同时最大幅度地减少训练期间事故的发生概率,本发明通过从之前的经验中获取安全预防措施,以构建安全强化学习的框架,提出了用于强化学习的安全评论家强化学习算法,该算法在受安全q函数本身约束的策略下得到一个安全评论家,该安全评论家用以评估一个状态/动作对是否会引发不安全行为,预训练阶段和微调阶段分开进行:在预训练阶段中,同时训练安全评论家和策略,智能体能够探索和学习不安全行为;在微调阶段中,在新的目标训练任务上训练策略,同时采用安全评论家的策略更新和选择的行为,与强化学习算法和安全强化学习算法相比,sqrl在学习安全性和新任务学习效率方面表现出更高的效率。
[0134]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

技术特征:


1.一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,该方法包括以下步骤:步骤1:交通信息层通过传感器和通信设施建立高精地图,并收集道路信息和车辆信息;步骤2:车辆通过v2i通信设施与道路侧的基础设施进行通信,道路侧根据路段通行状态和路口交通信号控制信息得到指导绿波车速,并通过v2i通信设施将指导绿波车速传递至上层控制层;步骤3:上层控制层通过建立的强化学习框架进行基于安全评论家函数强化学习算法的车速跟踪控制,并将获取的目标加速度传输至下层控制模块;步骤4:下层控制模块根据总需求力矩进行兼顾动力学与节能的综合力矩分配,并将分配后的力矩输出至车辆;步骤5:车辆的每个轮毂发动机按照分配的力矩进行驱动,以实现车辆保持对指导绿波车速的跟踪,进而提高路段通行效率。2.根据权利要求1所述的一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,所述的步骤1中,通信设施包括车辆间、车辆与基础设施以及车辆与外部网络的通信设施,道路信息包括路段通行状态和路口交通信号控制信息。3.根据权利要求1所述的一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,所述的步骤3中,上层控制层通过建立的强化学习框架进行基于安全评论家函数强化学习算法的车速跟踪控制的过程具体为:步骤301:将指导绿波车速、车辆纵向速度、纵向加速度以及车辆运动参数和路况信息输入至智能体,并输出目标加速度,完成一次迭代;步骤302:车辆根据目标加速度更新驱动力矩,从而完成智能体与环境的交互;步骤303:智能体接收新的环境信息和反馈,并基于安全评论家函数强化学习算法进行强化学习,即将强化学习分为两个阶段,分别为预训练阶段和微调阶段,在预训练阶段中,同时训练一个安全评论家和一个策略,使得智能体能够自由探索不安全行为,安全评论家得到判断不安全行为的条件,在微调阶段中,采用新的目标训练任务训练策略,并采用预训练阶段中得到的安全评论家限制策略的更新与动作的选择,即将预训练阶段中得到的策略用于目标训练任务,对于目标训练任务,智能体避免对不安全行为的访问,策略根据训练得到的安全评论家选择安全行为,屏蔽掉不安全行为,若没有安全行为,则选择失败概率最低的行为,以避免局部最优的策略,进而正确地根据外界信息获取目标加速度。4.根据权利要求3所述的一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,所述的步骤303中,安全评论家函数强化学习算法具体为:安全评论家函数强化学习算法将强化学习分为两个阶段,分别为预训练阶段和微调阶段,在预训练阶段中,同时训练一个安全评论家和一个策略,使得智能体能够自由探索不安全行为,安全评论家得到判断不安全行为的条件,在微调阶段中,采用新的目标训练任务训练策略,并采用预训练阶段中得到的安全评论家限制策略的更新与动作的选择,即将预训练阶段中得到的策略用于目标训练任务,对于目标训练任务,智能体避免对不安全行为的访问,策略根据训练得到的安全评论家选择安全行为,屏蔽掉不安全行为,若没有安全行为,则选择失败概率最低的行为;用于预训练阶段的马尔可夫决策过程的定义表达式为:
t
pre
=<s,a,p
pre
,r
pre
,μ
pre
,i>其中,t
pre
为预训练环境,即预训练阶段,s为状态空间,a为动作空间,p
pre
为预训练环境中的状态转移概率,r
pre
为预训练环境中的奖励函数,μ
pre
为预训练环境中的初始状态分布,i为安全指示器,用以指示给定状态是否安全;用于微调阶段中目标训练任务的马尔可夫决策过程的定义表达式为:t
target
=<s,a,p
target
,r
target
,μ
target
,i>其中,t
taeget
为目标训练任务,p
target
为目标训练任务中的状态转移概率,r
target
为目标训练任务中的奖励函数,μ
target
为目标训练任务中的初始状态分布,i为安全指示器;在安全的预训练环境t
pre
中进行预训练后,智能体必须优化其在目标训练任务t
target
中的预期回报,同时尽量减少对不安全状态的访问,对于目标训练任务,策略必须保证不访问不安全状态s
unsafe
={s|i(s)=1}:其中,i(s)=1代表不安全状态,∈
safe
为目标安全阈值,t为总步数,为总的回报函数期望,i(s
t
)为当前时刻安全状态,目标具体为保证)为当前时刻安全状态,目标具体为保证即进入不安全状态的概率小于安全阈值的前提下,最大化奖励期望,s
t
为t时刻的状态,a
t
为t时刻的动作,ρ
π
表示对应的状态编译。5.根据权利要求4所述的一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,所述的预训练阶段的过程具体为:步骤a:定义目标安全阈值∈=∈
safe
;步骤b:在每次迭代中,从当前的动作受安全评论家约束的策略中收集数据,将数据放在缓冲区,采用缓冲区中的混合策略更新安全评论家并用最大熵强化学习算法更新策略;步骤c:迭代结束后,返回预训练策略和安全评论家假设预训练后得到的安全q函数是最优的,能够正确估计失效概率,则安全q函数6.根据权利要求5所述的一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,所述的步骤b中,安全评论家的表达式为:其中,为安全评论家,用以评估策略π从状态s
t
开始采取动作a
t
时到未来的失效概率,i(s
t
)为当前时刻安全状态,p
pre
为状态转移概率,γ
safe
为折扣因子,t

为t时刻的下一时刻,t为总步数,γ
safe
为折扣因子,i(s
t

)为未来的安全状态,表示当前时刻的下一时刻状态由预训练阶段的状态转移概率函数决定,之后时刻的状态由策略和状态转移概率函数决定;当安全评论家为二元分类器时,采用动态规划训练安全评论家,通过折扣因子γ
safe

制过去的故障信号的传播距离,累积折扣故障概率由贝尔曼方程估计,安全q函数的表达式为:其中,为安全q函数,s

和a

分别为未来的某个状态和动作,γ
safe
为折扣因子,表示该状态由状态转移概率函数决定,该时刻动作由策略取样决定;将安全q函数采用参数ψ参数化为神经网络,产生的目标为:其中,j
safe
(ψ)为回报期望,表示当前和未来的状态-动作对的轨迹分布由策略π决定,为延时目标网络对应的q函数;基于sac算法通过最大化策略的奖励和熵鼓励智能体进行探索,并在受安全评论家约束的混合策略下优化安全评论家,对于数据中的安全的状态-动作对,从该点开始的后续行为将被限制为安全,从而产生可靠的目标标签,避免安全评论家消极;在预训练阶段中,安全评论家与一个随机的安全约束策略同时训练,使安全约束策略对安全q函数中的动作a取样概率为0,设所有满足条件的策略集合为建立任意策略到满足条件的策略集合的映射为:其中,π为任意的策略,为满足约束条件的距离策略π最近的策略,即安全约束策略;根据安全评论家的定义,受安全q函数约束的策略产生的动作的表达式为:其中,为受安全q函数约束的策略产生的动作,π(a|s)为原策略产生的动作,∈为安全q函数的安全阈值,即目标安全阈值,表示若动作超过目标安全阈值的范围,则拒绝该动作,通过将动作的输出分布从π屏蔽到仅满足安全阈值的采样动作,以确保受约束的策略的安全。7.根据权利要求6所述的一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,所述的微调阶段的过程具体为:安全评论家强化学习算法将策略初始化为受安全约束的预训练策略并微调到一个新的安全关键目标训练任务t
traget
,为此,采用预训练阶段得到的安全评论家生成安全约束的马尔可夫决策过程,在对目标训练任务进行微调时,基于预训练阶段中的数据收集方法采用受安全评论家约束的策略收集所有数据,并根据目标训练任务奖励函数更新策略,为了使未约束策略π

对范围内的动作进行采样,其中,为满足安全约束损失∈的策略分布,为满足安全约束损失∈的策略,在标准sac策略的目标
中添加安全约束成本,同时优化预期回报,改进后的sac策略的目标为:其中,α和v分别为熵和安全约束的拉格朗日乘数,为目标熵,a

为未来的某个动作,表示策略初始化为预训练得到的策略,未来的动作a

由策略π

θ
采样,θ为策略的参数。8.根据权利要求7所述的一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,所述的步骤4中,下层控制模块根据总需求力矩进行兼顾动力学与节能的综合力矩分配的过程具体为:获取目标加速度车辆实时的四轮转速和纵向加速度,结合车辆的运动状态以及电机损耗和轮胎滑移损耗计算得到分配给车辆的每个轮毂发动机的力矩;建立轮胎滑移能量损耗模型:p
s
=f
svs
j
s
=2(p
s,r
+p
s,f
)其中,f
s
为轮胎接地面滑动区域纵向受力,即纵向滑移力,v
s
为汽车纵向滑移速度,p
s
为纵向滑移力功率,j
s
为摩擦损失的能量,p
s,f
为前轮滑移损失功率,p
s,r
为后轮滑移损失功率;建立轮毂电机损耗模型:j
m
=2(p
loss,r
+p
loss,f
)其中,η
m
为电机的效率,p
m
为电机功率,j
m
为电机能量损失,p
loss
为轮毂电机损失功率,p
loss,r
表示后轮轮毂电机损失功率,p
loss,f
表示前轮轮毂电机损失功率;总能量消耗的表达式为:j=j
s
+j
m
其中,j为总能量消耗;设置关于兼顾动力学与节能的综合力矩分配的约束条件,并在约束条件下求解每个轮毂电机的驱动力矩。9.根据权利要求8所述的一种基于安全评论家的绿波车速跟踪控制方法,其特征在于,所述的约束条件为:t
req
=2(t
m,r
+t
m,f
)t
m,mim
(n
m
(t))≤t
m
≤t
m,max
(n
m
(t))n
m,min
≤n
m
≤n
m,max
其中,t
m,r
与t
m,f
分别表示后电机转矩和前电机转矩,t
m,mim
(n
m
(t))与t
m,max
(n
m
(t))分别是电机的最小与最大扭矩,n
m,min
与n
m,max
分别是电机的最小与最大转速,t
req
为总电机转矩,n
m
为电机转速,t
m
为单个电机的转矩。10.一种实现如权利要求1~9任一项所述绿波车速跟踪控制方法的绿波车速跟踪控制
系统,其特征在于,该系统包括交通信息层、上层控制层、下层控制层、数据收集层以及缓冲区;所述的交通信息层通过综合采用v2x设备、装备在车辆上的传感器以及道路侧收集的路段通行状态与路口交通信号控制信息综合计算得到指导绿波车速,通过车路协同设施将指导绿波车速传递到车辆,交通信息层获取的其他信息用以为上层控制层提供输入参数;所述的上层控制层接收在交通信息层获取的指导绿波车速、道路行驶状态信息以及车辆动力学参数,采用安全评论家函数强化学习算法进行训练,获取目标加速度;所述的下层控制层接收车辆动力学参数和上层控制层传输的目标加速度,根据总需求力矩进行兼顾动力学与节能的综合力矩分配,下层控制层将分配后的力矩输出至车辆;所述的数据收集层用以收集数据;所述的缓冲区用以存储数据,并在整个训练过程中用以执行更新。

技术总结


本发明涉及一种基于安全评论家的绿波车速跟踪控制方法,该方法包括以下步骤:步骤1:交通信息层通过传感器和通信设施建立高精地图,并收集道路信息和车辆信息;步骤2:车辆通过V2I通信设施与道路侧的基础设施进行通信,道路侧根据路段通行状态和路口交通信号控制信息得到指导绿波车速;步骤3:上层控制层通过建立的强化学习框架进行基于安全评论家函数强化学习算法的车速跟踪控制:步骤4:下层控制模块根据总需求力矩进行兼顾动力学与节能的综合力矩分配,并将分配后的力矩输出至车辆;步骤5:车辆的每个轮毂发动机按照分配的力矩进行驱动。与现有技术相比,本发明具有实现车辆保持对指导绿波车速的跟踪进而提高路段通行效率等优点。行效率等优点。行效率等优点。


技术研发人员:

李正浩 高炳钊 褚洪庆 石文通 陈虹

受保护的技术使用者:

同济大学

技术研发日:

2022.07.18

技术公布日:

2022/10/13

本文发布于:2024-09-23 00:28:55,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/10670.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:评论家   策略   目标   状态
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议