一种适用于高速列车自动停车的深度强化学习方法

1.本发明属于轨道交通车辆运行控制技术领域，具体为一种适用于高速列车自动停车的深度强化学习方法。

背景技术：

2.列车自动驾驶(automatic train operation,ato)是智慧轨道交通的核心组成部分，列车自动停车(automatic train parking,atp)问题是ato领域的热点之一。现有的关于atp问题的人工智能控制方法的普遍难点在于制动挡位切换时控制参数寻优。基于此，有必要发明一种新的列车自动停车控制方法，以更好解决高速列车自动停车问题。

技术实现要素：

3.本发明旨在解决高速列车自动停车过程中制动挡位切换时控制参数寻优难的技术问题，提供了一种适用于高速列车自动停车的深度强化学习方法。
4.本发明解决其技术问题采用的技术手段是：一种适用于高速列车自动停车的深度强化学习方法，包括以下步骤：
5.步骤s1：通过分析高速列车自动停车制动过程中的运动特点构建动力学模型和停车过程中的制动模型，高速列车的制动过程为：高速列车以初速度进入停车区域后，根据状态信息，使列车速度均匀下降，直至到达指定位置时速度恰为零；
6.步骤s2：根据步骤s1中的动力学模型和制动模型，对高速列车停车制动过程进行深度强化学习，其中深度强化学习包括环境和智能体两个相互作用的部分，环境状态为o，智能体将环境状态o划分为o1和o2两个部分，环境状态o在任意t时刻的定义为o＝(o1,o2)；o1由列车的瞬时位置l、瞬时速度v、实时选择制动指令u以及指令的执行时间m组成，o1在任意t时刻的定义为o1＝(l,v,u,m)；o2由参考制动系数b和坡度α组成，o2在任意t时刻的定义为o2＝(b,α)，参考制动系数b由步骤s1中的制动模型得到；
7.步骤s3：利用长短期网络的记忆功能提取列车t时刻的状态序列特征s
(t)
，列车t时刻的状态序列特征s
(t)
由最近的i个观测状态o1构成，s
(t)
的定义为利用全连接网络的泛化能力提取其余的数据特征o2，将长短期网络的输出与全连接网络的输出并联后拼接成一个多输入单输出的神经网络结构；智能体包含知识模块和深度强化学习模块，知识模块用于估计列车当前状态的理想制动指令；深度强化学习模块进一步决策该理想制动指令的持续执行时间；高速列车停车制动过程的深度强化学习包括以下子步骤：
8.步骤s3-1：建立知识模块，知识模块通过以下公式获得：
[0009][0010]ai
＝g(ui,v),i＝0,1,
…
or 7
ꢀꢀ
(2)，
[0011][0012]
ui＝u
id
ꢀꢀ
(4)，
[0013]
其中a
α
(l)是由线路坡度引起的加速度，ai为列车理想加速度；l表示实际位置，l
t
表示制动终点，u
max
表示最大制动指令，g(u
max
,v)是关于u
max
和v的非线性静态函数；vr表示参考速度，由专家经验给出；ui表示制动指令，g(ui,v)是关于u
max
和v的非线性静态函数；ai为列车每个指令对应的估计减速度，ui为列车当前状态的理想执行指令；i表示挡位；
[0014]
步骤s3-2：利用步骤s3-1计算出的列车当前状态的理想执行指令ui训练所述神经网络结构得到最优动作价值的估计，记为q，θ为q的参数，通过式(5)计算损失函数λ，再通过式(6)得到更新参数估值θ
t+1
，然后将更新参数估值θ
t+1
带入式(7)计算得到更新后的q值，选择对应q值最大的当前动作持续时间m
t
作为决策理想指令的持续时间，其中式(5)、(6)、(7)分别如下：
[0015][0016][0017][0018]
其中，o
t
表示t时刻的环境状态，m
t
表示当前动作的持续时间，θ
t
是在t时刻对于参数θ的估计值，γ为奖励折扣因子，为目标真实值，是参数θ的最优值；λ为学习率，表示梯度算子，r
t
表示t时刻的奖励函数，由r
t
可得出r
t+1
的函数，r
t+1
表示t+1时刻的奖励函数，r
t
如式(8)所示，
[0019][0020]
其中，|ei|是停车误差，通过奖励函数可以看出当列车未到达终点时，为了减少制动指令的切换次数，设定较长的执行时间可获得较大的奖励，其中停车误差|ei|的标准设定为0.3米；
[0021]
步骤s4：将步骤s2和步骤s3所述的深度强化学习方法应用到采用实际线路数据建立的仿真环境，计算得到高速列车停车制动的控制方法。
[0022]
本发明的有益效果是：本发明所述深度强化学习方法解决了现有方法停车制动控制参数寻优难的问题，适用于轨道交通车辆运行控制，与现有的列车自动停车方法相比，本发明基于多车多线路模型的强化学习环境，设计了一种结合长短期记忆(lstm)网络与全连接网络(fcn)的多输入单输出神经网络结构，使得深度强化学习方法适用场景更加广泛，实现了深度强化学习方法在制动过程中实时调整最优控制参数；本发明构建出的高速列车自
动停车方法更贴近于现实需求，从而使得应用价值更高。
附图说明
[0023]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0024]
图1为本发明所述的多输入单输出的神经网络结构的结构示意图。
具体实施方式
[0025]
下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0026]
在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
[0027]
一种适用于高速列车自动停车的深度强化学习方法，包括以下步骤：
[0028]
步骤s1：通过分析高速列车自动停车制动过程中的运动特点构建动力学模型和停车过程中的制动模型，高速列车的制动过程为：高速列车以初速度进入停车区域后，根据状态信息，使列车速度均匀下降，直至到达指定位置时速度恰为零；
[0029]
使用单质点模型来描述与分析列车的运动特点，对应的动力学模型表示为：
[0030]
f4＝f1+f2+f3ꢀꢀ
(9)，
[0031]
f5＝d1*v2+d2*v+d3ꢀꢀ
(10)，
[0032]fr
＝f4+f5ꢀꢀ
(11)，
[0033]
(1+γ-)*a＝f+frꢀꢀ
(12)，
[0034]
其中f1、f2、f3分别代表由坡度、弯道和隧道引起的阻力，f4为附加总阻力，f5为基本阻力，d1、d2、d3是基本阻力系数，合计为向量d；v为列车的瞬时速度，γ-为列车回转质量系数，a为列车运行时的总加速度，f为单位质量列车的制动力；
[0035]
所述制动模型表述为：
[0036][0037]
[0038][0039]
其中，是列车制动控制器产生的控制减速度，τ是纯延时时间，g(u,v)是非线性静态函数，t1是制动系统响应的时间常数，u
max
是最大的制动指令，ab(v)是单位质量列车的满制动力模型；式(15)中b1、b2、b3、b4、b5、b6和b7是制动系数，记为b，b即为o2的参考制动系数；v1、v2、v3、v4和v5代表速度v的不同区间分割点；
[0040]
步骤s2：根据步骤s1中的动力学模型和制动模型，对高速列车停车制动过程进行深度强化学习，其中深度强化学习包括环境和智能体两个相互作用的部分，环境状态为o，智能体将环境状态o划分为o1和o2两个部分，环境状态o在任意t时刻的定义为o＝(o1,o2)；o1由列车的瞬时位置l、瞬时速度v、实时选择制动指令u以及指令的执行时间m组成，o1在任意t时刻的定义为o1＝(l,v,u,m)；o2由参考制动系数b和坡度α组成，o2在任意t时刻的定义为o2＝(b,α)，参考制动系数b由步骤s1中的制动模型得到；
[0041]
步骤s3：利用长短期网络的记忆功能提取列车t时刻的状态序列特征s
(t)
，列车t时刻的状态序列特征s
(t)
由最近的i个观测状态o1构成，s
(t)
的定义为利用全连接网络的泛化能力提取其余的数据特征o2，将长短期网络的输出与全连接网络的输出并联后拼接成一个多输入单输出的神经网络结构；智能体包含知识模块和深度强化学习模块，知识模块用于估计列车当前状态的理想制动指令；深度强化学习模块进一步决策该理想制动指令的持续执行时间；高速列车停车制动过程的深度强化学习包括以下子步骤：
[0042]
步骤s3-1：建立知识模块，知识模块通过以下公式获得：
[0043][0044]ai
＝g(ui,v),i＝0,1,
…
or 7
ꢀꢀ
(2)，
[0045][0046]
ui＝u
id
ꢀꢀ
(4)，
[0047]
其中a
α
(l)是由线路坡度引起的加速度，ai为列车理想加速度；l表示实际位置，l
t
表示制动终点，u
max
表示最大制动指令，g(u
max
,v)是关于u
max
和v的非线性静态函数；vr表示参考速度，由专家经验给出；ui表示制动指令，g(ui,v)是关于ui和v的非线性静态函数；ai为列车每个指令对应的估计减速度，ui为列车当前状态的理想执行指令；i表示挡位；
[0048]
步骤s3-2：利用步骤s3-1计算出的列车当前状态的理想执行指令ui训练所述神经网络结构得到最优动作价值的估计，记为q，θ为q的参数，通过式(5)计算损失函数λ，再通过式(6)得到更新参数估值θ
t+1
，然后将更新参数估值θ
t+1
带入式(7)计算得到更新后的q值，选择对应q值最大的当前动作持续时间m
t
作为决策理想指令的持续时间，其中式(5)、(6)、(7)分别如下：
[0049][0050][0051][0052]
其中，o
t
表示t时刻的环境状态，m
t
表示当前动作的持续时间，θ
t
是在t时刻对于参数θ的估计值，γ为奖励折扣因子，为目标真实值，是参数θ的最优值；λ为学习率，表示梯度算子，r
t
表示t时刻的奖励函数，由r
t
可得出r
t+1
的函数，r
t+1
表示t+1时刻的奖励函数，r
t
如式(8)所示，
[0053][0054]
其中，|ei|是停车误差，通过奖励函数可以看出当列车未到达终点时，为了减少制动指令的切换次数，设定较长的执行时间可获得较大的奖励，其中停车误差|ei|的标准设定为0.3米；
[0055]
步骤s4：将步骤s2和步骤s3所述的深度强化学习方法应用到采用实际线路数据建立的仿真环境，计算得到高速列车停车制动的控制方法。
[0056]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征：

1.一种适用于高速列车自动停车的深度强化学习方法，其特征在于，包括以下步骤：步骤s1：通过分析高速列车自动停车制动过程中的运动特点构建动力学模型和停车过程中的制动模型，高速列车的制动过程为：高速列车以初速度进入停车区域后，根据状态信息，使列车速度均匀下降，直至到达指定位置时速度恰为零；步骤s2：根据步骤s1中的动力学模型和制动模型，对高速列车停车制动过程进行深度强化学习，其中深度强化学习包括环境和智能体两个相互作用的部分，环境状态为o，智能体将环境状态o划分为o1和o2两个部分，环境状态o在任意t时刻的定义为o＝(o1,o2)；o1由列车的瞬时位置l、瞬时速度v、实时选择制动指令u以及指令的执行时间m组成，o1在任意t时刻的定义为o1＝(l,v,u,m)；o2由参考制动系数b和坡度α组成，o2在任意t时刻的定义为o2＝(b,α)，参考制动系数b由步骤s1中的制动模型得到；步骤s3：利用长短期网络的记忆功能提取列车t时刻的状态序列特征s
(t)
，列车t时刻的状态序列特征s
(t)
由最近的i个观测状态o1构成，s
(t)
的定义为利用全连接网络的泛化能力提取其余的数据特征o2，将长短期网络的输出与全连接网络的输出并联后拼接成一个多输入单输出的神经网络结构；智能体包含知识模块和深度强化学习模块，知识模块用于估计列车当前状态的理想制动指令；深度强化学习模块进一步决策该理想制动指令的持续执行时间；高速列车停车制动过程的深度强化学习包括以下子步骤：步骤s3-1：建立知识模块，知识模块通过以下公式获得：a
i
＝g(u
i
,v),i＝0,1,
…
or 7
ꢀꢀꢀꢀ
(2)，u
i
＝u
id
ꢀꢀꢀꢀꢀ
(4)，其中a
α
(l)是由线路坡度引起的加速度，a
i
为列车理想加速度；l表示实际位置，l
t
表示制动终点，u
max
表示最大制动指令，g(u
max
,v)是关于u
max
和v的非线性静态函数；v
r
表示参考速度；u
i
表示制动指令，g(u
i
,v)是关于u
max
和v的非线性静态函数；a
i
为列车每个指令对应的估计减速度，u
i
为列车当前状态的理想执行指令；i表示挡位；步骤s3-2：利用步骤s3-1计算出的列车当前状态的理想执行指令u
i
训练所述神经网络结构得到最优动作价值的估计，记为q，θ为q的参数，通过式(5)计算损失函数λ，再通过式(6)得到更新参数估值θ
t+1
，然后将更新参数估值θ
t+1
带入式(7)计算得到更新后的q值，选择对应q值最大的当前动作持续时间m
t
作为决策理想指令的持续时间，其中式(5)、(6)、(7)分别如下：别如下：
其中，o
t
表示t时刻的环境状态，m
t
表示当前动作的持续时间，θ
t
是在t时刻对于参数θ的估计值，γ为奖励折扣因子，为目标真实值，是参数θ的最优值；λ为学习率，表示梯度算子，r
t
表示t时刻的奖励函数，由r
t
可得出r
t+1
，r
t+1
表示t+1时刻的奖励函数r
t
如式(8)所示，其中，|e
i
|是停车误差；步骤s4：将步骤s2和步骤s3所述的深度强化学习方法应用到采用实际线路数据建立的仿真环境，计算得到高速列车停车制动的控制方法。2.根据权利要求1所述的一种适用于高速列车自动停车的深度强化学习方法，其特征在于，步骤s1中，使用单质点模型来描述与分析列车的运动特点，对应的动力学模型表示为：f4＝f1+f2+f3ꢀꢀꢀ
(9)，f5＝d1*v2+d2*v+d3ꢀꢀꢀ
(10)，f
r
＝f4+f5ꢀꢀꢀ
(11)，(1+γ-)*a＝f+f
r
ꢀꢀꢀ
(12)，其中，f1、f2、f3分别代表由坡度、弯道和隧道引起的阻力，f4为附加总阻力，f5为基本阻力，d1、d2、d3是基本阻力系数，合计为向量d；v为列车的瞬时速度，γ-为列车回转质量系数，a为列车运行时的总加速度，f为单位质量列车的制动力。3.根据权利要求1所述的一种适用于高速列车自动停车的深度强化学习方法，其特征在于，步骤s1中，制动模型表述为：为：为：其中，是列车制动控制器产生的控制减速度，τ是纯延时时间，g(u,v)是非线性静态函
数，t1是制动系统响应的时间常数，u
max
是最大的制动指令，a
b
(v)是单位质量列车的满制动力模型；式(15)中b1、b2、b3、b4、b5、b6和b7是制动系数，记为b，b即为o2的参考制动系数；v1、v2、v3、v4和v5代表速度v的不同区间分割点。

技术总结

本发明属于轨道交通车辆运行控制技术领域，具体为一种适用于高速列车自动停车的深度强化学习方法，解决了背景技术中的技术问题，其包括通过分析高速列车自动停车制动过程中的运动特点，构建动力学模型和制动模型；构建一种结合长短期记忆网络与全连接网络的多输入单输出神经网络结构对高速列车停车制动过程进行深度强化学习；将深度强化学习方法应用到采用实际线路数据建立的仿真环境，计算得到高速列车停车制动的控制方法。本发明适用于轨道交通高速列车自动停车控制过程。本发明解决了现有方法停车制动控制参数寻优难的问题，基于多车多线路模型的强化学习环境使适用场景更加广泛，实现了深度强化学习方法在制动过程中实时调整最优控制参数。中实时调整最优控制参数。中实时调整最优控制参数。