一种基于深度强化学习的混动汽车热管理策略生成方法

1.本发明涉及一种基于深度强化学习的混动汽车热管理策略生成方法，具体适用于提高汽车热管理策略的适配性。

背景技术：

2.近几年，随着汽车在全球范围内的普及，车辆热管理问题日益受到各大汽车厂家的重视并作为新兴领域有着大好的前景待人开发。为了保证汽车的动力部件能在合理的温度范围内工作，对车辆各系统的温度需求进行合理调控已成为汽车热管理技术领域的一项重要研究发展方向。传统汽车热管理研究主要针对发动机的冷却系统，而电动汽车主要集中在动力电池温度场的技术研究上。
3.目前大多数都是基于规则的热管理策略和基于模糊控制算法的热管理策略，尽管这些方法对于特定车型直观且有效，但需根据工程经验进行标定，且不同车型需要重新设定，会耗费许多的人力资源与时间成本。此外，标定的结果也存在主观性较强、精确性较差现象。

技术实现要素：

4.本发明的目的是克服现有技术中存在的热管理策略制定周期长、成本高、精确性差的问题，提供了一种通过建模方式生成热管理策略、提高策略精准性的基于深度强化学习的混动汽车热管理策略生成方法。
5.为实现以上目的，本发明的技术解决方案是：
6.一种基于深度强化学习的混动汽车热管理策略生成方法,包括以下步骤：
7.s1：获取混动汽车的车辆信息和状态信息：
8.获取混动汽车的车辆信息：采集待生成策略车型的车辆信息数据,
9.所述车辆信息数据包括：车辆的重量m、车辆迎风面积a和电池标称容量q
bat
、发动机发热量map、是电机效率map；
10.获取混动汽车的状态信息：采集待生成策略车型的相关实车测试的车辆状态数据、电池状态数据和环境状态数据；
11.所述车辆状态信息包括：车速u、发动机转速n
en
、发动机输出扭矩t
en
、空调压缩机转速n
ac
、风扇转速n
fan
以及电磁阀的开闭状态k(k＝0,1)；
12.所述电池状态信息包括：电池电流i
bat
、电压v、内阻r
int
以及电池温度t
bat
；
13.所述环境状态信息包括：环境温度te；
14.s2：搭建混合动力汽车仿真模型：建立整车能量模型；在simulink中建立整车动力模型，在gt-suite中搭建热管理系统模型，将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型；
15.s3：利用深度强化学习算法构建混动汽车热管理策略，求解包含燃油经济性，电池效率及电池散热量等多目标优化问题，从而得到最优热管理策略；
16.首先，定义奖励函数，对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
，在下个时间步获得环境新的状态s
t+1
以及奖励信息r
t+1
，通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大；随着训练进行，即损失达到收敛，所输出的状态-动作集合即为最优控制策略；此时，混动汽车热管理策略生成完成。
17.s2：搭建混合动力汽车仿真模型中:
18.s2.1在simulink中建立整车动力系统模型，车辆的驱动功率为：
19.p
dem
＝(p
en
+p
bat
ηm)η
t
20.其中，p
dem
为驱动功率、p
en
为发动机输出功率、p
bat
为电池功率、ηm为电动机效率、η
t
为变速器和车轴的效率；
[0021][0022]
其中，p
en
为发动机输出功率、m为车辆的重量、f为滚动阻力系数、cd为空气阻力系数、a为迎风面积、为坡度、δ为旋转质量换算系数、u为车速、η
t
为变速器和车轴的效率；
[0023]
建立发动机模型：
[0024][0025]
其中，t
en
为发动机输出扭矩、n
en
为发动机转速、p
en
为发动机输出功率，p
en
和燃油消耗率呈正比例关系，则燃油消耗率与发动机输出扭矩t
en
、发动机转速n
en
为函数关系，即：
[0026][0027]
建立动力电池模型：
[0028][0029]
其中，i
bat
为电池电流、v
oc
为电池开路电压、r
int
为电池内阻、p
bat
为电池功率；
[0030][0031]
其中，为电池的荷电状态对时间的导数、q
bat
为电池标称容量；
[0032][0033]
其中，t
bat
为电池温度、δt
bat
为电池温度变化量，δt
bat
是和t
bat
两者的函数
[0034]
s2.2：在gt-suite中搭建热管理系统模型，
[0035]
热管理模型的建立：在gt-suite中根据实车参数调整热管理模型中的参数，对整车上的发热部件、散热器分别进行建模与标定，再根据实际热管理系统构型搭建系统模型；
[0036]
s2.3：将整车动力系统模型与热管理系统模型在simulink中进行耦合到整车能量模型：
[0037]
在整车动力系统模型中根据已知的车辆状态数据，可以分别得出发动机产热量、电机产热量、电池产热量，然后将其输入到热管理系统模型中，热管理系统模型经过模拟后
将发动机温度、电机温度、电池温度及各个耗能部件消耗功率信息反馈给整车动力系统模型，整车动力系统模型根据反馈的温度信息更新相关的车辆状态数据；
[0038]
所述整车动力系统模型输出发动机转速n
en
、扭矩t
en
，根据发动机产热map查表得到的发动机产热量；
[0039]
所述整车动力系统模型输出电机输出功率、转速、扭矩，根据电机效率map得到对应状态的电机效率值，进而计算出电机产热量；
[0040]
所述整车动力系统模型输出电池输出功率、电流i
bat
及内阻r
int
，根据公式计算得到电池产热量。
[0041]
所述s3：利用深度强化学习算法构建混动汽车热管理策略中，将热管理策略中，奖励函数r定义为：
[0042][0043]
其中，分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池soc维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、δt
bat
为电池温度变化量、δt0为设定的温差限值为确定常数；
[0044]
所述权重因子是根据不同的策略目标设定不同数值。
[0045]
所述s3中：根据不同的使用环境和控制需求调整奖励函数r的定义：
[0046][0047]
其中，分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池soc维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、δt
bat
为电池温度变化量、δt0为设定的温差限值为确定常数；
[0048]
所述权重因子是根据不同的策略目标设定不同数值；
[0049]
公式中的省略号表示其它考量的能耗部件因素，将考量参数的实际值与目标值之间相减后求平方然后乘以设定的奖励信号权重因子；考量的能耗部件参数包括：压缩机功率p
comp
、水泵功率p
pump
、电机入口温度t
em_in
、发动机出水口温度t
eng_out
、乘员舱温度t
cabin
。
[0050]
对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
，在下个时间步获得环境新的状态s
t+1
以及奖励信息r
t+1
，通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大；
[0051]
根据ε-greedy算法选择动作，ε-greedy算法中随机选择概率为ε(0《ε《1)，在每一个状态st下，根据之前训练回合的选择经验，有1-ε
t
的概率选择能获得最大奖励的动作at，有ε
t
的概率随机选择动作，为的是促进探索,ε的初始值很大，但是每个训练回合结束后，ε以衰减率衰减，根据公式对ε进行更新，使ε逐渐减小，随着训练进行，逐渐减少随机探索，最后使选择趋近于选择最优动作；
[0052]
当前状态s
t
＝{te,t
en
,n
en
,p
bat
,t
bat
}，其中s
t
表示包含所有状态的状态集，te为环境温度，t
en
为发动机转矩，n
en
为发动机转速，p
bat
为电池功率，t
bat
为电池温度；
[0053]
以当前状态根据ε-greedy算法选择动作，动作集a＝{n
ac
,n
fan
,k1,k2…kn
}，其中n
ac
为空调压缩机转速，n
fan
为风扇转速，k1,k2…kn
为各个电磁阀的开闭状态(km＝0,1(m＝1,2
…
n))；
[0054]
采用deep q-network(dqn)算法，算法目标是最大化智能体从环境中获得的累计奖励的期望，利用贝尔曼方程可以计算：
[0055]
q(s
t
,a
t
)＝e[r
t+1
+λmaxq(s
t+1
,a)|s
t
,a
t
]
[0056]
其中，q(s
t
,a
t
)表示当前状态-动作对的值函数；e为求期望；λ为对未来值函数的折扣因子，q学习的更新规则，对q(s
t
,a
t
)进行赋值：
[0057]
q(s
t
,a
t
)
←
q(s
t
,a
t
)+η[maxq(s
t+1
,a)-q(s
t
,a
t
)]
[0058]
其中，η为学习率、q(s
t
,a
t
)为当前状态-动作对的值函数；
[0059]
随着算法的不断迭代，值函数会逐渐收敛至最优值，最优控制策略π
*
即是最大化q值函数的动作序列：
[0060][0061]
利用参数为θ的深度q网络来拟合值函数，避免状态的离散化：
[0062]
q(s
t
,a
t
；θ)≈q(s
t
,a
t
)
[0063]
为了提高算法性能，采用目标值网络的方法，分别设计两个结构一样的网络：评价网络和目标网络；其中，评价网络用于选择动作，更新参数，每隔一段时间，复制参数到目标网络，实现延时更新；这种方法降低了当前q值和目标q值的相关性，提高了算法的稳定性；算法目标是最小化损失函数l(θ)：
[0064]
l(θ)＝e{[r+λmaxq(s
t+1
,a；θ-)-q(s
t
,a
t
；θ)]2+
[0065]
利用梯度下降算法，不断更新网络参数θ，直到学习收敛。为了平衡学习过程中“探索”和“利用”的关系，采用ε-greedy算法时，策略中有较小的概率ε随机选择动作，较大的概率1-ε选择最大化q值的动作；学习初始阶段ε较大，具有增强网络探索能力，而随着训练的进行，ε逐步衰减，以加快学习速度；
[0066]
随着训练进行，即损失函数达到收敛，所输出的状态-动作集合即为最优控制策略；
[0067]
此时，混动汽车热管理策略生成完成。
[0068]
与现有技术相比，本发明的有益效果为：
[0069]
1、本发明一种基于深度强化学习的混动汽车热管理策略生成方法中，首先采集车辆的相关的实验数据和信息数据，然后利用上述数据，对车辆进行建模模仿整车的动力系统和热管理系统模型(即：产热系统)，然后将动力系统模型与热管理系统模型进行耦合，得到整车的能量模型；整车的能量模型能够根据车辆状态计算产热部件的产热，然后根据产热计算车上各发热和散热部件的温度，作为下一轮计算的基础参数。构建的模型能够模拟车上的产热、散热过程，进而模拟出温度的变化，为汽车热管理策略生成的仿真提供了基础。因此，本设计构建整车的能量模型，实现车辆的温度变化过程的模拟。
[0070]
2、本发明一种基于深度强化学习的混动汽车热管理策略生成方法中利用奖励函数的方式，根据不同的需求设计不同的奖励函数，从而生成不同的需求热管理策略，以适应客观环境变化的需求；同时采用深度强化学习的的方式来进行管理策略的生成，在仿真过程中尽可能多的尝试不同的动作进行试错，相对与传统的基于经验的标定方式，对车辆系
统提供了更多的选择和运算依据，使策略目标更加明确，实现了热管理策略的实时性与最优性。因此，本设计为汽车热管理策略的生成提供了更加量化更加明确的方法，实现了热管理策略的实时性与最优性。
[0071]
3、本发明一种基于深度强化学习的混动汽车热管理策略生成方法能够针对不同车型实现自适应，解决了传统热管理策略对不同车型的不能适用的问题；本方法仅需要对新的车型进行建模，然后建立不同的奖励函数分别进行深度强化学习，即可得到基于不同目标的汽车热管理策略。因此，本设计适应性强、能够适应不同车型的策略生成需求。
[0072]
4、本发明一种基于深度强化学习的混动汽车热管理策略生成方法中的考虑燃油经济性的同时，使得动力电池的效率尽可能高，并且将电池温度维持在最佳温度值附近。因此，本发明奖励函数目标设计合理，符合车辆的性能需求。
附图说明
[0073]
图1是本发明的策略生成流程图。
[0074]
图2是本发明中所利用深度强化学习算法的逻辑图。
[0075]
图3是实施例4在simulink中进行耦合得到整车能量模型的示意图。
[0076]
图4是实施例4在训练过程中奖励值的点线图。
[0077]
图5是实施例4每个训练周期中损失的平均值。
[0078]
图6是实施例4在训练工况和验证工况下的油耗及电池soc变化的对比曲线图。
[0079]
图7是实施例4在训练工况和验证工况下的乘员舱、发动机出水口及电池的温度变化曲线对比图。
具体实施方式
[0080]
以下结合附图说明和具体实施方式对本发明作进一步详细的说明。
[0081]
参见图1至图2，一种基于深度强化学习的混动汽车热管理策略生成方法,所述策略生成方法包括以下步骤：
[0082]
s1：获取混动汽车的车辆信息和状态信息：
[0083]
获取混动汽车的车辆信息：采集待生成策略车型的车辆信息数据,
[0084]
所述车辆信息数据包括：车辆的重量m、车辆迎风面积a和电池标称容量q
bat
、发动机发热量map、是电机效率map；
[0085]
获取混动汽车的状态信息：采集待生成策略车型的相关实车测试的车辆状态数据、电池状态数据和环境状态数据；
[0086]
所述车辆状态信息包括：车速u、发动机转速n
en
、发动机输出扭矩t
en
、空调压缩机转速n
ac
、风扇转速n
fan
以及电磁阀的开闭状态k(k＝0,1)；
[0087]
所述电池状态信息包括：电池电流i
bat
、电压v、内阻r
int
以及电池温度t
bat
；
[0088]
所述环境状态信息包括：环境温度te；
[0089]
s2：搭建混合动力汽车仿真模型：建立整车能量模型；在simulink中建立整车动力模型，在gt-suite中搭建热管理系统模型，将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型；
[0090]
s3：利用深度强化学习算法构建混动汽车热管理策略，求解包含燃油经济性，电池
效率及电池散热量等多目标优化问题，从而得到最优热管理策略；
[0091]
首先，定义奖励函数，对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
，在下个时间步获得环境新的状态s
t+1
以及奖励信息r
t+1
，通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大；随着训练进行，即损失达到收敛，所输出的状态-动作集合即为最优控制策略；此时，混动汽车热管理策略生成完成。
[0092]
s2：搭建混合动力汽车仿真模型中:
[0093]
s2.1在simulink中建立整车动力系统模型，车辆的驱动功率为：
[0094]
p
dem
＝(p
en
+p
bat
ηm)η
t
[0095]
其中，p
dem
为驱动功率、p
en
为发动机输出功率、p
bat
为电池功率、ηm为电动机效率、η
t
为变速器和车轴的效率；
[0096][0097]
其中，p
en
为发动机输出功率、m为车辆的重量、f为滚动阻力系数、cd为空气阻力系数、a为迎风面积、为坡度、δ为旋转质量换算系数、u为车速、η
t
为变速器和车轴的效率；
[0098]
建立发动机模型：
[0099][0100]
其中，t
en
为发动机输出扭矩、n
en
为发动机转速、p
en
为发动机输出功率，p
en
和燃油消耗率呈正比例关系，则燃油消耗率与发动机输出扭矩t
en
、发动机转速n
en
为函数关系，即：
[0101][0102]
建立动力电池模型：
[0103][0104]
其中，i
bat
为电池电流、v
oc
为电池开路电压、r
int
为电池内阻、p
bat
为电池功率；
[0105][0106]
其中，为电池的荷电状态对时间的导数、q
bat
为电池标称容量；
[0107][0108]
其中，t
bat
为电池温度、δt
bat
为电池温度变化量，δt
bat
是和t
bat
两者的函数
[0109]
s2.2：在gt-suite中搭建热管理系统模型，
[0110]
热管理模型的建立：在gt-suite中根据实车参数调整热管理模型中的参数，对整车上的发热部件、散热器分别进行建模与标定，再根据实际热管理系统构型搭建系统模型；
[0111]
s2.3：将整车动力系统模型与热管理系统模型在simulink中进行耦合到整车能量模型：
[0112]
在整车动力系统模型中根据已知的车辆状态数据，可以分别得出发动机产热量、
电机产热量、电池产热量，然后将其输入到热管理系统模型中，热管理系统模型经过模拟后将发动机温度、电机温度、电池温度及各个耗能部件消耗功率信息反馈给整车动力系统模型，整车动力系统模型根据反馈的温度信息更新相关的车辆状态数据；
[0113]
所述整车动力系统模型输出发动机转速n
en
、扭矩t
en
，根据发动机产热map查表得到的发动机产热量；
[0114]
所述整车动力系统模型输出电机输出功率、转速、扭矩，根据电机效率map得到对应状态的电机效率值，进而计算出电机产热量；
[0115]
所述整车动力系统模型输出电池输出功率、电流i
bat
及内阻r
int
，根据公式计算得到电池产热量。
[0116]
所述s3：利用深度强化学习算法构建混动汽车热管理策略中，将热管理策略中，奖励函数r定义为：
[0117][0118]
其中，分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池soc维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、δt
bat
为电池温度变化量、δt0为设定的温差限值为确定常数；
[0119]
所述权重因子是根据不同的策略目标设定不同数值。
[0120]
所述s3中：根据不同的使用环境和控制需求调整奖励函数r的定义：
[0121][0122]
其中，分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池soc维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、δt
bat
为电池温度变化量、δt0为设定的温差限值为确定常数；
[0123]
所述权重因子是根据不同的策略目标设定不同数值；
[0124]
公式中的省略号表示其它考量的能耗部件因素，将考量参数的实际值与目标值之间相减后求平方然后乘以设定的奖励信号权重因子；考量的能耗部件参数包括：压缩机功率p
comp
、水泵功率p
pump
、电机入口温度t
em_in
、发动机出水口温度t
eng_out
、乘员舱温度t
cabin
。
[0125]
对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
，在下个时间步获得环境新的状态s
t+1
以及奖励信息r
t+1
，通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大；
[0126]
根据ε-greedy算法选择动作，ε-greedy算法中随机选择概率为ε(0《ε《1)，在每一个状态st下，根据之前训练回合的选择经验，有1-ε
t
的概率选择能获得最大奖励的动作at，有ε
t
的概率随机选择动作，为的是促进探索,ε的初始值很大，但是每个训练回合结束后，ε以衰减率衰减，根据公式对ε进行更新，使ε逐渐减小，随着训练进行，逐渐减少随机探索，最后使选择趋近于选择最优动作；
[0127]
当前状态s
t
＝{te,t
en
,n
en
,p
bat
,t
bat
}，其中s
t
表示包含所有状态的状态集，te为环境温度，t
en
为发动机转矩，n
en
为发动机转速，p
bat
为电池功率，t
bat
为电池温度；
[0128]
以当前状态根据ε-greedy算法选择动作，动作集a＝{n
ac
,n
fan
,k1,k2…kn
}，其中n
ac
为空调压缩机转速，n
fan
为风扇转速，k1,k2…kn
为各个电磁阀的开闭状态(km＝0,1(m＝1,2
…
n))；
[0129]
采用deep q-network(dqn)算法，算法目标是最大化智能体从环境中获得的累计奖励的期望，利用贝尔曼方程可以计算：
[0130]
q(s
t
,a
t
)＝e[r
t+1
+λmaxq(s
t+1
,a)|s
t
,a
t
]
[0131]
其中，q(s
t
,a
t
)表示当前状态-动作对的值函数；e为求期望；λ为对未来值函数的折扣因子，q学习的更新规则，对q(s
t
,a
t
)进行赋值：
[0132]
q(s
t
,a
t
)
←
q(s
t
,a
t
)+η[maxq(s
t+1
,a)-q(s
t
,a
t
)]
[0133]
其中，η为学习率、q(s
t
,a
t
)为当前状态-动作对的值函数；
[0134]
随着算法的不断迭代，值函数会逐渐收敛至最优值，最优控制策略π
*
即是最大化q值函数的动作序列：
[0135][0136]
利用参数为θ的深度q网络来拟合值函数，避免状态的离散化：
[0137]
q(s
t
,a
t
；θ)≈q(s
t
,a
t
)
[0138]
为了提高算法性能，采用目标值网络的方法，分别设计两个结构一样的网络：评价网络和目标网络；其中，评价网络用于选择动作，更新参数，每隔一段时间，复制参数到目标网络，实现延时更新；这种方法降低了当前q值和目标q值的相关性，提高了算法的稳定性；算法目标是最小化损失函数l(θ)：
[0139]
l(θ)＝e{[r+λmaxq(s
t+1
,a；θ-)-q(s
t
,a
t
；θ)]2}
[0140]
利用梯度下降算法，不断更新网络参数θ，直到学习收敛；为了平衡学习过程中“探索”和“利用”的关系，采用ε-greedy算法时，策略中有较小的概率ε随机选择动作，较大的概率1-ε选择最大化q值的动作；学习初始阶段ε较大，具有增强网络探索能力，而随着训练的进行，ε逐步衰减，以加快学习速度；
[0141]
随着训练进行，即损失函数达到收敛，所输出的状态-动作集合即为最优控制策略；
[0142]
此时，混动汽车热管理策略生成完成。
[0143]
本发明的原理说明如下：
[0144]
对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
；本轮仿真完成后，下个时间步时在整车能量模型中获得环境新的状态s
t+1
以及奖励信息r
t+1
，往复循环；通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大，损失函数达到收敛；
[0145]
实施例1：
[0146]
一种基于深度强化学习的混动汽车热管理策略生成方法,所述策略生成方法包括以下步骤：
[0147]
s1：获取混动汽车的车辆信息和状态信息：
[0148]
获取混动汽车的车辆信息：采集待生成策略车型的车辆信息数据,
[0149]
所述车辆信息数据包括：车辆的重量m、车辆迎风面积a和电池标称容量q
bat
、发动机发热量map、是电机效率map；
[0150]
获取混动汽车的状态信息：采集待生成策略车型的相关实车测试的车辆状态数据、电池状态数据和环境状态数据；
[0151]
所述车辆状态信息包括：车速u、发动机转速n
en
、发动机输出扭矩t
en
、空调压缩机转速n
ac
、风扇转速n
fan
以及电磁阀的开闭状态k(k＝0,1)；
[0152]
所述电池状态信息包括：电池电流i
bat
、电压v、内阻r
int
以及电池温度t
bat
；
[0153]
所述环境状态信息包括：环境温度te；
[0154]
s2：搭建混合动力汽车仿真模型：建立整车能量模型；在simulink中建立整车动力模型，在gt-suite中搭建热管理系统模型，将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型；
[0155]
s3：利用深度强化学习算法构建混动汽车热管理策略，求解包含燃油经济性，电池效率及电池散热量等多目标优化问题，从而得到最优热管理策略；
[0156]
首先，定义奖励函数，对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
，在下个时间步获得环境新的状态s
t+1
以及奖励信息r
t+1
，通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大；随着训练进行，即损失达到收敛，所输出的状态-动作集合即为最优控制策略；此时，混动汽车热管理策略生成完成。
[0157]
实施例2：
[0158]
实施例2与实施例1基本相同，其不同之处在于：
[0159]
s2：搭建混合动力汽车仿真模型中:
[0160]
s2.1在simulink中建立整车动力系统模型，车辆的驱动功率为：
[0161]
p
dem
＝(p
en
+p
bat
ηm)η
t
[0162]
其中，p
dem
为驱动功率、p
en
为发动机输出功率、p
bat
为电池功率、ηm为电动机效率、η
t
为变速器和车轴的效率；
[0163][0164]
其中，p
en
为发动机输出功率、m为车辆的重量、f为滚动阻力系数、cd为空气阻力系数、a为迎风面积、为坡度、δ为旋转质量换算系数、u为车速、η
t
为变速器和车轴的效率；
[0165]
建立发动机模型：
[0166][0167]
其中，t
en
为发动机输出扭矩、n
en
为发动机转速、p
en
为发动机输出功率，p
en
和燃油消耗率呈正比例关系，则燃油消耗率与发动机输出扭矩t
en
、发动机转速n
en
为函数关系，即：
[0168][0169]
建立动力电池模型：
[0170][0171]
其中，i
bat
为电池电流、v
oc
为电池开路电压、r
int
为电池内阻、p
bat
为电池功率；
[0172][0173]
其中，为电池的荷电状态对时间的导数、q
bat
为电池标称容量；
[0174][0175]
其中，t
bat
为电池温度、δt
bat
为电池温度变化量，δt
bat
是和t
bat
两者的函数
[0176]
s2.2：在gt-suite中搭建热管理系统模型，
[0177]
热管理模型的建立：在gt-suite中根据实车参数调整热管理模型中的参数，对整车上的发热部件、散热器分别进行建模与标定，再根据实际热管理系统构型搭建系统模型；
[0178]
s2.3：将整车动力系统模型与热管理系统模型在simulink中进行耦合到整车能量模型：
[0179]
在整车动力系统模型中根据已知的车辆状态数据，可以分别得出发动机产热量、电机产热量、电池产热量，然后将其输入到热管理系统模型中，热管理系统模型经过模拟后将发动机温度、电机温度、电池温度及各个耗能部件消耗功率信息反馈给整车动力系统模型，整车动力系统模型根据反馈的温度信息更新相关的车辆状态数据；
[0180]
所述整车动力系统模型输出发动机转速n
en
、扭矩t
en
，根据发动机产热map查表得到的发动机产热量；
[0181]
所述整车动力系统模型输出电机输出功率、转速、扭矩，根据电机效率map得到对应状态的电机效率值，进而计算出电机产热量；
[0182]
所述整车动力系统模型输出电池输出功率、电流i
bat
及内阻r
int
，根据公式计算得到电池产热量。
[0183]
所述s3：利用深度强化学习算法构建混动汽车热管理策略中，将热管理策略中，奖励函数r定义为：
[0184][0185]
其中，分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池soc维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、δt
bat
为电池温度变化量、δt0为设定的温差限值为确定常数；
[0186]
所述权重因子是根据不同的策略目标设定不同数值。
[0187]
对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
，在下个时间步获得环境新的状态s
t+1
以及奖励信息r
t+1
，通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大；
[0188]
根据ε-greedy算法选择动作，ε-greedy算法中随机选择概率为ε(0《ε《1)，在每一个状态st下，根据之前训练回合的选择经验，有1-ε
t
的概率选择能获得最大奖励的动作at，
有ε
t
的概率随机选择动作，为的是促进探索,ε的初始值很大，但是每个训练回合结束后，ε以衰减率衰减，根据公式对ε进行更新，使ε逐渐减小，随着训练进行，逐渐减少随机探索，最后使选择趋近于选择最优动作；
[0189]
当前状态s
t
＝{te,t
en
,n
en
,p
bat
,t
bat
}，其中s
t
表示包含所有状态的状态集，te为环境温度，t
en
为发动机转矩，n
en
为发动机转速，p
bat
为电池功率，t
bat
为电池温度；
[0190]
以当前状态根据ε-greedy算法选择动作，动作集a＝{n
ac
,n
fan
,k1,k2…kn
+，其中n
ac
为空调压缩机转速，n
fan
为风扇转速，k1,k2…kn
为各个电磁阀的开闭状态(km＝0,1(m＝1,2
…
n))；
[0191]
采用deep q-network(dqn)算法，算法目标是最大化智能体从环境中获得的累计奖励的期望，利用贝尔曼方程可以计算：
[0192]
q(s
t
,a
t
)＝e[r
t+1
+λmaxq(s
t+1
,a)|s
t
,a
t
]
[0193]
其中，q(s
t
,a
t
)表示当前状态-动作对的值函数；e为求期望；λ为对未来值函数的折扣因子，q学习的更新规则，对q(s
t
,a
t
)进行赋值：
[0194]
q(s
t
,a
t
)
←
q(s
t
,a
t
)+η[maxq(s
t+1
,a)-q(s
t
,a
t
)]
[0195]
其中，η为学习率、q(s
t
,a
t
)为当前状态-动作对的值函数；
[0196]
随着算法的不断迭代，值函数会逐渐收敛至最优值，最优控制策略π
*
即是最大化q值函数的动作序列：
[0197][0198]
利用参数为θ的深度q网络来拟合值函数，避免状态的离散化：
[0199]
q(s
t
,a
t
；θ)≈q(s
t
,a
t
)
[0200]
为了提高算法性能，采用目标值网络的方法，分别设计两个结构一样的网络：评价网络和目标网络；其中，评价网络用于选择动作，更新参数，每隔一段时间，复制参数到目标网络，实现延时更新；这种方法降低了当前q值和目标q值的相关性，提高了算法的稳定性；算法目标是最小化损失函数l(θ)：
[0201]
l(θ)＝e{[r+λmaxq(s
t+1
,a；θ-)-q(s
t
,a
t
；θ)]2+
[0202]
利用梯度下降算法，不断更新网络参数θ，直到学习收敛。为了平衡学习过程中“探索”和“利用”的关系，采用ε-greedy算法时，策略中有较小的概率ε随机选择动作，较大的概率1-ε选择最大化q值的动作；学习初始阶段ε较大，具有增强网络探索能力，而随着训练的进行，ε逐步衰减，以加快学习速度；
[0203]
随着训练进行，即损失函数达到收敛，所输出的状态-动作集合即为最优控制策略；
[0204]
此时，混动汽车热管理策略生成完成。
[0205]
实施例3：
[0206]
实施例3与实施例2基本相同，其不同之处在于：
[0207]
所述s3中：根据不同的使用环境和控制需求调整奖励函数r的定义：
[0208][0209]
其中，分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池soc维持的
权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、δt
bat
为电池温度变化量、δt0为设定的温差限值为确定常数；
[0210]
所述权重因子是根据不同的策略目标设定不同数值；
[0211]
公式中的省略号表示其它考量的能耗部件因素，将考量参数的实际值与目标值之间相减后求平方然后乘以设定的奖励信号权重因子；考量的能耗部件参数包括：压缩机功率p
comp
、水泵功率p
pump
、电机入口温度t
em_in
、发动机出水口温度t
eng_out
、乘员舱温度t
cabin
。
[0212]
实施例4：
[0213]
通过强化学习算法实现了某混合动力汽车考虑油耗、电池soc、发动机出水口温度、电池温度及乘员舱温度，多目标的热管理策略生成，其中油耗及电池soc与热管理系统的关系是：压缩机及水泵等耗能部件的功率由电池提供，发动机可以通过给电池充电，如果热管理策略较优，则压缩机及水泵等耗能部件的功率小的同时各部件温度也适宜导致电池输出功率小从而soc波动小、发动机通过发电机给电池的充电功率小从而导致发动机更有机会在高效区工作。
[0214]
通过步骤s3生成的整车模型如图3所示。
[0215]
在每一个训练步长，智能体agent获取车辆状态信息st：发动机出水口温度t
eng_out
及乘员舱温度t
cabin
，并随机输出动作集at＝{n
ac
、n
pump
、k}，其中n
ac
为压缩机转速、n
pump
为发动机水泵转速、k为发动机冷却回路电子节温器的开度(k＝0：电子节温器关，即发动机通过小循环冷却；k＝100：电子节温器全开，即发动机全部通过大循环冷却)，动作集作用系统后反馈的下一状态st+1，通过公式：反馈的下一状态st+1，通过公式：
[0216]
计算当前动作带来的奖励值rt，该奖励函数的意义在于，使燃油消耗率尽量小、电池soc波动尽量小、电池温度控制在25-40℃之间、发动机出水口温度控制在95-115℃之间、乘员舱温度控制在15-25之间，可以通过调整各项前的权重因子的大小来达到优先控制哪一项的目的。并讲上述(st、at、rt、st+1)储存放入经验池。随着训练进行，当经验池的数据集大小达到预设值时，在后面的每一个训练步长，随机从经验池中随机抽取一定数量的数据集，在当前状态st下，有的1-ε概率选择所抽取的数据集中奖励值最大的at，也有ε的概率继续随机选择动作。随着训练的持续进行，产生的新的数据集会替换经验池中最早的数据集。每训练一轮，ε以衰减率减小，训练初期较大，可促进随机选择动作即促进智能体进行探索，随着训练进行，逐渐减小即每次都尽量选择最优动作，到训练结束时，每一步都能输出最优动作，即最优控制策略生成。如图4所示，为训练过程中的奖励值的曲线，图5为每个训练周期中损失的平均值，由图可知，当奖励不再增加或损失不再减小(在可接受范围内波动)，即达到收敛，可以认为训练结束。图6为训练结束时，在训练工况下和验证工况下的油耗曲线及电池soc变化曲线，图7为训练工况下和验证工况下的乘员舱温度、发动机出水口温度及电池温度的变化曲线。由图6、图7可知所生成的热管理策略在不同的工况下仍然有较好的控制效果。

技术特征：

1.一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于：所述策略生成方法包括以下步骤：s1：获取混动汽车的车辆信息和状态信息：获取混动汽车的车辆信息：采集待生成策略车型的车辆信息数据,所述车辆信息数据包括：车辆的重量m、车辆迎风面积a和电池标称容量q
bat
、发动机发热量map、是电机效率map；获取混动汽车的状态信息：采集待生成策略车型的相关实车测试的车辆状态数据、电池状态数据和环境状态数据；所述车辆状态信息包括：车速u、发动机转速n
en
、发动机输出扭矩t
en
、空调压缩机转速n
ac
、风扇转速n
fan
以及电磁阀的开闭状态k(k＝0,1)；所述电池状态信息包括：电池电流i
bat
、电压v、内阻r
int
以及电池温度t
bat
；所述环境状态信息包括：环境温度t
e
；s2：搭建混合动力汽车仿真模型：建立整车能量模型；在simulink中建立整车动力模型，在gt-suite中搭建热管理系统模型，将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型；s3：利用深度强化学习算法构建混动汽车热管理策略，求解包含燃油经济性，电池效率及电池散热量等多目标优化问题，从而得到最优热管理策略；首先，定义奖励函数，对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
，在下个时间步获得环境新的状态s
t+1
以及奖励信息r
t+1
，通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大；随着训练进行，即损失达到收敛，所输出的状态-动作集合即为最优控制策略；此时，混动汽车热管理策略生成完成。2.根据权利要求1所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于：s2：搭建混合动力汽车仿真模型中:s2.1在simulink中建立整车动力系统模型，车辆的驱动功率为：p
dem
＝(p
en
+p
bat
η
m
)η
t
其中，p
dem
为驱动功率、p
en
为发动机输出功率、p
bat
为电池功率、η
m
为电动机效率、η
t
为变速器和车轴的效率；其中，p
en
为发动机输出功率、m为车辆的重量、f为滚动阻力系数、c
d
为空气阻力系数、a为迎风面积、为坡度、δ为旋转质量换算系数、u为车速、η
t
为变速器和车轴的效率；建立发动机模型：其中，t
en
为发动机输出扭矩、n
en
为发动机转速、p
en
为发动机输出功率，p
en
和燃油消耗率呈正比例关系，则燃油消耗率与发动机输出扭矩t
en
、发动机转速n
en
为函数关系，即：
建立动力电池模型：其中，i
bat
为电池电流、v
oc
为电池开路电压、r
int
为电池内阻、p
bat
为电池功率；其中，为电池的荷电状态对时间的导数、q
bat
为电池标称容量；其中，t
bat
为电池温度、δt
bat
为电池温度变化量，δt
bat
是和t
bat
两者的函数。3.根据权利要求2所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于：s2：搭建混合动力汽车仿真模型中:s2.2：在gt-suite中搭建热管理系统模型，热管理模型的建立：在gt-suite中根据实车参数调整热管理模型中的参数，对整车上的发热部件、散热器分别进行建模与标定，再根据实际热管理系统构型搭建系统模型。4.根据权利要求3所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于：s2：搭建混合动力汽车仿真模型中:s2.3：将整车动力系统模型与热管理系统模型在simulink中进行耦合到整车能量模型：在整车动力系统模型中根据已知的车辆状态数据，可以分别得出发动机产热量、电机产热量、电池产热量，然后将其输入到热管理系统模型中，热管理系统模型经过模拟后将发动机温度、电机温度、电池温度及各个耗能部件消耗功率信息反馈给整车动力系统模型，整车动力系统模型根据反馈的温度信息更新相关的车辆状态数据；所述整车动力系统模型输出发动机转速n
en
、扭矩t
en
，根据发动机产热map查表得到的发动机产热量；所述整车动力系统模型输出电机输出功率、转速、扭矩，根据电机效率map得到对应状态的电机效率值，进而计算出电机产热量；所述整车动力系统模型输出电池输出功率、电流i
bat
及内阻r
int
，根据公式计算得到电池产热量。5.根据权利要求4所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于：所述s3：利用深度强化学习算法构建混动汽车热管理策略中，将热管理策略中，奖励函数r定义为：其中，分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池soc维持的权重
因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、δt
bat
为电池温度变化量、δt0为设定的温差限值为确定常数；所述权重因子是根据不同的策略目标设定不同数值。6.根据权利要求4所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于：所述s3中：根据不同的使用环境和控制需求调整奖励函数r的定义：其中，分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池soc维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、δt
bat
为电池温度变化量、δt0为设定的温差限值为确定常数；所述权重因子是根据不同的策略目标设定不同数值；公式中的省略号表示其它考量的能耗部件因素，将考量参数的实际值与目标值之间相减后求平方然后乘以设定的奖励信号权重因子；考量的能耗部件参数包括：压缩机功率p
comp
、水泵功率p
pump
、电机入口温度t
em_in
、发动机出水口温度t
eng_out
、乘员舱温度t
cabin
。7.根据权利要求5或6所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于：对s2中得到的整车能量模型进行仿真，在每一个仿真步长获取当前的状态s
t
和所获得奖励信息r
t
做出决策并采取动作a
t
，在下个时间步获得环境新的状态s
t+1
以及奖励信息r
t+1
，通过这个过程来学习并更新强化学习的策略，目标是通过试错的方式达到改进系统性能的目的，使奖励信息的累计值达到最大；根据ε-greedy算法选择动作，ε-greedy算法中随机选择概率为ε(0<ε<1)，在每一个状态st下，根据之前训练回合的选择经验，有1-ε
t
的概率选择能获得最大奖励的动作at，有ε
t
的概率随机选择动作，为的是促进探索,ε的初始值很大，但是每个训练回合结束后，ε以衰减率衰减，根据公式对ε进行更新，使ε逐渐减小，随着训练进行，逐渐减少随机探索，最后使选择趋近于选择最优动作；当前状态s
t
＝{t
e
,t
en
,n
en
,p
bat
,t
bat
}，其中s
t
表示包含所有状态的状态集，t
e
为环境温度，t
en
为发动机转矩，n
en
为发动机转速，p
bat
为电池功率，t
bat
为电池温度；以当前状态根据ε-greedy算法选择动作，动作集a＝{n
ac
,n
fan
,k1,k2…
k
n
}，其中n
ac
为空调压缩机转速，n
fan
为风扇转速，k1,k2…
k
n
为各个电磁阀的开闭状态(k
m
＝0,1(m＝1,2
…
n))；采用deep q-network(dqn)算法，算法目标是最大化智能体从环境中获得的累计奖励的期望，利用贝尔曼方程可以计算：q(s
t
,a
t
)＝e[r
t+1
+λmaxq(s
t+1
,a)|s
t
,a
t
]其中，q(s
t
,a
t
)表示当前状态-动作对的值函数；e为求期望；λ为对未来值函数的折扣因子，q学习的更新规则，对q(s
t
,a
t
)进行赋值：q(s
t
,a
t
)
←
q(s
t
,a
t
)+η[maxq(s
t+1
,a)-q(s
t
,a
t
)]其中，η为学习率、q(s
t
,a
t
)为当前状态-动作对的值函数；随着算法的不断迭代，值函数会逐渐收敛至最优值，最优控制策略π
*
即是最大化q值函
数的动作序列：利用参数为θ的深度q网络来拟合值函数，避免状态的离散化：q(s
t
,a
t
；θ)≈q(s
t
,a
t
)为了提高算法性能，采用目标值网络的方法，分别设计两个结构一样的网络：评价网络和目标网络；其中，评价网络用于选择动作，更新参数，每隔一段时间，复制参数到目标网络，实现延时更新；这种方法降低了当前q值和目标q值的相关性，提高了算法的稳定性；算法目标是最小化损失函数l(θ)：l(θ)＝e{[r+λmaxq(s
t+1
,a；θ-)-q(s
t
,a
t
；θ)]2}利用梯度下降算法，不断更新网络参数θ，直到学习收敛；为了平衡学习过程中“探索”和“利用”的关系，采用ε-greedy算法时，策略中有较小的概率ε随机选择动作，较大的概率1-ε选择最大化q值的动作；学习初始阶段ε较大，具有增强网络探索能力，而随着训练的进行，ε逐步衰减，以加快学习速度；随着训练进行，即损失函数达到收敛，所输出的状态-动作集合即为最优控制策略；此时，混动汽车热管理策略生成完成。

技术总结

一种基于深度强化学习的混动汽车热管理策略生成方法,包括以下步骤：S1：获取混动汽车的车辆信息和状态信息；S2：搭建混合动力汽车仿真模型：建立整车能量模型；在Simulink中建立整车动力模型，在GT-SUITE中搭建热管理系统模型，将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型；S3：利用深度强化学习算法构建混动汽车热管理策略，求解包含燃油经济性，电池效率及电池散热量等多目标优化问题，从而得到最优热管理策略。本设计不仅能够构建整车的能量模型、实现车辆的温度变化过程的模拟，而且应性强、能够适应不同车型的策略生成需求。同车型的策略生成需求。同车型的策略生成需求。