电动汽车充放电速率控制系统与方法与流程



1.本发明实施例涉及智能车联网技术领域,具体涉及一种电动汽车充放电速率控制系统与方法。


背景技术:



2.为了加快构建清洁低碳安全高效的能源体系,深化电力体制改革,构建新型电力系统,目前正在大力发展电动汽车与电网互动技术(vehicle-to-grid,v2g)。通过v2g技术使电动汽车集可以在电网发电富余时段储存电能,在电网电力紧缺时段向电网反馈电能,不仅可以保障电网平衡,而且也可以为电网提供充裕的应急资源,提升新型电力系统的智能化和稳定性。通过对电动汽车充放电速率进行控制可以提高充电经济性,例如在电力价格较低时对电动汽车充电,在电力价格较高时释放电能至电网,从而可以降低用户的充电成本。
3.现有电动汽车充放电速率控制系统通常利用深度强化学习方法,在未知动态环境下对单个电动汽车进行学习,以得到充放电速率控制策略。现有围绕单个电动汽车所设计的充放电速率控制系统无法同时满足多个电动汽车的不同充放电需求,难以有效地降低多个用户的充电成本。


技术实现要素:



4.本发明实施例提供一种电动汽车充放电速率控制系统与方法,用以解决现有技术无法同时满足多个电动汽车的不同充放电需求,难以有效地降低多个用户的充电成本问题。
5.第一方面,本发明实施例提供一种电动汽车充放电速率控制系统,包括:服务器和多个电动汽车;
6.每个电动汽车各自收集自身与充放电相关的经验数据;
7.各电动汽车根据自身的经验数据采用软演员-评论家算法进行训练,得到本地演员网络和本地评论家网络,本地演员网络用于控制电动汽车充放电速率,本地评论家网络用于对电动汽车充放电速率进行评论;
8.各电动汽车对自身的本地演员网络和本地评论家网络进行加密,并将加密后的本地演员网络和加密后的本地评论家网络发送至服务器;
9.服务器通过联邦平均算法聚合来自多个电动汽车的加密后的本地演员网络和加密后的本地评论家网络,得到全局演员网络和全局评论家网络;
10.服务器将全局演员网络和全局评论家网络广播至各电动汽车;
11.各电动汽车根据全局演员网络和全局评论家网络更新本地演员网络和本地评论家网络;
12.各电动汽车采用更新后的本地演员网络控制充放电速率。
13.一种实施例中,各电动汽车自身的经验数据以四元组形式表示为
其中,表示第i个电动汽车在t时刻的实时状态,表示第i个电动汽车在[t,t+1)时间段内的充放电速率,表示第i个电动汽车在t+1时刻的实时状态,表示第i个电动汽车的状态由变化为并采用的奖赏,表示电动汽车接入充电设施后的最大放电速率,表示电动汽车接入充电设施后的最大充电速率。
[0014]
一种实施例中,实时状态包括当前时刻以及过去n小时的电力价格、电动汽车离开充电站的时间、电动汽车的用户开始焦虑的时间、电动汽车当前时刻的电池储能、电动汽车用户焦虑时刻期望电池储能以及电动汽车离开充电站时期望电池储能,第i个电动汽车在t时刻的实时状态根据如下表达式确定:;
[0015][0016]
其中,表示t-n,t-n+1,
……
,t时刻的电力价格,表示第i个电动汽车离开充电站的时间,表示第i个电动汽车的用户开始焦虑的时间,表示第i个电动汽车t时刻的电池储能,表示第i个电动汽车用户焦虑时刻期望电池储能,表示第i个电动汽车离开充电站时期望电池储能,n为大于等于1的自然数。
[0017]
一种实施例中,根据如下表达式确定奖赏
[0018][0019]
其中,σ
p
表示价格因子,σ
x
表示焦虑因子,σd表示需求响应因子,表示第i个电动汽车到达充电站的时间;
[0020][0021]
其中,和表示电池储能曲线的形状因子,
[0022]
一种实施例中,第i个电动汽车在t到t+1时刻之间的电池储能根据如下表达式确定:
[0023][0024]
其中,η∈(0,1]表示电动汽车的充放电效率,表示第i个电动汽车t+1时刻的电池储能。
[0025]
第二方面,本发明实施例提供一种电动汽车充放电速率控制方法,应用于电动汽车,包括:
[0026]
收集电动汽车自身与充放电相关的经验数据;
[0027]
根据电动汽车自身的经验数据采用软演员-评论家算法进行训练,得到本地演员网络和本地评论家网络,本地演员网络用于控制电动汽车充放电速率,本地评论家网络用于对电动汽车充放电速率进行评论;
[0028]
对本地演员网络和本地评论家网络进行加密,并将加密后的本地演员网络和加密后的本地评论家网络发送至服务器,以使服务器通过联邦平均算法聚合来自多个电动汽车
的加密后的本地演员网络和加密后的本地评论家网络,得到全局演员网络和全局评论家网络;
[0029]
接收服务器广播的全局演员网络和全局评论家网络;
[0030]
根据全局演员网络和全局评论家网络更新本地演员网络和本地评论家网络;
[0031]
采用更新后的本地演员网络控制充放电速率。
[0032]
一种实施例中,经验数据以四元组形式表示为其中,表示第i个电动汽车在t时刻的实时状态,表示第i个电动汽车在[t,t+1)时间段内的充放电速率,表示第i个电动汽车在t+1时刻的实时状态,表示第i个电动汽车的状态由变化为并采用的奖赏,表示电动汽车接入充电设施后的最大放电速率,表示电动汽车接入充电设施后的最大充电速率。
[0033]
一种实施例中,实时状态包括当前时刻以及过去n小时的电力价格、电动汽车离开充电站的时间、电动汽车的用户开始焦虑的时间、电动汽车当前时刻的电池储能、电动汽车用户焦虑时刻期望电池储能以及电动汽车离开充电站时期望电池储能,第i个电动汽车在t时刻的实时状态根据如下表达式确定:;
[0034][0035]
其中,表示t-n,t-n+1,
……
,t时刻的电力价格,表示第i个电动汽车离开充电站的时间,表示第i个电动汽车的用户开始焦虑的时间,表示第i个电动汽车t时刻的电池储能,表示第i个电动汽车用户焦虑时刻期望电池储能,表示第i个电动汽车离开充电站时期望电池储能,n为大于等于1的自然数。
[0036]
一种实施例中,根据如下表达式确定奖赏
[0037][0038]
其中,σ
p
表示价格因子,σ
x
表示焦虑因子,σd表示需求响应因子,表示第i个电动汽车到达充电站的时间;
[0039][0040]
其中,和表示电池储能曲线的形状因子,
[0041]
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第二方面任一项所述的电动汽车充放电速率控制方法。
[0042]
本发明实施例提供的电动汽车充放电速率控制系统与方法,包括:服务器和多个电动汽车;每个电动汽车各自收集自身与充放电相关的经验数据;各电动汽车根据自身的经验数据采用软演员-评论家算法进行训练,得到本地演员网络和本地评论家网络,本地演员网络用于控制电动汽车充放电速率,本地评论家网络用于对电动汽车充放电速率进行评论;各电动汽车对自身的本地演员网络和本地评论家网络进行加密,并将加密后的本地演
员网络和加密后的本地评论家网络发送至服务器;服务器通过联邦平均算法聚合来自多个电动汽车的加密后的本地演员网络和加密后的本地评论家网络,得到全局演员网络和全局评论家网络;服务器将全局演员网络和全局评论家网络广播至各电动汽车;各电动汽车根据全局演员网络和全局评论家网络更新本地演员网络和本地评论家网络;各电动汽车采用更新后的本地演员网络控制充放电速率。基于联邦强化学习实现了对充放电速率的控制,在保障各个电动汽车的隐私数据不出本地的前提下训练得到共享的全局模型,可以同时满足不同电动汽车的充放电需求,进而可以有效地降低各个用户的充电成本。
附图说明
[0043]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0044]
图1为本发明一实施例提供的电动汽车充放电速率控制系统的示意图;
[0045]
图2为本发明一实施例提供的训练结果示意图;
[0046]
图3为本发明一实施例提供的测试结果示意图;
[0047]
图4为本发明一实施例提供的电动汽车充放电速率控制方法的流程图。
[0048]
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
[0049]
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本技术能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本技术相关的一些操作并没有在说明书中显示或者描述,这是为了避免本技术的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
[0050]
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
[0051]
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本技术所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
[0052]
实施例一
[0053]
图1为本发明一实施例提供的电动汽车充放电速率控制系统的示意图。如图1所示,本实施例提供的电动汽车充放电速率控制系统可以包括:服务器和多个电动汽车。
[0054]
每个电动汽车各自收集自身与充放电相关的经验数据,各自进行数据收集一方面可以更好地保护隐私数据,提高安全性;另一方面也有助于降低数据收集成本。每个电动汽
车的策略网络与环境相互作用,并将收集到的经验数据以四元组形式存储到回放缓冲区。
[0055]
经过一段时间的迭代后,各电动汽车从回放缓冲区抽样出一小批经验数据,各电动汽车根据自身的经验数据采用软演员-评论家(soft actor-critic,sac)算法进行训练,得到本地演员网络和本地评论家网络,本地演员网络用于控制电动汽车充放电速率,本地评论家网络用于对电动汽车充放电速率进行评论。使用sac完成本地模型更新,本地演员网络主要是负责生成动作,即电动汽车充放电速率控制策略,本地评论家网络主要负责评论动作的好坏。具体可以包括:通过引入深度神经网络,可实现对于软q函数的近似,之后可利用最小化软贝尔曼残差来训练本地评论家网络;本地演员网络可通过最小化期望kl散度(kullback-leibler divergence)来改进最优策略,利用重参数化技巧以生成当前的充电速率,以支持神经网络的反向传播。
[0056]
本地训练完成后,各电动汽车对自身的本地演员网络和本地评论家网络进行加密,并将加密后的本地演员网络和加密后的本地评论家网络发送至服务器。
[0057]
服务器通过联邦平均算法(federated averaging algorithm,fedavg)聚合来自多个电动汽车的加密后的本地演员网络和加密后的本地评论家网络,得到全局演员网络和全局评论家网络。具体的,可以得到一个全局演员网络和两个全局评论家网络。
[0058]
服务器将全局演员网络和全局评论家网络广播至各电动汽车。服务器可以将全局网络模型广播至位于不同环境中的电动汽车,实现模型共享。
[0059]
各电动汽车根据全局演员网络和全局评论家网络更新本地演员网络和本地评论家网络。本实施例中的更新可以为迭代更新,也可以是替代更新。各电动汽车根据更新后本地演员网络和本地评论家网络继续进行环境观测和下一次迭代训练。
[0060]
各电动汽车采用更新后的本地演员网络控制充放电速率。
[0061]
本实施例提供的电动汽车充放电速率控制系统,基于联邦强化学习实现了对充放电速率的控制,在保障各个电动汽车的隐私数据不出本地的前提下训练得到共享的全局模型,可以同时满足不同电动汽车的充放电需求,进而可以有效地降低各个用户的充电成本。
[0062]
实施例二
[0063]
电动汽车充放电速率控制问题属于最优控制论中环境不确定性问题,而实际充放电场景下存在大量不确定因素导致电动汽车充放电速率控制面临着很大的挑战。为了进一步提升电动汽车充放电速率控制系统在实际充电场景下的大量不确定因素影响下的表现,本实施例提供的电动汽车充放电速率控制系统充分考虑了电动汽车充放电过程中实时电价和实时电池储能的焦虑情绪的影响。
[0064]
具体的,本实施例提供的电动汽车充放电速率控制系统中,各电动汽车自身的经验数据以四元组形式表示为其中,表示第i个电动汽车在t时刻的实时状态,表示第i个电动汽车在[t,t+1)时间段内的充放电速率,表示第i个电动汽车在t+1时刻的实时状态,表示第i个电动汽车的状态由变化为并采用的奖赏,表示电动汽车接入充电设施后的最大放电速率,表示电动汽车接入充电设施后的最大充电速率,i∈{1,...,n},n为大于等于2的自然数。
[0065]
一种可选的实施方式中,实时状态包括当前时刻以及过去n小时的电力价格、电动汽车离开充电站的时间、电动汽车的用户开始焦虑的时间、电动汽车当前时刻的电池储能、
电动汽车用户焦虑时刻期望电池储能以及电动汽车离开充电站时期望电池储能,第i个电动汽车在t时刻的实时状态根据如下表达式确定:;
[0066][0067]
其中,表示t-n,t-n+1,
……
,t时刻的电力价格,表示第i个电动汽车离开充电站的时间,表示第i个电动汽车的用户开始焦虑的时间,表示第i个电动汽车t时刻的电池储能,表示第i个电动汽车用户焦虑时刻期望电池储能,表示第i个电动汽车离开充电站时期望电池储能,n为大于等于1的自然数。
[0068]
一种可选的实施方式中,根据如下表达式确定奖赏
[0069][0070]
其中,σ
p
表示价格因子,σ
x
表示焦虑因子,σd表示需求响应因子,表示第i个电动汽车到达充电站的时间;
[0071][0072]
其中,和表示电池储能曲线的形状因子,
[0073]
一种可选的实施方式中,第i个电动汽车在t到t+1时刻之间的电池储能根据如下表达式确定:
[0074][0075]
其中,表示电动汽车的充放电效率,表示第i个电动汽车t+1时刻的电池储能。
[0076]
本实施例提供的电动汽车充放电速率控制系统,在上述实施例的基础上,进一步地充分考虑了实际充放电场景下电力价格以及电池储能焦虑情绪的影响,可以更好地满足电动汽车的充放电需求,并且可以进一步降低电动汽车的充电成本。
[0077]
实施例三
[0078]
将上述实施例进行结合,本实施例针对电动汽车充放电速率控制系统中不同电动汽车不同的充放电需求以及实际充放电场景中的大量不确定因素,通过在马尔可夫决策过程中考虑电动汽车充放电过程中实时电价和实时电池储能的焦虑情绪的影响,并结合深度强化学习技术和联邦学习技术,构建出基于联邦强化学习的电动汽车充放电速率控制系统。具体可以包括:
[0079]
步骤1、电动汽车动态电池模型建立:以配备相同电池的n个电动汽车接入相同的充电基础设施为例,电动汽车i到达充电站和离开充电站的时间分别为和若将电动汽车i在t和t+1时刻的电池储能百分比分别表示为和则电动汽车i在t到t+1时刻之间的电池储能状态可建模为
[0080][0081]
其中,为电动汽车i在[t,t+1)时间段内的总充电速率。电动汽车充放电效率η∈(0,1],电动汽车i在t时刻的电池储能百分比
[0082]
步骤2、马尔可夫决策过程:电动汽车充放电速率控制问题与顺序决策问题具有相同的形式,因此可将其视作一个具有离散步骤的马尔可夫决策过程,具体包括以下步骤:
[0083]
步骤201、实时状态生成:状态作为充放电速率控制策略的输入,可产生实时的充电动作。若将具有不同充电偏好的n个电动汽车视为位于不同充电环境中的n个智能体,并用表示第i个电动汽车在t时刻的实时状态。该实时状态包括当前以及过去n小时的电力价格电动汽车离开充电站的时间电动汽车的用户开始焦虑的时间电动汽车当前时刻电池储能电动汽车的用户焦虑时刻期望电池储能以及电动汽车离开充电站时的期望电池储能则第i个电动汽车在t时刻的实时状态可具体表示为
[0084][0085]
步骤202、实时动作生成:动作表示在给定状态下,第i个电动汽车在[t,t+1)时间内的充电速率。由于充电桩的充电速率限制,该充电速率受到的约束为
[0086][0087]
其中,和分别为电动汽车接入充电设施后的最大放电速率和最大充电速率。
[0088]
步骤203、实时奖赏计算:奖赏表示经过状态转移后,即状态由变为并生成t时刻的充电决策后,系统对智能体的实时反馈。本实施例中将电动汽车需求响应因子融入奖赏函数,并量化了用户焦虑情绪对电池储能的影响,具体可以表示为:
[0089][0090]
其中,和为电池储能曲线的形状因子。若在某一时刻,电动汽车向充电站销售电力和从充电站购买电力的价格相同,则奖赏可表示为
[0091][0092]
其中,因子σ
p
、σ
x
和σd分别描述了用户对价格、焦虑和需求响应的敏感程度。
[0093]
步骤3、为解决上述的马尔可夫决策过程,本实施例中基于联邦强化学习实现对电动汽车充放电速率的控制。通过本地训练和全局联合学习以得到共享的充放电速率控制策略,可以满足具有不同充放电偏好的电动汽车用户。该过程的优化目标g(π)可表示为:
[0094][0095]
该优化目标可基于联邦强化学习来求解,具体可以包括:
[0096]
步骤301、本地经验数据收集:每个智能体的策略网络与环境ωi相互作用,并将收集到的经验数据以四元组形式存储到回放缓冲区
[0097]
步骤302、本地模型更新:经过一段时间的迭代后,在回放缓冲区抽样出一小批经验,使用软演员-评论家(sac)算法完成本地模型更新。智能体i对应的策略为πi,用表示策略轨迹的边缘分布,则本地训练的优化目标可表示为
[0098][0099]
其中,是在时间域上与奖赏相关的折扣因子。通过策略评估和策略改进步骤完成对于智能体的本地训练,分别叙述如下:
[0100]
步骤3021、策略评估:
[0101]
智能体需要学习软q函数,以对当前智能体生成的动作进行评估,即
[0102][0103]
其中,软状态价值函数v(
·
)可表示为
[0104][0105]
通过引入参数为的深度神经网络可实现对于软q函数的近似。之后可利用最小化软贝尔曼残差来训练参数,即
[0106][0107]
其中,为智能体i的回放缓冲区,满足
[0108][0109]
其中为目标值网络,其参数可以通过软状态值网络权值的移动平均来更新。该更新过程可表示为其中ζ∈(0,1)。
[0110]
可借助以下准则进行更新
[0111][0112]
步骤3022、策略改进:
[0113]
使用策略网络作为策略函数的近似,然后通过最小化期望kl散度来改进最优策略,即
[0114][0115]
其中,温度参数αi可以通过自动熵调整方法进行优化,即最小化
[0116][0117]
其中是期望的最小期望目标熵。由于充电速率和当前电池储能是连续的,策略网络被设置为如下所示的高斯分布
[0118][0119]
式(15)中的参数μ和σ都是策略网络的输出。利用重参数化技巧以生成当前的充电速率,以支持神经网络的反向传播。若该策略网络输出的高斯分布参数的均值和标准差分别为和策略可被重参数化为
[0120][0121]
其中通过式(15)从特定分布中采样可实现对策略网络输出的重参数化,产生实时充电速率
[0122]
式(13)中的梯度的近似值可以描述为如下形式
[0123][0124]
在实际训练中,本发明使用两个参数化的软q函数,即其中k={1,2}和一个用神经网络近似的高斯策略函数以缓解近似偏差。对于评委网络其梯度更新准则为
[0125][0126]
其中,q
min
满足
[0127][0128]
步骤4、全局模型聚合:本地训练完成后,本地模型被加密并传输到服务器。在服务器端通过fedavg算法聚合存储在本地设备中的评委网络和演员网络,得到全局演员模型以及两个全局评委模型以及
[0129]
步骤5、全局模型下载:服务器将全局模型广播至位于不同环境中的智能体。随后智能体利用该模型观测外部环境,并开始下一次迭代训练。
[0130]
下面将通过模型训练结果和测试结果来对本实施例提供的电动汽车充放电速率控制系统的效果来进行说明。请参考图2,图2为本发明一实施例提供的训练结果示意图。图2中(a)、(b)和(c)分别为电动汽车1、电动汽车2和电动汽车3的本地模型的训练结果,图2中(d)为全局模型的训练结果。由图2可以看出,随着训练回合的增加奖赏值(电价奖赏、焦虑奖赏和总奖赏)也越来越高,奖赏值越高则说明模型训练效果越好。
[0131]
图3为本发明一实施例提供的测试结果示意图。采用本实施例提供的电动汽车充放电速率控制系统分别控制电动汽车1、电动汽车2和电动汽车3的充放电速率,可分别得到如图3中(a)、(b)和(c)所示的测试结果,可见本实施例提供的系统可适用于具有不同充电偏好的电动汽车,可以为三个具有不同充电偏好的电动汽车推荐合适的充放电速率,可在节省充电开支的同时保证各类电动汽车的出行。
[0132]
实施例四
[0133]
图4为本发明一实施例提供的电动汽车充放电速率控制方法的流程图。如图4所示,本实施例提供的电动汽车充放电速率控制方法,应用于电动汽车,可以包括:
[0134]
s401、收集电动汽车自身与充放电相关的经验数据。
[0135]
s402、根据电动汽车自身的经验数据采用软演员-评论家算法进行训练,得到本地演员网络和本地评论家网络,本地演员网络用于控制电动汽车充放电速率,本地评论家网络用于对电动汽车充放电速率进行评论。
[0136]
s403、对本地演员网络和本地评论家网络进行加密,并将加密后的本地演员网络和加密后的本地评论家网络发送至服务器,以使服务器通过联邦平均算法聚合来自多个电动汽车的加密后的本地演员网络和加密后的本地评论家网络,得到全局演员网络和全局评论家网络。
[0137]
s404、接收服务器广播的全局演员网络和全局评论家网络。
[0138]
s405、根据全局演员网络和全局评论家网络更新本地演员网络和本地评论家网络。
[0139]
s406、采用更新后的本地演员网络控制充放电速率。
[0140]
本实施例提供的电动汽车充放电速率控制方法,基于联邦强化学习实现了对充放电速率的控制,在保障各个电动汽车的隐私数据不出本地的前提下训练得到共享的全局模型,可以同时满足不同电动汽车的充放电需求,进而可以有效地降低各个用户的充电成本。
[0141]
一种可选的实施方式中,经验数据以四元组形式表示为其中,表示第i个电动汽车在t时刻的实时状态,表示第i个电动汽车在[t,t+1)时间段内的充放电速率,表示第i个电动汽车在t+1时刻的实时状态,表示第i个电动汽车的状态由变化为并采用的奖赏,表示电动汽车接入充电设施后的最大放电速率,表示电动汽车接入充电设施后的最大充电速率。
[0142]
一种可选的实施方式中,实时状态包括当前时刻以及过去n小时的电力价格、电动汽车离开充电站的时间、电动汽车的用户开始焦虑的时间、电动汽车当前时刻的电池储能、电动汽车用户焦虑时刻期望电池储能以及电动汽车离开充电站时期望电池储能,第i个电动汽车在t时刻的实时状态根据如下表达式确定:;
[0143][0144]
其中,表示t-n,t-n+1,
……
,t时刻的电力价格,表示第i个电动汽车离开充电站的时间,表示第i个电动汽车的用户开始焦虑的时间,表示第i个电动汽车t时刻的电池储能,表示第i个电动汽车用户焦虑时刻期望电池储能,表示第i个电动汽车离开充电站时期望电池储能,n为大于等于1的自然数。
[0145]
一种可选的实施方式中,根据如下表达式确定奖赏
[0146][0147]
其中,σ
p
表示价格因子,σ
x
表示焦虑因子,σd表示需求响应因子,表示第i个电动汽车到达充电站的时间;
[0148]
[0149]
其中,和表示电池储能曲线的形状因子,
[0150]
一种可选的实施方式中,第i个电动汽车在t到t+1时刻之间的电池储能根据如下表达式确定:
[0151][0152]
其中,η∈(0,1]表示电动汽车的充放电效率,表示第i个电动汽车t+1时刻的电池储能。
[0153]
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述任一方法实施例的技术方案。
[0154]
本公开中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0155]
本公开的保护范围不限于上述的实施例,显然,本领域的技术人员可以对本公开进行各种改动和变形而不脱离本公开的范围和精神。倘若这些改动和变形属于本公开权利要求及其等同技术的范围,则本公开的意图也包含这些改动和变形在内。

技术特征:


1.一种电动汽车充放电速率控制系统,其特征在于,包括:服务器和多个电动汽车;每个电动汽车各自收集自身与充放电相关的经验数据;各电动汽车根据自身的经验数据采用软演员-评论家算法进行训练,得到本地演员网络和本地评论家网络,所述本地演员网络用于控制电动汽车充放电速率,所述本地评论家网络用于对电动汽车充放电速率进行评论;各电动汽车对自身的本地演员网络和本地评论家网络进行加密,并将加密后的本地演员网络和加密后的本地评论家网络发送至服务器;服务器通过联邦平均算法聚合来自多个电动汽车的加密后的本地演员网络和加密后的本地评论家网络,得到全局演员网络和全局评论家网络;服务器将全局演员网络和全局评论家网络广播至各电动汽车;各电动汽车根据全局演员网络和全局评论家网络更新本地演员网络和本地评论家网络;各电动汽车采用更新后的本地演员网络控制充放电速率。2.根据权利要求1所述的系统,其特征在于,各电动汽车自身的经验数据以四元组形式表示为其中,表示第i个电动汽车在t时刻的实时状态,表示第i个电动汽车在[t,t+1)时间段内的充放电速率,表示第i个电动汽车在t+1时刻的实时状态,表示第i个电动汽车的状态由变化为并采用的奖赏,表示电动汽车接入充电设施后的最大放电速率,表示电动汽车接入充电设施后的最大充电速率。3.根据权利要求2所述的系统,其特征在于,所述实时状态包括当前时刻以及过去n小时的电力价格、电动汽车离开充电站的时间、电动汽车的用户开始焦虑的时间、电动汽车当前时刻的电池储能、电动汽车用户焦虑时刻期望电池储能以及电动汽车离开充电站时期望电池储能,第i个电动汽车在t时刻的实时状态根据如下表达式确定:;其中,表示t-n,t-n+1,
……
,t时刻的电力价格,表示第i个电动汽车离开充电站的时间,表示第i个电动汽车的用户开始焦虑的时间,表示第i个电动汽车t时刻的电池储能,表示第i个电动汽车用户焦虑时刻期望电池储能,表示第i个电动汽车离开充电站时期望电池储能,n为大于等于1的自然数。4.根据权利要求3所述的系统,其特征在于,根据如下表达式确定奖赏征在于,根据如下表达式确定奖赏其中,σ
p
表示价格因子,σ
x
表示焦虑因子,σ
d
表示需求响应因子,表示第个电动汽车到达充电站的时间;
其中,和表示电池储能曲线的形状因子,5.根据权利要求4所述的系统,其特征在于,第i个电动汽车在t到t+1时刻之间的电池储能根据如下表达式确定:其中,η∈(0,1]表示电动汽车的充放电效率,表示第i个电动汽车t+1时刻的电池储能。6.一种电动汽车充放电速率控制方法,应用于电动汽车,其特征在于,包括:收集电动汽车自身与充放电相关的经验数据;根据电动汽车自身的经验数据采用软演员-评论家算法进行训练,得到本地演员网络和本地评论家网络,所述本地演员网络用于控制电动汽车充放电速率,所述本地评论家网络用于对电动汽车充放电速率进行评论;对本地演员网络和本地评论家网络进行加密,并将加密后的本地演员网络和加密后的本地评论家网络发送至服务器,以使服务器通过联邦平均算法聚合来自多个电动汽车的加密后的本地演员网络和加密后的本地评论家网络,得到全局演员网络和全局评论家网络;接收服务器广播的全局演员网络和全局评论家网络;根据全局演员网络和全局评论家网络更新本地演员网络和本地评论家网络;采用更新后的本地演员网络控制充放电速率。7.根据权利要求6所述的方法,其特征在于,所述经验数据以四元组形式表示为其中,表示第i个电动汽车在t时刻的实时状态,表示第i个电动汽车在[t,t+1)时间段内的充放电速率,表示第i个电动汽车在t+1时刻的实时状态,表示第i个电动汽车的状态由变化为并采用的奖赏,表示电动汽车接入充电设施后的最大放电速率,表示电动汽车接入充电设施后的最大充电速率。8.根据权利要求7所述的方法,其特征在于,所述实时状态包括当前时刻以及过去n小时的电力价格、电动汽车离开充电站的时间、电动汽车的用户开始焦虑的时间、电动汽车当前时刻的电池储能、电动汽车用户焦虑时刻期望电池储能以及电动汽车离开充电站时期望电池储能,第i个电动汽车在t时刻的实时状态根据如下表达式确定:;其中,表示t-n,t-n+1,
……
,t时刻的电力价格,表示第i个电动汽车离开充电站的时间,表示第i个电动汽车的用户开始焦虑的时间,表示第i个电动汽车t时刻的电池储能,表示第i个电动汽车用户焦虑时刻期望电池储能,表示第i个电动汽车离开充电站时期望电池储能,n为大于等于1的自然数。9.根据权利要求8所述的方法,其特征在于,根据如下表达式确定奖赏
其中,σ
p
表示价格因子,σ
x
表示焦虑因子,σ
d
表示需求响应因子,表示第个电动汽车到达充电站的时间;其中,和表示电池储能曲线的形状因子,10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求6-9任一项所述的电动汽车充放电速率控制方法。

技术总结


本发明提供一种电动汽车充放电速率控制系统与方法,包括:服务器和多个电动汽车;每个电动汽车各自收集自身与充放电相关的经验数据;根据自身的经验数据采用软演员-评论家算法进行训练,得到本地演员网络和本地评论家网络;将加密后的本地演员网络和加密后的本地评论家网络发送至服务器;服务器通过联邦平均算法聚合来自多个电动汽车的加密后的本地演员网络和加密后的本地评论家网络,得到全局演员网络和全局评论家网络;各电动汽车根据全局演员网络和全局评论家网络更新本地演员网络和本地评论家网络,采用更新后的本地演员网络控制充放电速率。基于联邦强化学习实现了对充放电速率的控制,可以同时满足不同电动汽车的充放电需求。放电需求。放电需求。


技术研发人员:

王琼 石远明

受保护的技术使用者:

王琼

技术研发日:

2022.08.16

技术公布日:

2022/11/25

本文发布于:2024-09-22 22:23:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/9903.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:电动汽车   网络   速率   评论家
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议