基于深度强化学习的能量采集认知物联网资源分配方法



1.本发明属于无线通信领域,具体涉及一种基于深度强化学习的能量采集认知物联网资源分配方法。


背景技术:



2.随着现代无线通信技术的发展,物联网已经成为了连接大量物联网设备来满足日常服务需求的一种新范式。这些物联网设备需要占用大量的频谱资源,然而频谱资源短缺已经成为了制约物联网未来发展的重要因素。
3.为了解决频谱资源短缺的问题,认知无线电技术应运而生。认知无线电通过感知外界环境,智能地调节系统内部参数,发现并利用频谱空穴,实现频谱资源的高效利用,从而提高日常服务需求,因此将认知无线电技术应用于物联网是一项有前景的方案。认知物联网就是认知无线电技术与物联网相结合来解决频谱资源短缺问题的一种范式。
4.尽管认知物联网具有上述的优点,但物联网设备往往是采用传统的电池供电,日益增多的电池数量不仅增加了维护成本,而且废弃电池还会给环境带来污染。对于大规模的认知物联网而言,频频更换电池不仅耗时费力,而且还会降低网络的通信效率。为了解决这一难题,能量采集技术得以应用于认知物联网中。能量采集技术是一种能够将风能、热能、太阳能、射频能量等自然能量存在形式转化为电能形式为物联网设备供电,从而无需受到外部电池容量限制的技术。自然能源不稳定且采集过程需要大型复杂的电力设备进行,而射频能量信号只需通过天线接收就能够实现,因此考虑通过射频能量采集技术为物联网设备供电不仅能解决能量效率的问题,同时也符合绿通信的要求。
5.科技生产力的提高在促进各种无线通信网络发展的同时,也使得这些网络的安全复杂度也随之增加。特别是在当前信息化时代背景下,在认知物联网中物联网设备之间的通信变得更加频繁,这就使得认知物联网的通信安全面临着重大考验。无线信道的广播特性,为窃听节点接入网络并窃取保密信息提供了可乘之机。传统上往往是在网络协议栈的上层采用密码学加密的方法来提高网络通信安全,但是计算力的提高使得这种加密方法很容易被非法用户破解,这对于存储了大量通信资源的物联网而言是个巨大的安全挑战。为了进一步地提高网络的通信安全,物理层安全技术成为了传统密码学加密方法的补充方案。物理层安全技术包括波束成形,人工噪声,协作干扰等技术,其主要是利用无线信道的衰落、噪声、干扰等固有特性来防止窃听,这种方法无需关注窃听节点的计算力就能够保证网络在信息理论上的绝对安全。因此,将物理层安全技术应用于认知物联网来增强通信安全是一种切实可行的方案。


技术实现要素:



6.本发明的目的在于提供一种基于深度强化学习的能量采集认知物联网资源分配方法,该方法有利于对能量采集认知物联网资源进行最优分配。
7.为实现上述目的,本发明采用的技术方案是:一种基于深度强化学习的能量采集
认知物联网资源分配方法,包括:
8.搭建能量采集认知物联网系统模型,并推导出资源分配的数学模型;
9.搭建强化学习模型,将次发射机到次接收机、协作干扰器到窃听节点这两条链路的2m条子信道以及一个能量采集时间分配网络t0共建模为2m+1个强化学习智能体,能量采集认知物联网中的其他部分为强化学习环境,智能体与环境不断进行交互;
10.构建基于深度强化学习的能量采集认知物联网资源分配模型,并对其进行训练;
11.通过训练好的资源分配模型对认知物联网进行联合能量采集时间和传输功率的最优分配。
12.进一步地,对基于深度强化学习的能量采集认知物联网资源分配模型进行训练,具体包括以下步骤:
13.s1、生成认知物联网的拓扑结构,初始化每条链路的信道增益,回合训练次数n,经验缓冲池dk的最大容量nk,以及决策网络和目标网络权重参数θk、其中其中
14.s2、在每个训练回合的开始,随机初始化认知物联网所有节点的位置,更新每条链路的信道增益,设置环境的初始状态为s0;
15.s3、在每个训练回合的第t=0,1,2,

,t
max-1个时间步,基于当前环境状态s
t
,每个智能体k获得环境局部观测并根据ε-greedy算法采取动作更新st和j的电池容量和更新信道增益,当前环境状态s
t
转移到下一状态s
t+1
,智能体k获得下一个局部观测和奖励r
t

16.s4、更新神经网络参数θk和即从dk中随机抽取设定批量的样本送入决策网络,计算损失函数l(θk),并进行梯度下降最小化l(θk)更新参数θk;每间隔m个连续时间步将θk复制给目标网络权重参数
17.进一步地,所述步骤s2中,在每个训练回合的开始,采用随机化方案来更新认知物联网中所有节点的位置,每条链路的信道增益的更新遵循瑞利信道衰落模型,设置该次训练回合的环境初始状态为:
18.s0=sr|
t=0
={g
t
,sinr
t
,b
t-1
}
t=0
={g0,sinr0,{b
st,max
,b
j,max
}}
19.式中,式中,pr、sr、e处的信干噪比集合st和j的电池容量集合并有b-1
={b
st,max
,b
j,max
},其中,为子信道编号集合,为子信道增益,分别为次发射机st和协作干扰器j在第k个子信道的发射功率,b
st,max
和b
j,max
分别为st和j的最大电池容量。
20.进一步地,所述步骤s3中,在每个训练回合的第t=0,1,2,

,t
max-1个时间步,基于当前环境状态s
t
,每个智能体获得环境局部观测并根据ε-greedy算法采取动作:
[0021][0022]
式中,智能体的动作空间式中,智能体的动作空间c
t
为能量采集时间系数,l1为离散时间层级,l2为离散功率层级,q为估计状态-动作价值函数,p为随机生成的概率,ε∈(0,1)为给定的概率阈值;根据下列公式更新st和j的电池容量量
[0023]
其中,分别为st和j采集到的能量,分别为st和j的可用电池容量,b
st,max
、b
st,max
分别为st和j的最大电池容量,为相关时间系数,t为传输块的长度;然后基于瑞利信道衰落模型更新信道增益,环境的当前状态s
t
转移到下一状态s
t+1
={g
t
,sinr
t
,b
t-1
},智能体k获得下一个局部观测和奖励:
[0024][0025]
式中,
[0026][0027][0028]
μ1+μ2+μ3=1,
[0029]
η1+η2+η3=1,
[0030]
0≤μ1,μ2,μ3,η1,η2,η3≤1,
[0031]
并将状态转移存储到经验缓冲池dk中,置s
t+1
为当前的状态s
t

[0032]
进一步地,所述步骤s4中,按如下方法更新神经网络参数θk和从dk中随机抽取设定批量的样本送入决策网络,计算损失函数:
[0033][0034]
式中,为目标状态-动作价值函数,a

=argmaxa′
∈a
q(s
t+1
,a

;θk),采用adam优化器来最小化l(θk),从而实现参数θk的更新;同时每间隔m个连续时间步将θk复制给目标网络权重参数
[0035]
进一步地,所述adam优化器的学习率为δ=0.001。
[0036]
与现有技术相比,本发明具有以下有益效果:提供了一种基于深度强化学习的能量采集认知物联网资源分配方法,该方法建模认知物联网的资源分配问题为强化学习模型,并将lstm网络和经典深度强化学习算法d3qn相结合,加快了收敛速度且能够有效地增强系统的保密性能;智能体采用集中式训练、分布式决策,能够快速适应并学习到认知物联网规律性的变化,实现对能量采集认知物联网资源的最优分配,最大化认知物联网的保密速率,从而增强能量采集认知物联网的通信安全。
附图说明
[0037]
图1为本发明实施例中在underlay模式下的认知物联网系统模型;
[0038]
图2为本发明实施例的方法实现流程图;
[0039]
图3为本发明实施例中强化学习智能体和认知通信环境的交互过程;
[0040]
图4为本发明实施例中基于深度强化学习的能量采集认知物联网资源分配模型结构图;
[0041]
图5为本发明实施例中不同资源分配策略下系统保密速率的变化情况;
[0042]
图6为本发明实施例中次发射机的不同最大发射功率对系统保密速率的影响;
[0043]
图7为本发明实施例中协作干扰器的不同最大发射功率对系统保密速率的影响;
[0044]
图8为本发明实施例中不同奖励折扣因子下的系统保密速率曲线图。
具体实施方式
[0045]
下面结合附图及实施例对本发明做进一步说明。
[0046]
应该指出,以下详细说明都是示例性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0047]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0048]
如图1所示的能量采集认知物联网是一个多载波通信系统,由一个主用户(pu,primary user)、一个次用户(su,secondary user),一个协作干扰器(j,jammer)和一个窃听节点(e,eavesdropper)组成,其中pu由一个主发射机(pt,primary transmitter)和一个主接收机(pr,primary receiver)组成,su由一个次发射机(st,secondary transmitter)和一个次接收机(sr,secondary receiver)。st和j均为能量采集节点,配备有电池和射频能量采集器,并且st以underlay的方式接入pu的频谱。以上的每个节点均配备单天线。射频信号是被pt以广播形式发射出去,且能被st和j采集和存储。假设j发射的干扰信号能够在sr处被消除,但不能被窃听节点e消除。假设窃听节点的信道状态信息对于st和j是可知的。
[0049]
每一条链路都由m个子信道构成,以表示这m个子信道编号的集合。系统采用准静态块衰落信道模型,即每个子信道k均服从均值为0,方差为1的瑞丽分布。分别以分别以分别以作为pt-pr、st-sr、st-pr、pt-sr、st-e、pt-st、pt-j、j-e、j-sr所在传输链路的信道增益集合。在每个子信道k上,pt、s和j的发射功率分别为射频信号、st发射的保密信息,以及协作干扰器的干扰信号分别为它们均为独立同分布的循环对称复高斯随机变量,且有对称复高斯随机变量,且有其中
[0050]
每个传输块的长度为t,且被分为能量采集和信息传输两个阶段。分别以和表示st在第t个传输块上两个阶段的长度比例,故有
[0051][0052]
类似地,j在第t个传输块上有
[0053][0054]
在能量采集阶段,st和j从接收到的射频信号中采集能量并存储到电池中。st和j在子信道k上接收到的射频功率为
[0055][0056][0057]
采用非线性能量采集模型以反映更加真实的能量采集场景,则在st和j上有
[0058][0059][0060][0061]
式中:是与功率相关的逻辑函数,a
l
和b
l
是能量采集电路参数,a
l
为能量采集过程达到饱和状态时的最大采集功率。st和j在第t个传输块上的能量因果约束为
[0062][0063][0064][0065][0066]
其中,b
st,max
和b
j,max
分别为st和j的最大电池容量,和分别为st和j在第t个传输块上的初始电池容量。st和j的最大传输功率约束分别为:
[0067][0068][0069]
在信息传输阶段,st向sr传输保密信息,同时e开始窃听该信息;为了实现安全通信的目的,j向e发射干扰信号以降低其窃听服务质量。pr、sr和e在每个子信道k上接收到的信号分别为
[0070][0071]
[0072][0073]
其中,分别为pr、sr、e接收到的噪声信号,且有分别为pr、sr、e接收到的噪声信号,且有在pr、sr和e处的信干噪比(sinr,signaltointerferenceplusnoiseratio)表示为
[0074][0075][0076]
其中,λ1、λ2分别为pr、sr的sinr阈值。
[0077]
在第t个传输块的系统保密速率可表示为
[0078][0079]
式中,
[0080][0081][0082][0083][0084][0085]
基于认知物联网系统模型,在上述约束条件下,最大化系统在l个传输块上的可达保密速率,优化问题如下:
[0086][0087]
s.t.(1),(2),(6),(7),(8),(9)(10),(11),(15),(16),(17)
[0088]
本发明将上述优化问题转化为马尔科夫决策过程(mdp)问题并通过深度强化学习解决。如图2所示,本实施例提供了一种基于深度强化学习的能量采集认知物联网资源分配方法,包括以下步骤:
[0089]
1)搭建能量采集认知物联网系统模型,并推导出资源分配的数学模型。
[0090]
2)搭建强化学习模型,将次发射机到次接收机、协作干扰器到窃听节点这两条链路的2m条子信道以及一个能量采集时间分配网络t0共建模为2m+1个强化学习智能体,能量
采集认知物联网中的其他部分为强化学习环境,智能体与环境不断进行交互,如图3所示。
[0091]
3)构建基于深度强化学习的能量采集认知物联网资源分配模型,并对其进行训练。
[0092]
4)通过训练好的资源分配模型对认知物联网进行联合能量采集时间和传输功率的最优分配,最大化系统可达保密速率,从而增强认知物联网的通信安全。
[0093]
构建的基于深度强化学习的能量采集认知物联网资源分配模型结构如图4所示。对基于深度强化学习的能量采集认知物联网资源分配模型进行训练,具体包括以下步骤:
[0094]
s1、生成认知物联网的拓扑结构,初始化每条链路的信道增益,回合训练次数n,经验缓冲池dk的最大容量nk,以及决策网络和目标网络权重参数θk、其中其中
[0095]
s2、在每个训练回合的开始,采用随机化方案来更新认知物联网中所有节点的位置,每条链路的信道增益的更新遵循瑞利信道衰落模型,设置该次训练回合的环境初始状态为:
[0096]
s0=s
t
|
t=0
={g
t
,sinr
t
,b
t-1
}
t=0
={g0,sinr0,{b
st,max
,b
j,max
}},#(19)
[0097]
式中,式中,pr、sr、e处的信干噪比集合st和j的电池容量集合并有b-1
={b
st,max
,b
j,max
},其中,为子信道编号集合,为子信道增益,分别为次发射机st和协作干扰器j在第k个子信道的发射功率,b
st,max
和b
j,max
分别为st和j的最大电池容量。
[0098]
s3、在每个训练回合的第t=0,1,2,

,t
max-1个时间步,基于当前环境状态s
t
,每个智能体获得环境局部观测并根据ε-greedy算法采取动作:
[0099][0100]
式中,智能体的动作空间式中,智能体的动作空间c
t
为能量采集时间系数,l1为离散时间层级,l2为离散功率层级,q为估计状态-动作价值函数,p为随机生成的概率,ε∈(0,1)为给定的概率阈值;根据下列公式更新st和j的电池容量:
[0101][0102][0103]
其中,分别为st和j采集到的能量,分别为st和j的可用电池容量,b
st,max
、b
st,max
分别为st和j的最大电池容量,为相关时间系数,t为传输块的长度;
然后基于瑞利信道衰落模型更新信道增益,环境的当前状态s
t
转移到下一状态s
t+1
={g
t
,sinr
t
,b
t-1
},智能体k获得下一个局部观测和奖励:
[0104][0105]
式中,
[0106][0107][0108]
μ1+μ2+μ3=1,#(23c)
[0109]
η1+η2+η3=1,#(23d)
[0110]
0≤μ1,μ2,μ3,η1,η2,η3≤1,#(23e)
[0111]
并将状态转移存储到经验缓冲池dk中,置s
t+1
为当前的状态s
t

[0112]
s4、按如下方法更新神经网络参数θk和从dk中随机抽取设定批量的样本送入决策网络,计算损失函数:
[0113][0114]
式中,为目标状态-动作价值函数,a

=argmaxa′
∈a
q(s
t+1
,a

;θk),采用学习率为δ=0.001的adam优化器来最小化l(θk),从而实现参数θk的更新;同时每间隔m个连续时间步将θk复制给目标网络权重参数
[0115]
训练基于深度强化学习的能量采集认知物联网资源分配模型的算法实现如下所示:
[0116]
[0117][0118]
通过以下仿真进一步说明本发明方法的可行性和有效性。
[0119]
图5示出了在训练阶段认知物联网系统模型在每个训练回合的保密速率变化情况。相比较于其它算法,本发明所提供的方法能够以最好的性能提高保密速率,表明该方法能够有效地增强能量采集认知物联网的通信安全性能。
[0120]
图6、图7分别示出了认知物联网系统模型中的st、j的不同发射功率对系统保密速率的影响。相比较于其他基准算法,本方法将lstm网络和经典强化学习算法d3qn相结合,其在低发射功率的条件下也能有较大的保密速率,这表明本方法能够适应动态变化的认知物联网环境,有效地增强认知物联网的安全性能。
[0121]
图8示出了在本发明所提的方法中不同的奖励折扣因子对系统奖励的影响。从图中可以看出,不同的折扣因子下的系统奖励变化不同,当γ=0.95时系统奖励值最大,表明在该参数下的系统保密性能是最优的。
[0122]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

技术特征:


1.一种基于深度强化学习的能量采集认知物联网资源分配方法,其特征在于,包括:搭建能量采集认知物联网系统模型,并推导出资源分配的数学模型;搭建强化学习模型,将次发射机到次接收机、协作干扰器到窃听节点这两条链路的2m条子信道以及一个能量采集时间分配网络t0共建模为2m+1个强化学习智能体,能量采集认知物联网中的其他部分为强化学习环境,智能体与环境不断进行交互;构建基于深度强化学习的能量采集认知物联网资源分配模型,并对其进行训练;通过训练好的资源分配模型对认知物联网进行联合能量采集时间和传输功率的最优分配。2.根据权利要求1所述的基于深度强化学习的能量采集认知物联网资源分配方法,其特征在于,对基于深度强化学习的能量采集认知物联网资源分配模型进行训练,具体包括以下步骤:s1、生成认知物联网的拓扑结构,初始化每条链路的信道增益,回合训练次数n,经验缓冲池d
k
的最大容量n
k
,以及决策网络和目标网络权重参数θ
k
、其中其中s2、在每个训练回合的开始,随机初始化认知物联网所有节点的位置,更新每条链路的信道增益,设置环境的初始状态为s0;s3、在每个训练回合的第t=0,1,2,

,t
max-1个时间步,基于当前环境状态s
t
,每个智能体k获得环境局部观测并根据ε-greedy算法采取动作更新st和j的电池容量和更新信道增益,当前环境状态s
t
转移到下一状态s
t+1
,智能体k获得下一个局部观测和奖励r
t
;s4、更新神经网络参数θ
k
和即从d
k
中随机抽取设定批量的样本送入决策网络,计算损失函数l(θ
k
),并进行梯度下降最小化l(θ
k
)更新参数θ
k
;每间隔m个连续时间步将θ
k
复制给目标网络权重参数3.根据权利要求2所述的基于深度强化学习的能量采集认知物联网资源分配方法,其特征在于,所述步骤s2中,在每个训练回合的开始,采用随机化方案来更新认知物联网中所有节点的位置,每条链路的信道增益的更新遵循瑞利信道衰落模型,设置该次训练回合的环境初始状态为:s0=s
t
|
t=0
={g
t
,sinr
t
,b
t-1
}
t=0
={g0,sinr0,{b
st,max
,b
j,max
}}式中,式中,pr、sr、e处的信干噪比集合st和j的电池容量集合并有b-1
={b
st,max
,b
j,max
},其中,为子信道编号集合,为子信道增益,分别为次发射机st和协作干扰器j在第k个子信道的发射功率,b
st,max
和b
j,max
分别为st和j的最大电池容量。
4.根据权利要求2所述的基于深度强化学习的能量采集认知物联网资源分配方法,其特征在于,所述步骤s3中,在每个训练回合的第t=0,1,2,

,t
max-1个时间步,基于当前环境状态s
t
,每个智能体获得环境局部观测并根据ε-greedy算法采取动作:式中,智能体的动作空间智能体的动作空间c
t
为能量采集时间系数,l1为离散时间层级,l2为离散功率层级,q为估计状态-动作价值函数,p为随机生成的概率,ε∈(0,1)为给定的概率阈值;根据下列公式更新st和j的电池容量量其中,分别为st和j采集到的能量,分别为st和/的可用电池容量,b
st,max
、b
st,max
分别为st和j的最大电池容量,为相关时间系数,t为传输块的长度;然后基于瑞利信道衰落模型更新信道增益,环境的当前状态s
t
转移到下一状态s
t+1
={g
t
,sinr
t
,b
t-1
},智能体k获得下一个局部观测和奖励:式中,式中,μ1+μ2+μ3=1,η1+η2+η3=1,0≤μ1,μ2,μ3,η1,η2,η3≤1,并将状态转移存储到经验缓冲池d
k
中,置s
t+1
为当前的状态s
t
。5.根据权利要求2所述的基于深度强化学习的能量采集认知物联网资源分配方法,其特征在于,所述步骤s4中,按如下方法更新神经网络参数θ
k
和从d
k
中随机抽取设定批量的样本送入决策网络,计算损失函数:式中,为目标状态-动作价值函数,a

=argmax
a

∈a
q(s
t+1
,a

;θ
k
),采用adam优化器来最小化l(θ
k
),从而实现参数θ
k
的更新;同时每间隔m个连续时间步将θ
k
复制给目标网络权重参数6.根据权利要求5所述的基于深度强化学习的能量采集认知物联网资源分配方法,其特征在于,所述adam优化器的学习率为δ=0.001。

技术总结


本发明涉及一种基于深度强化学习的能量采集认知物联网资源分配方法,包括:搭建能量采集认知物联网系统模型,并推导出资源分配的数学模型;搭建强化学习模型,将次发射机到次接收机、协作干扰器到窃听节点这两条链路的2m条子信道以及一个能量采集时间分配网络共建模为2m+1个强化学习智能体,能量采集认知物联网中的其他部分为强化学习环境,智能体与环境不断进行交互;构建基于深度强化学习的能量采集认知物联网资源分配模型,并对其进行训练;通过训练好的资源分配模型对认知物联网进行联合能量采集时间和传输功率的最优分配。该方法有利于对能量采集认知物联网资源进行最优分配。分配。分配。


技术研发人员:

林瑞全 刘佳鑫 丘航丁 王俊 鲍家旺 王锐亮

受保护的技术使用者:

福州大学

技术研发日:

2022.10.19

技术公布日:

2023/2/23

本文发布于:2024-09-23 18:32:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/60718.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:认知   能量   信道   分配
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议