基于环境感知学习策略的家禽饲养监测无线传感网络发送速率调整方法

著录项
  • CN201910322329.2
  • 20190422
  • CN110337082A
  • 20191015
  • 北京邮电大学
  • 张洪光;刘宇泓;张莹;刘元安;谢刚;冉静;刘华剑
  • H04W4/38
  • H04W4/38 H04W28/02 H04W28/22 H04W52/02 G06N20/00

  • 北京市海淀区西土城路10号
  • 北京(11)
摘要
本发明公布了一种基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法。所述的方法包括:对无线传感网络所处的环境进行模型建立,建立环境变量(例如温湿度)与家禽的生长状态(体重增长率、产蛋率、死亡率)之间的预测模型;每个传感器节点通过对环境数据进行感知,使用模糊系统对家禽饲养的环境状态进行推理,根据环境状态的不同确定节点所处的模式,确定节点的传输速率界限;进一步寻网络的最优状态,传感器节点使用Q学习算法对自身发送速率进行自适应调整。其中,传感器节点统计自身的丢包率、数据有效率、数据完整性、能耗水平作为Q学习的回报函数输入,选择当前状态的速率调整动作。本发明的实施例,不仅降低了网络拥堵也使得网络整体寿命达到最优,具有广泛的应用价值。
权利要求

1.基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,其特征在于:所述的包括以下步骤:

第一步,通过环境感知,对家禽生长指标进行预测无线传感网络所处环境表示为E(Tin,Hin),其中Tin为外部环境输入,Hin为外部湿度输入。通过回归方程,建立温湿度与家禽的死亡率、产蛋率、体重增长率之间的联系,通过当前环境的信息预测家禽的死亡率、产蛋率、体重增长。

第二步,根据环境预测的家禽的生长状态,使用模糊推理确定环境状态。本发明的环境状态模糊推理系统,首先使用三个隶属度函数分别对家禽的生长指标(死亡率、产蛋率、体重增长)进行界限划分,三个隶属度函数分别输出对应指标的标签。根据家禽生长指标的模糊输出,使用规则将环境映射为SEnv←{“好”,“一般”,“较差”,“极差”},SEnv表示环境状态。

第三步,根据环境的映射结果,确定传感器节点所处的工作模式。根据环境映射结果SEnv,通过对应规则,确定处于SEnv环境状态下的传感器节点的发送模式,不同的工作模式具有不同的发送速率的上下限。在本发明中,传感器节点的发送模式包括“低速率发送模式”、“较低速率发送模式”、“较高速率发送模式”、“高速率发送模式”。

第四步,传感器节点初始化Q-Value矩阵,初始化发送速率为工作模式中的均值速率,即vi0=(vimax+vimin)/2,其中vimax为节点处于i模式时的最大发送速率,vimin为节点处于i模式时的最小发送速率。

第五步,传感器节点每τ时刻,更新一次自身的网络性能指标,并计算此时的无线传感器节点的延时回报值。具体的,使用PD表示τ时间内包到达率,PA表示τ时间内数据有效率,PI表示τ时间内数据完整性,E表示τ时间内总能耗,Ue表示τ时间内能量的效用值。R(si,ai)表示在si状态下使用ai动作所能获得的延时回报值。

第六步,传感器节点使用Q学习的方法对网络状态进行感知,并更新Q-Value矩阵。更新公式如下:

Qt+1(si,ai)←Qt(si,ai)+α×(R(si,ai)+γ×max(Q(si+1,ai+1))) (1)

其中,Qt(si,ai)表示在t时刻下,节点在si状态选择ai动作的效用值。si∈S,S为状态空间,ai∈A,A表示动作集合,在发明中表示发送速率r的动作。α,(0≤α≤1)表示Q学习的学习率。γ,(0≤γ≤1)表示未来预计奖励对当前奖励的重要性。

第七步,无线传感节点选择自身动作,以寻求达到最好的网络状态。节点通过搜索Q-Value矩阵,选择Q-Value最高的动作作为选择动作进行发送速率调整。

2.根据权利要求1所述的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,其特征在于,所述的家禽生长预测模型建立。具体是,记环境模型为E(Tin,Hin),其中Tin为外部环境输入,Hin为外部湿度输入。通过回归方程进行环境对家禽生长状态的预测,其中MR为家禽死亡率,EPR为家禽产蛋率,BW为家禽体重,Age为家禽年龄。THI为温湿度指示值,THI=1.8×Tin-(1-Hin)×(Tin-14.3)+32。使用的家禽生长指标预测方程如下:

MR=-2.14+0.0346×THI (2)

EPR=116-0.256×THI-0.0528×Age (3)

BW=5.0748×Tin+25.0786×Age-220.1379 (4) 。

3.根据权利要求1所述的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,其特征在于,所述的使用家禽预测模型预测的家禽的生长状态确定环境所处模式。具体的,记家禽的死亡率为MD,产蛋率为EPR,体重增长为BM,将三个变量MD,EPR,BM的模糊语言划分为2级,分别为{“UN”,“N”},对应的模糊语言词汇为{非正常,正常},对应的模糊理论域为{-1,1},确定了三个模糊变量的论域以及模糊集后,选择模糊语言变量的隶属度函数,确定其隶属度。通过家禽生长状态指标的模糊输出,使用推理规则,得到环境的状态。环境的输出分成四个等级{“VG”,“G”,“B”,“VB”},即{“好”,“一般”,“较差”,“极差”},因此环境状态的模糊推理输出为SEnv←{“好”,“一般”,“较差”,“极差”}。

4.根据权利要求1所述的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,其特征在于,由环境映射结果确定传感器节点所处的工作模式。具体的,无线传感器节点通过传感器采集自身所处环境的参数,通过预测家禽生长状态以及状态划分规则,并且得到此时节点所处的环境状态。由环境状态确定节点所处的工作模式,规则为:(1)如果环境映射结果为“好”,则节点选择“低速率发送模式”;(2)如果环境映射结果为“一般”,则节点选择“较低速率发送模式”;(3)如果环境映射结果为“较差”,则节点选择“较高速率发送模式”;(4)如果环境映射结果为“差”,则节点选择“高速率发送模式”。

5.根据权利要求1所述的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,其特征在于,传感器节点每τ时刻更新自身网络性能指标。具体的,在本发明中,所感知的网络环境信息为包到达率,数据有效率,数据完整性以及能耗水平。包到达率PD由得到,其中Ntx为节点发送的数据包个数,Nrx为接收器接收的数据包个数。数据有效率PA,即采集到的有效数据的比率。在本发明中使用收集到的有效的数据量Neffect与收集到的总数据量Ntotal的比值来度量数据有效率:τ时间内总能耗E,在本发明中,节点需要计算自身所使用的能耗,使用了功率乘以时间的公式来进行描述:E=ttxPtx+trxPrx+tidlePidle+tslpPslp。

6.根据权利要求1所述的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,其特征在于,传感器节点计算在当前状态下选择当前动作所带来的回报值。具体是,在本发明中,关注的是家禽监测系统的网络拥塞减小以及节点能量降低。因此回报值为网络性能指标以及节点自身能耗的结合。回报值函数如下:

R=wd×PD+wa×PA+wi×PI+we×Ue (5)

其中,PD表示τ时间内包到达率,PA表示τ时间内数据有效率,PI表示τ时间内数据完整性,E表示τ时间内总能耗,Ue表示τ时间内能量的效用值。关于Ue,设传感器工作时电池的最大能量容量为Emax,最小能量容量为Emin,则有

7.根据权利要求1所述的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,其特征在于,无线传感节点选择自身动作,以寻求达到最好的网络状态。具体是,无线传感网络在获取到延迟回报值以后,将学习经验通过更新Q-Value矩阵的方式进行保存,Q-Value矩阵中的Q(si,ai)表示在Si状态下选择动作ai的效用值,Q越大表示性能越好。本发明中通过搜索Q-Value矩阵,选择当前状态下能获得最大Q值的动作作为节点执行动作,选择方式如下:

8.根据权利要求1所述的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,其特征在于,所述装置包括:

发送单元:用于进行家禽饲养环境监测数据的发送。

接收单元:用于接收各无线传感器节点发送过来的家禽饲养环境监测数据。

环境感知单元:用于各无线传感器节点感知所处环境的信息预测家禽的生长状态,并依据家禽的生长状态确定此时的环境状态。

工作模式感知单元:用于各无线传感器节点使用感知的环境状态确定自身所处的工作模式,通过工作模式确定自身的发送速率上下限。

自主学习单元:用于无线传感器节点采用Q学习方法,通过感知所处网络状态,计算延时回报值并且更新Q-Value矩阵。

速率调节单元:用于无线传感器节点搜索Q-Value矩阵选择最佳动作进行发送速率调整。

说明书
技术领域

本发明属于无线传感器网络技术领域,特别涉及基于环境感知学习策略的无线传感网络发送速率调整方法。

家禽是人类获取肉质和蛋白质的一个重要来源。在高温高湿环境下,动物很容易产生热应激,经历热应激的动物往往通过限制饲料摄入量来减少产热,从而对生产性能和健康状况产生不利影响。热应激性通常是由于室内温度和相对湿度的变化引起的,因此在养殖企业饲养家禽时,通常都会使用无线传感网络对家禽的生长环境进行监测。和传统有线网络不同,无线传感网络节点容易受到干扰,而且由于体积小,所储存的电量也是极为有限的,因此无线传感网络的数据传输质量和系统生命周期是研究者关注的重点。

为了减少节点的空闲监听能耗,研究者开始对传感器节点的占空比进行优化,提出了一系列的睡眠/唤醒MAC协议,比如S-MAC、T-MAC以及一些自适应占空比调节MAC协议。通过增加节点的睡眠时长,减少节点空闲监听时长从而减少了节点的空闲监听能量。但是增加睡眠时长带来了往往就是高时延和低网络吞吐量。

除了调节占空比的方法之外,降低网络竞争也是降低网路能耗提升网络寿命的一种方法,比如设置竞争窗口机制,每个传感器节点根据其邻居的数量选择最优的初始竞争窗口大小。然后根据当前流量负载调整初始竞争窗口,降低冲突概率,同时采用快速退避机制,减少退避过程中的空闲监听时间,既减少了能耗又降低了网络传输时延。

另外也有在聚簇集上进行相关的能量优化工作,聚簇可以减少网络整体能力的消耗。针对无线传感器网络的本地监视区域中的目标监视算法的能量高效的自适应传感器调度。为了防止单个节点过度调度,优先选择一个由决策函数生成的具有高计算值的节点作为任务节点来平衡动态集的本地能量消耗,并且选择具有最高值的节点作为集头。但是星型网络中,这种算法并不适用。

本发明实施例提供基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法。在运行期间,各无线传感器节点具有自组织性,拥有自我优化和自学能力。运行期间,各无线传感器节点通过环境感知以及家禽生长状态预测确定自身所处工作模式,不需要人为干预。在确定自身工作模式后,在工作模式所规定的速率范围内进行无线传感网络状态学习,以便减少无线传感网络拥塞以及减少节点能耗。

为达到上述目的,本发明实例提供了基于环境感知学习策略的无线传感网络发送速率调整方法,环境感知应用于无线传感网络节点确定自身所处工作模式,Q学习用于节点感知网络状态进行自身发送速率调整,方法包括:

根据家禽饲养的环境进行模型建立,记环境模型为E(Tin,Hin),其中Tin为外部环境输入,Hin为外部湿度输入,并将环境与家禽生长状态建立联系。

具体的,本发明中,使用线性回归方程将环境与家禽的生长状态建立联系。考虑家禽的生长状态有以下指标:家禽死亡率、家禽产蛋率、家禽体重。使用 MR表示家禽死亡率,EPR表示家禽产蛋率,BW表示家禽体重,Age表示家禽年龄。使用以下回归方程进行描述,其中THI为温湿度指示值,且有 THI=1.8×Tin-(1-Hin)×(Tin-14.3)+32。

MR=-2.14+0.0346×THI (1)

EPR=116-0.256×THI-0.0528×Age (2)

BW=5.0748×Tin+25.0786×Age-220.1379 (3)

根据环境对家禽的生长状态的影响,本发明使用家禽的生长状态确定环境所处的环境。

具体的,使用家禽的死亡率MR、产蛋率EPR、体重增长BW进行家禽生长状态的模糊推理,将三个变量MD,EPR,BM的模糊语言划分为三级,分别为 {LOW,N,HIGH},对应的模糊语言词汇为{低,正常,高},对应的模糊理论域为{-1,0,1},确定了三个模糊变量的论域以及模糊集后,选择模糊语言变量的隶属度函数。以三角形隶属度函数进行计算,公式如下:

分别计算MR、EPR、BW的三角形隶属度函数。本发明使用的模糊推理规则有 27种,模糊系统输出标签有SEnv←{“VG”,“G”,“B”,“VB”}。

需要说明的是,将环境状态表示为家禽状态组合,即SEnv←(SMR,SEPR,SBW),其中SEnv为环境状态,SMR为死亡率状态(正常或者非正常),SEPR为产蛋率状态 (正常或者非正常),SBW为产蛋率状态(正常或者非正常)。因此环境状态可以根据家禽的三个状态的正常个数划分为四个状态,SEnv←{“VG”,“G”,“B”,“VB”},即SEnv←{“好”,“一般”,“较差”,“极差”}。显然,“好”代表三个指标正常,“极差”代表三个指标都不正常。

根据环境的映射结果,确定传感器节点所处的工作模式,不同的工作模式具有不同的发送速率的上下限。

具体的,显然在实际家禽饲养监测中,对家禽生长不利的环境是人们需要密切关注的,需要提供快速的反应对家禽的生长环境进行改善以减少对家禽生长的不利。而对家禽生长有利的环境信息则相对不需要密切的关注。因此本发明中,根据环境状态确定无线传感器节点的发送状态的规则如下:(1)如果环境映射结果为“好”,则节点选择“低速率发送模式”;(2)如果环境映射结果为“一般”,则节点选择“较低速率发送模式”;(3)如果环境映射结果为“较差”,则节点选择“较高速率发送模式”;(4)如果环境映射结果为“差”,则节点选择“高速率发送模式”。

需要说明的是,节点所确定的工作模式只是对自身传感器采集数据发送速率范围的确定,随着节点所处环境的改变,所处的模式可能也会发生改变。

无线传感器节点根据网络状态的反馈获得自学能力,通过和无线传感网络环境的反复交互不断更新状态,调整自身的发送速率,以寻求更低的节点能耗以及更好的网络性能。

具体的,为各无线传感器节点初始化Q-Value矩阵,初始化发送速率为工作模式中的均值速率,即vi0=(vi max+vi min)/2,其中vi max为节点处于i模式时的最大发送速率,vi min为节点处于i模式时的最小发送速率。为各无线传感器节点初始化反馈值,Q-Value矩阵是Q学习的主要构件,所以必须保持实时更新。

需要说明的是,在初始阶段,由于没有以往经验的保存,在选择节点动作时,采用平均概率随机的方式随机选择一种动作。

无线传感网络节点在获取到自身所处网络环境指标之后,更新当前状态下选择当前动作的延迟回报值。

具体的,传感器节点每τ时刻,更新一次自身的网络性能指标。使用PD 表示τ时间内包到达率,PA表示τ时间内数据有效率,PI表示τ时间内数据完整性,E表示τ时间内总能耗。

需要说明的是,包成功到达率PD体现数据传输的可靠性。包成功到达率是通过使用成功从源传递到目标的数据包的百分比来度量的。假设从子节点发送的数据包的数量为Ntx,接收器接收到数据包的数量为Nrx,包成功传输率为PD。则有:

需要说明的是,数据有效率PA,即采集到的有效数据的比率。在本发明中使用收集到的有效的数据量Neffect与收集到的总数据量Ntotal的比值来度量数据有效率。假设接收到冗余的数据量为Nredun,冗余数据的数据量是传感器节点通过比对此次发送数据与上一次发送数据的差值来判断,因此可以得到有效数据量Neffect=Ntotal-Nredun,则有:

需要说明的是,τ时间内总能耗E。在本发明中,节点需要计算自身所使用的能耗,使用了功率乘以时间的公式来进行描述,则有:

E=ttxPtx+trxPrx+tidlePidle+tslpPslp (5)

在本发明中,ttx表示无线传感器节点发送数据的时长,trx表示无线传感器节点接收数据的时长,tidle表示无线传感器节点空闲监听的时长,tslp表示无线传感器节点休眠时长。相应的,Ptx表示无线传感器节点发送数据的功率,Prx表示无线传感器节点接收数据的功率,Pidle表示无线传感器节点空闲监听的功率,Pslp表示无线传感器节点休眠功率。

传感器节点计算在当前状态下选择当前动作所带来的回报值。

具体的是,Q学习是一种无监督学习,节点通过感知网络环境进行自身状态的调整,其中影响状态选择的重要一步就是回报值的确定。在本发明中,关注的是家禽监测系统的网络拥塞减小以及节点能量降低。因此回报值为网络性能指标以及节点自身能耗的结合。回报值函数如下:

R=wd×PD+wa×PA+wi×PI+we×Ue (6)

需要说明的是,Ue为能量的效用函数。wd,wa,wi,we为包到达率、数据有效率、数据完整性和能量的效用函数的权重,且有wd+wa+wi+we=1。关于Ue,设传感器工作时电池的最大能量容量为Emax,最小能量容量为Emin,则有

传感器节点使用Q学习的方法对网络状态进行感知,并更新Q-Value矩阵。

具体的是,在Q学习中Q-Value矩阵是Agent自身获取到的经验的保存,给Agent选择自身动作提供经验支持。Q-Value矩阵的行数表示无线传感器节点的状态数。Q-Value矩阵中的Q值,为动作效用函数,用于评价在特定状态下采取某个动作的优劣。在本发明中,Q-Value矩阵是无线传感器节点学习经验的保存,无线传感器节点通过不断的学习,根据动作产生的回报值更新动作效用Q值,即更新Q-Value矩阵,以不断优化网络性能以及减少自身能耗。在本发明中,Q-Value矩阵的更新公式如下:

Qt+1(si,ai)←Qt(si,ai)+α×(R(si,ai)+γ×max(Q(si+1,ai+1))) (8)

其中,Qt(si,ai)表示在t时刻下,节点在si状态选择ai动作的效用值。si∈S,S为状态空间,ai∈A,A表示动作集合,在发明中表示发送速率r的变化。α,(0≤α≤1) 表示Q学习的学习率。γ,(0≤γ≤1)表示未来预计奖励对当前奖励的重要性。

需要说明的是,本发明采用的学习率为α=0.1,因为学习率α,(0≤α≤1)的大小决定了每次学习的步长,在本发明中,如果α选择过大,容易导致无线传感器节点的发送速率无法收敛到最优速率,如果α选择过小,容易导致无线传感器节点的收敛速度太慢。

无线传感节点选择自身动作,以寻求当前工作模式下的最低能量消耗以及最好网络性能。

具体的,在无线传感网络在获取到延迟回报值以后,将学习经验通过更新 Q-Value矩阵的方式进行保存,Q-Value矩阵中的Q(si,ai)表示在Si状态下选择动作ai的效用值,Q越大表示性能越好。本发明中通过搜索Q-Value矩阵,选择当前状态下能获得最大Q值的动作作为节点执行动作,即:

为达到上述目的,本发明实例提供了一种环境感知学习策略调整发送速率的装置,应用于无线传感器节点,所述装置包括:

发送单元:在本发明中,用于进行家禽饲养环境监测数据的发送。

接收单元:在本发明中,用于接收各无线传感器节点发送过来的家禽饲养环境监测数据。

环境感知单元,在本发明中,用于各无线传感器节点感知所处环境的信息,并且使用环境信息预测家禽的生长状态,并依据家禽的生长状态确定此时的环境状态。

工作模式感知单元:在本发明中,用于个无线传感器节点使用感知的环境状态确定自身所处的工作模式,通过工作模式确定自身的发送速率上下限。

自主学习单元:在本发明中,用于无线传感器节点采用Q学习方法,通过感知所处网络状态,计算延时回报值并且更新Q-Value矩阵。

速率调节单元:在本发明中,用于无线传感器节点搜索Q-Value矩阵选择最佳动作进行发送速率调整。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为家禽饲养监测无线传感网络示意图;

图2为本发明实施例提供的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法的流程示意图。

图3为环境感知改变节点工作模式的流程示意图

图4为本发明实例提供的一种基于环境感知学习策略无线传感网络发送速率调整装置的结构示意图。

图5为本发明使用模糊推理预测环境状态时的家禽生长指标的隶属度函数图像。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

依据附图,对本发明的技术方案作具体说明。

所述的基于环境感知学习策略的家禽饲养监测无线传感网络的发送速率调整方法,包括以下步骤:

S101,通过环境感知对家禽生长状态进行预测。具体的,无线传感器节点使用温湿度传感器对环境的温湿度进行采集,得到环境变量E(Tin,Hin),其中Tin为外部环境输入,Hin为外部湿度输入。使用采集的环境温湿度对家禽的生长状态进行预测。在本发明中,考虑家禽的生长状态指标有:家禽死亡率MR,家禽产蛋率EPR,家禽体重BW。通过在真实家禽饲养场环境中,大量收集温湿度与家禽死亡率、产蛋率、家禽体重的数据,对其进行线性回归,即可得到环境对家禽生长状态的预测方程,本实例中所使用的预测方程如下,其中THI为温湿度指示值,且有THI=1.8×Tin-(1-Hin)×(Tin-14.3)+32。

MR=-2.14+0.0346×THI (10)

EPR=116-0.256×THI-0.0528×Age (11)

BW=5.0748×Tin+25.0786×Age-220.1379 (12)

S102,根据家禽的生长指标进行模糊推理确定环境状态。具体的,首先我们需要对家禽的生长状态进行划分,在具体实施时,可以根据对家禽饲养的要求对划分规则进行调整。本实例中所使用划分规则如下:

(1)死亡率MR,其三角形隶属度函数图像如图5(1)所示,输出为{“UN”, “N”}。

(2)产蛋率EPR,其三角形隶属度函数图像如图5(2)所示,输出为{“UN”, “N”}。

(3)体重增长BW,其三角形隶属度函数图像如图5(3)所示,输出为 {“UN”,“N”}。

环境状态的输出便签有四种,{“VG”,“G”,“B”,“VB”},其中“VG”表示环境状态为“好”,“G”为“一般”,“B”为“较差”,“VB”为“差”。我们提出的方案中的模糊规则概述如下:

1.IF(MR is“N”)AND(EPR is“N”)AND(BW is“N”)THEN(Output is“VG”)

2.IF(MR is“UN”)AND(EPR is“N”)AND(BW is“N”)THEN(Output is“G”)

3.IF(MR is“N”)AND(EPR is“UN”)AND(BW is“N”)THEN(Output is“G”)

4.IF(MR is“N”)AND(EPR is“N”)AND(BW is“UN”)THEN(Output is“G”)

5.IF(MR is“UN”)AND(EPR is“UN”)AND(BW is“N”)THEN(Output is“B”)

6.IF(MR is“UN”)AND(EPR is“N”)AND(BW is“UN”)THEN(Output is“B”)

7.IF(MR is“N”)AND(EPR is“UN”)AND(BW is“UN”)THEN(Output is“B”)

8.IF(MR is“UN”)AND(EPR is“UN”)AND(BW is“UN”)THEN(Output is “VB”)

S103,节点通过所处环境的状态确定自身工作模式。具体的,由于在饲养环境中,人们所关心的是非常规数据,需要对非常规数据提供较高的传输速率。由于,对应环境状态为SEnv←{“好”,“一般”,“较差”,“极差”},根据环境状态确定无线传感器节点的发送状态的规则如下:

(1)如果环境映射结果为“好”,则节点选择“低速率发送模式”;

(2)如果环境映射结果为“一般”,则节点选择“较低速率发送模式”;(3)如果环境映射结果为“较差”,则节点选择“较高速率发送模式”;(4)如果环境映射结果为“差”,则节点选择“高速率发送模式”。

对应于不同的发送模式,具有不同的发送速率上下限,在本实例中,设定基础发送速率为vb,则:

(1)低速率发送模式所确定的速率v1的范围为0≤v1≤vb。

(2)较低速率发送模式所确定的速率v2的范围为vb≤v2≤2vb。

(2)较高速率发送模式所确定的速率v3的范围为2vb≤v3≤3vb。

(2)低速率发送模式所确定的速率v4的范围为3vb≤v4≤4vb。

S104,节点使用Q学习的方法对网络环境进行学习,对自身进行初始化,具体的,为各无线传感器节点初始化Q-Value矩阵为0矩阵,初始化发送速率为工作模式中的均值速率,即vi0=(vi max+vi min)/2,其中vi max为节点处于i模式时的最大发送速率,vi min为节点处于i模式时的最小发送速率。初始化各无线传感器节点的反馈回报值,Q-Value矩阵是Q学习的主要构件,所以必须保持实时更新。在初始阶段,由于没有以往经验的保存,在选择节点动作时,采用平均概率随机的方式随机选择一种动作。

S105,节点根据网络状态获得延时回报值。具体的,传感器节点每τ时刻,更新一次自身的网络性能指标。使用PD表示τ时间内包到达率,PA表示τ时间内数据有效率,PI表示τ时间内数据完整性,E表示τ时间内总能耗。在本发明中,关注的是家禽监测系统的网络拥塞减小以及节点能量降低。因此回报值为网络性能指标以及节点自身能耗的结合。使用 R=wd×PD+wa×PA+wi×PI+we×Ue计算延迟回报值。

需要说明的是,Ue为能量的效用函数。wd,wa,wi,we为包到达率、数据有效率、数据完整性和能量的效用函数的权重,且有wd+wa+wi+we=1。包成功到达率是通过使用成功从源传递到目标的数据包的百分比来度量的。在本实例中使用τ时间内收集到的有效的数据量Neffect与收集到的总数据量Ntotal的比值来度量数据有效率。在本实例中使用功率乘以时间的公式来进行描述节点的能耗:E=ttxPtx+trxPrx+tidlePidle+tslpPslp,其中ttx表示无线传感器节点发送数据的时长, trx表示无线传感器节点接收数据的时长,tidle表示无线传感器节点空闲监听的时长,tslp表示无线传感器节点休眠时长。相应的,Ptx表示无线传感器节点发送数据的功率,Prx表示无线传感器节点接收数据的功率,Pidle表示无线传感器节点空闲监听的功率,Pslp表示无线传感器节点休眠功率。

S106,节点对Q-Value矩阵进行更新。具体的,Q-Value矩阵更新公式为 Qt+1(si,ai)←Qt(si,ai)+α×(R(si,ai)+γ×max(Q(si+1,ai+1))),其中Qt(si,ai)表示在t时刻下,节点在si状态选择ai动作的效用值。si∈S,S为状态空间,ai∈A,A表示动作集合,在发明中表示发送速率r的变化。α,(0≤α≤1)表示Q学习的学习率。

γ,(0≤γ≤1)表示未来预计奖励对当前奖励的重要性。

需要说明的是,本实例中采用的学习率α=0.1,折扣值γ=0.2。状态集表示节点所处的环境映射状态,动作集合为速率的调高、调低、不动。

S107,节点通过所有Q-Value矩阵选择最佳动作。具体的本发明中通过搜索Q-Value矩阵,选择当前状态下能获得最大Q值的动作作为节点执行动作,即:

本文发布于:2024-09-24 02:28:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/84403.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议