基于强化学习的多维度资源协同分配方案

doi:10.3969/j.issn.1003-3114.2022.04.009
引用格式:郑青碧ꎬ邓娟ꎬ刘奕彤ꎬ等.基于强化学习的多维度资源协同分配方案[J].无线电通信技术ꎬ2022ꎬ48(4):638-645.
[ZHENGQingbiꎬDENGJuanꎬLIUYitongꎬetal.AMulti ̄dimensionalResourceCollaborativeAllocationSolutionofBaseStationsBasedonReinforcementLearning[J].RadioCommunicationsTechnologyꎬ2022ꎬ48(4):638-645.]
基于强化学习的多维度资源协同分配方案
郑青碧1ꎬ邓㊀娟1ꎬ刘奕彤2ꎬ田开聪2ꎬ高月红2ꎬ邵泽才1ꎬ刘光毅1
(1.中国移动通信有限公司研究院未来研究院ꎬ北京100053ꎻ
2.北京邮电大学信息与通信工程学院ꎬ北京100032)
收稿日期:2022-03-30
基金项目:国家重点研发计划(2020YFB1806800)ꎻ北京邮电大学-中国移动研究院联合创新中心
FoundationItem:NationalKeyResearchandDevelopm
entProgramofChina(2020YFB1806800)ꎻBeijingUniversityofPostsandTelecommunications-ChinaMobileResearchInstituteJointInnovationCenter
摘㊀要:算网融合是未来移动通信网络的发展趋势ꎬ面向未来更高实时性的业务需求ꎬ6G无线网络需要实现通信与计算的深度融合ꎮ一种可能的模式是内部具有计算资源ꎬ并高效协同调配通信与计算资源ꎮ随着部署规模的增大㊁计算业务量的逐步增加ꎬ计算资源的能耗问题将成为6G无线网络节能的潜在问题ꎮ调研发现ꎬ目前无线通信网络的节能方案大多针对通信业务ꎬ对计算资源的节能方案研究相对较少ꎬ未来6G无线网络则需要同时考虑通信业务与计算业务ꎬ将能效作为进行通算资源协同分配的优化目标之一ꎮ考虑到方案具有动作空间较大㊁动作输出为离散确定值的特性ꎬ提出了一种基于强化学习的6G通算资源协同分配方案ꎬ并对系统能耗进行了建模ꎬ方案奖励由业务特征㊁接入用户情况等信息确定ꎬ同时对比了智能模型的迭代优化频次对方案性能的影响ꎮ在多小区通信环境下进行了仿真ꎬ结果表明ꎬ该方案可以在满足业务性能需求(含执行业务的时延㊁RSRP等)的前提下ꎬ将系统能耗节约46.98%ꎬ并且ꎬ所采用的智能模型通过高频样本提供和迭代优化可以获得更优的性能
关键词:6Gꎻ算网融合ꎻAIꎻ通算资源协同中图分类号:TN929.5㊀㊀㊀文献标志码:A㊀㊀㊀开放科学(资源服务)标识码(OSID):
文章编号:1003-3114(2022)04-0638-08
AMulti ̄dimensionalResourceCollaborativeAllocationSolutionof
蜂鸣器驱动电路BaseStationsBasedonReinforcementLearning
ZHENGQingbi1ꎬDENGJuan1ꎬLIUYitong2ꎬTIANKaicong2ꎬGAOYuehong2ꎬSHAOZecai1ꎬLIUGuangyi1
(1.FutureResearchLabꎬChinaMobileCommunicationInstituteꎬBeijing100053ꎬChinaꎻ
2.SchoolofInformationandCommunicationEngineeringꎬBeijingUniversityofPostsandTelecommunicationsꎬBeijing100032ꎬChina)Abstract:Integrationofcomputingpowerandnetworkingisthefuturedeve
lopmenttrendofmobilecommunicationnetworks.Facing
higherreal ̄timeservicerequirementinthefutureꎬ6Gwirelessnetworkneedstorealizedeepintegrationofcommunicationandcompu ̄ting.Onepossiblemodeisthatthebasestationhascomputingresourcesandallocatecommunicationandcomputingresourcesefficientlyandcollaboratively.Withtheincreaseofthedeploymentscaleofbasestationandthegradualincreaseofcomputingtrafficꎬenergycon ̄
sumptionofcomputingresourceswillbecomeapotentialenergysavingproblemof6Gwirelessnetworks.Thestudyfoundthatatpresentꎬmostoftheenergy ̄savingsolutionsforwirelesscommunicationnetworksareaimedatcommunicationservicesꎬandtherearerelativelyfewstudiesonenergy ̄savingsolutions
ofcomputingresources.Inthefutureꎬ6Gwirelessnetworksshouldconsiderbothcommunicationservicesandcomputingservicesꎬandtakeenergyefficiencyasoneoftheoptimizationobjectivesofcollaborativeallocationofcommuni ̄cationandcomputingresourcesbybasestations.Consideringthatthesolutionhasthecharacteristicsoflargeactionspaceanddiscretefixedvalueofactionoutputꎬacollaborativeallocationsolutionofcommunicationandcomputingresourcesfor6Gbasestationsispro ̄posedandverifiedbysimulationꎬandthesystemenergyconsumptionismodeled.Theschemerewardisdeterminedbytheservicechar ̄
acteristicsꎬbasestationaccessusersandotherinformation.Atthesametimeꎬtheeffectoftheiterativeoptimizationfrequencyofthe
intelligentmodelonthesimulationperformanceiscompared.Thesimulationiscarriedoutinthemulti ̄cellcommunicationenvironment.Resultsshowthatꎬthissolutioncansave46.98%ofsystemenergyconsumptiononthepremiseofmeetingtheserviceperformancerequirementsꎬsuchasthelatencyofthebasestationexecutionoftheserviceꎬRSRPandotherperformancerequirements.Moreoverꎬitalsoshowsthattheintelligentmodelusedinthesolutioncanobtainbetterperformancethroughhigh ̄frequencysampleprovisionanditerativeoptimization.
Keywords:6GꎻintegrationofcomputingpowerandnetworkingꎻAIꎻcollaborativeofcommunicationandcomputingresources
0㊀引言
随着科技革命和产业变革的深入发展ꎬ算力已成为社会数智化转型的基石ꎬ将直接决定社会智能的发展高度[1]ꎮ随着云计算的快速发展ꎬ企业或个人所需的计算能力可以通过云计算快速地获得[2]ꎮ
在技术不断发展的推动下ꎬ通信技术也在以惊人的速度发展和迭代ꎬ网络作为连接用户㊁数据㊁算力的主动脉ꎬ与算力的融合共生不断深入ꎬ在5G网络的设计中ꎬ计算与通信融合的趋势已经出现ꎮ
传统通信网络中的算力资源主要服务于通信业务ꎬ算力资源集成在设备处理板卡内ꎬ按照通信业务的处理流程进行算力资源的部署和分配[3]ꎮ在5G中ꎬMEC通过边缘计算尝试将算力引入通信中ꎬ无论是SaaS㊁PaaS㊁IaaSꎬ还是连接服务等ꎬ都是外挂式的引入算力ꎬ算力没有真正地与通信协议体系融合ꎮ仅在管理面引入算力ꎬ试图提供较低时延的计算服务ꎬ其网络和计算部分是松耦合设计ꎬ在效率㊁部署成本㊁安全和隐私保护等方面存在进一步提升的空间[4-5]ꎮ未来6G将具有 网络无所不达ꎬ算力无处不在ꎬ智能无所不及 的特点[6]ꎬ6G网络将具有大规模的计算资源ꎬ算力将呈现出泛在化特征ꎬ云㊁边和端侧部署的算力资源将呈现出异构和分布式的特征[6]ꎬ其协同调度需要实时适配网络动态复杂的通信环境ꎬ需要深入到控制面和用户面进行实时支持ꎬ6G网络需要通信与计算在网络架构和协议层面实现更深度的融合ꎮ对于6G无线网络而言ꎬ一种可能的模式是设备内部具有计算资源ꎬ并通过资源协同调配算法高效控制通信和计算资源的调配[3]ꎮ
在上述模式下ꎬ算力的引入给无线通信网络节能带来了潜在的挑战ꎮ比如ꎬ在GPU上运行一个大型T
ransformer模型的碳排放量是626115bsꎬ相当于56个人1年的碳排放量ꎬ大型模型训练的算力需求为PetaFLOPS/s ̄day(即每天进行约10的20次方运算)[7]ꎬ计算开销很高ꎮ假设规模为10000站点ꎬ在该区域内的计算业务忙时ꎬ用户同时发起1000项1080P视频图像的识别业务(8路帧率为30FPS)ꎮ若采用ResNet ̄152模型ꎬ由此产生的算力消耗为265000TeraOPS(TeraOperationsPerSecond)ꎬ则平均每个需消耗3块GPUꎮ按照
NVIDIARTX系列显卡功耗指标(每块GPU的满负载能耗为0.3kW)计算ꎬ则该区域平均每站点的计算能耗约为0.9kWꎬ与当前5G网络的忙时典型能耗(3kW/站)相比ꎬ能耗增加了30%ꎮ因此6G无线网络的节能需要同时考虑数据传输的能耗和数据计算的能耗ꎬ在设计通算融合机制时需要将能效作为一项重要的优化目标ꎮ
1㊀无线网络节能研究
当前ꎬ移动网络节能方案可以划分为节能方案和网络级节能方案ꎮ能耗在移动通信网络能耗中占比较大ꎬ蜂窝系统约60%的能耗由产生ꎬ的能耗大部分由射频产生ꎮ节能又分为硬件能效提升和软件节能ꎬ硬件能效提升降低设备的基础功耗ꎬ软件节能从业务运营方面对资源进行合理调配ꎬ并通过软关断技术(包括符号关断㊁通道关断㊁载波关断以及小区闭锁和深度睡眠)实现无线网设备的节能ꎮ
软件节能的研究主要集中在提高网络能效㊁保障用户服务质量(QualityofServiceꎬQoS)㊁降低算法复杂度三方面ꎮ文献[8]为了降低频繁的模式转换导致的能耗ꎬ从信道状态信息中提取时间相关特征决定开关ꎬ可以在较大的时间尺度下减小网络能耗ꎮ文献[9]提出的节能模型使用过去的移动痕迹确定未来网络负载ꎬ进而确定状态ꎬ在接入过程中利用小区偏置均衡小区间的负载保障QoSꎮ文献[10]在异构M ̄MIMO网络中提出了将强化学习与无线通信服务地图数据结合确定关断策略的方法ꎬ并进行了评估ꎮ
文献[11]针对功率和无线回传带宽ꎬ提出了低复杂度资源调配方法ꎬ提高了网络的能效ꎮ文献[12]在宏㊁微和D2D异构网络场景中ꎬ设计了动态规划的资源调度方案ꎬ降低网络能耗的同时提升了系统吞吐量ꎮ文献[13]在异构云无线接入网络场景下ꎬ
设计了基于在线学习的功率分配
方法ꎬ保证用户服务质量的同时最大化网络能效ꎮ随着业务场景的复杂化和多样化ꎬ网络对算力需求的不断增加ꎬ计算资源成为无线网络的重要资源之
一ꎬ对计算资源的节能研究也成为了业界的重要研究方向ꎮ文献[14]对通信㊁缓存资源㊁计算决策进
行联合优化ꎬ保证一定传输速率的同时最大化平均容忍时延ꎮ文献[15]是在异构无线蜂窝网络场景中ꎬ对计算卸载决策㊁频谱资源分配㊁内容缓存进行优化ꎬ提出了一个分布式解决方案ꎮ文献[16]是在移动边缘计算网络中ꎬ综合考虑计算卸载㊁频谱㊁内容缓存ꎬ最小化计算任务的总时延ꎮ文献[17-18]是在物联网中联合设计通信资源和计算资源ꎬ分别实现最小化平均端到端时延和最小化总能量消耗ꎮ以上对计算能耗的优化主要通过优化计算卸载决策实现对计算资源的调配ꎬ降低计算卸载时延和系统能耗ꎬ在衡量计算资源方面也只是对计算任务进行了简单的数值建模ꎮ这些方案缺乏对算力资源的精准建模ꎮ除此之外ꎬ上述文献研究中很少涉及有关机器学习的计算任务ꎬ任务建模没有考虑到GPU的算力消耗浮点数ꎬ在优化目标中没有将具体单个用户的业务性能需求考虑在内ꎮ
2㊀6G无线网络通算资源分配场景
在信息产业㊁制造业与社会治理等领域的智能化趋势下ꎬ面对未来海量泛在的计算和通信业务ꎬ
6G网络须具备云边协同的强大算力和广泛覆盖的网络连接能力ꎻ而终端用户密度㊁新兴业务流量需求的物理分布不均则对网络的差异化和精细化管理提出更高要求ꎮ为了满足更加丰富的应用场景需求ꎬ6G将是一个低㊁中㊁高多频段协同的全频谱接入系统ꎮ覆盖仍将以10GHz以下为主ꎬ毫米波(70GHz以下)将发挥更重要的作用ꎬ可见光和太赫兹(100GHz以上)将在特定场景下提供超高速率和感知探测等能力ꎮ
为了降低高频站点密集部署导致的网络功耗和成本问题ꎬ同时保证网络广域覆盖性能ꎬ6G网络将引入控制信令与业务数据解耦机制ꎬ如图1所示ꎮ具体而言ꎬ由低频段(如700MHz)控制提供广域的统一信令覆盖ꎬ负责RRC消息㊁物理层信令等控制信令的播发ꎬ降低高频段导致的路径损耗等影响ꎬ保证连续与可靠的连接性与移动性ꎻ由高容量㊁按需开启的高频段(如62.5GHz及以上)数据提供数据和少量必要信令的传输ꎬ降低小区间的干扰及整网能耗
图1㊀控制信令与业务数据解耦机制
Fig.1㊀Decouplingmechanismbetweencontrol
signalingandservicedata
在控制信令与业务数据解耦机制中ꎬ控制具有计算资源和传输控制信令的通信资源ꎬ控制信令包括对连接(通信连接和计算连接)的控制和对资源(通信资源和计算资源)的控制信令ꎻ数据具有计算资源和传输业务数据的通信资源ꎬ业务数据包括通信业务数据和计算业务数据ꎮ控制与业务高效协作进行通信与计算资源的协同调配ꎬ从而实现通信资源与计算资源在控制面的深度融合ꎮ针对流量潮汐㊁业务需求差异㊁用户移动行为等造成的通信和计算请求忙闲不均现象ꎬ考虑计算资源的高耗能特性ꎬ需实施精细化㊁智能化的资源分配策略ꎬ以利用有限的边缘资源有效应对用户对通信时延㊁计算任务精度等方面的要求ꎬ同时通过休眠㊁载波关断等技术动态调整运行状态ꎬ提升网络能效ꎮ
现有节能方案均没有考虑的计算资源消耗ꎬ不适用于上述6G无线网络中计算与通信资源的深度融合场景ꎮ6G需要在保障业务性能的同时ꎬ合理分配通信和计算资源ꎬ达到提升系统能效的目的ꎮ
面向6G无线网络通算融合场景ꎬ本文提出了一种通算资源协同分配技术方案ꎬ以用户业务质量和能耗为优化目标统筹分配多通信和计算资源ꎮ
3㊀技术方案
本文提出的技术方案如图2所示ꎬ控制接收每个数据下辖的用户数目与用户计算任务的特征参数(比如对于图片识别任务ꎬ特征参数包括图片大小㊁机器学习模型类型等)ꎬ综合考虑用户业务部署在数据㊁
控制的业务性能与系统能
耗ꎬ通过AI模型生成的资源分配决策确定用户业务部署的和资源的分配量ꎬ对于不承载任何业务的数据ꎬ可将其休眠ꎬ从而达到降低能耗的效果ꎮ为了降低系统总能耗ꎬ当该用户业务由其他数据或控制执行的业务性能满足需求时ꎬ可将该用户接入其他数据或控制ꎬ因此用户业务
并不总是由距离其最近的数据承载ꎬ以休眠不承载业务的数据ꎮ数据接收休眠决策ꎬ不休眠的执行用户业务
图2㊀6G通算资源协同分配方案示意图Fig.2㊀Schematicdiagramofthecollaborativeallocation
弱碱水设备solutionofcommunicationandcomputingresources
for6Gbasestations
资源协同分配模型位于控制中ꎬ模型包含各类用户业务性能模型与的计算能耗模型ꎬ能够在考
虑用户业务性能与系统能耗的基础上ꎬ根据用户计算任务的特征参数㊁接入用户数判断用户接入的ꎻ并能够不断优化ꎬ根据反馈的业务性能与系统能耗不断调整分配决策ꎮ水上滚筒
由于本文所设计的方案动作空间较大ꎬ且动作输出均为离散确定值ꎮ针对这种情况ꎬ选用DDPG算法ꎬ可以有效缓解动作空间大对于训练结果收敛慢的问题ꎬ并且充分利用DDPG算法中经验回放和深度神经网络等架构优势ꎬ保证了输出结果的稳定性和有效性ꎮ
资源协同分配AI模型如图3所示ꎬDDPG的输入状态包括环境状态和业务状态ꎬ其中环境状态s1=[x0ꎬx1ꎬ ꎬxn]ꎬx代表接入用户数ꎬn为数据的总数ꎮ业务状态s2=ciꎬuiꎬdiꎬbi[](iɪ(0ꎬm))ꎬ其中ꎬci表示当前时刻的计算业务量(计算任务数ˑ平均每项计算任务的计算量需求)ꎬ
ui表示当前用户的上下行传输速率ꎬdi代表当前用户通信的业务量ꎬbi代表当前时刻的上下行子信道带宽ꎬm为用户总数ꎮ优化目标为业务性能与系统能耗ꎬ即算法的奖励rꎬr=-(k1ˑUT+k2ˑBT+
k3ˑUC+k4ˑCC+k5ˑHC+k6ˑSC)ꎬ其中k1~k6表示归一化系数ꎬUT㊁BT㊁UC㊁CC㊁HC和SC分别表示用户传输时延㊁数据执行时延㊁用户传输能耗㊁计算能耗㊁切换损耗和数据固有能耗ꎬ计算方法如下所示:
UT=用户计算业务量
用户上行传输速率
(1)
BT=
所服务用户的业务数量ˑ处理业务所需的算力
GPU计算频率
ꎬ(2)
UC=用户发射功率ˑ用户传输时延ꎬ(3)CC=单次计算能耗ˑ所服务用户的业务数量ꎬ
(4)
HC=
接入控制的RSRP-接入数据的RSRPꎬ
(5)
SC=接入数据的基础能耗ˑ接入数据的数目+
休眠数据基础能耗ˑ休眠数据的数目ꎮ
(6)
在满足优化目标后ꎬ确定用户接入的数据或控制ꎬ即消耗通信与计算资源的ꎬ进而确定的状态ꎬ即动作空间a=[y1ꎬy2ꎬ ꎬyn]ꎬ其中y表示的状态ꎬ0表示执行业务ꎬ1表示休眠
图3㊀DDPG资源协同分配模型原理与流程Fig.3㊀PrinciplesandprocessesoftheDDPGresource
coallocationmodel
DDPG的训练算法和应用阶段的算法流程如算法1和算法2所示ꎮ
算法1㊀训练阶段-通算资源分配算法
1.Actor根据策略选择一个动作atꎬ下发给环境执行ꎻ2.环境执行策略ꎬ返回奖励函数和新状态ꎻ3.Actor将(stꎬatꎬrtꎬst+1)存放于经验回放池ꎻ4.从经验回放池中随机采样N个数据ꎻ5.计算在线Q网络的梯度并更新ꎻ6.计算策略网络的策略梯度并更新在线策略网络ꎻ
7.软更新目标网络的梯度参数
算法2㊀DDPG应用阶段-通算资源分配算法
1.控制接收用户计算任务的特征参数和每个用户属于的数据ꎬ计算每个数据所辖的用户数目ꎬ即DDPG算法样本ꎻ
2.控制的DDPG根据系统能耗和用户业务优化目标计算数据的关断动作aꎬ下发至数据ꎻ3.数据执行关断动作aꎬ执行用户业务的计算任务ꎬ部分用户业务由控制执行ꎻ
4.控制计算系统能耗和用户业务性能ꎬ评估DDPG性能ꎻ
5.DDPG依据新样本迭代优化ꎻ
6.重复步骤1~6ꎮ
4㊀仿真验证
本节将详细介绍针对多通算资源协同分配方案ꎬ仿真平台的搭建和实验测试流程ꎬ验证方案的合理性和有效性ꎮ
4.1㊀仿真环境
仿真平台在Linux环境下实现ꎬ模拟了多小区通信环境ꎬ包含2个控制和8个数据ꎬ以及20个用户ꎬ地图面积为1kmˑ1kmꎬ用户在仿真区域内运动ꎬ用户移动过程中采集视频流业务ꎬ上传至执行计算任务ꎬ用户计算任务可由数据或控制执行ꎬ用户可接入数据或者控制ꎮ用户移动时间为500sꎬ分为50个时间切片ꎬ时间粒度为10sꎮ具体仿真参数如表1所示ꎮ
表1㊀多维度资源协同分配仿真参数
Tab.1㊀Simulationparametersofmulti ̄dimensional
resourcecollaborativeallocationsolution仿真参数值
信道模型DenseUrban模型
仿真区域大小1kmˑ1km
控制频率900MHz
控制带宽100MHz
数据频率4000MHz
数据带宽20MHz
丙烯酸酯胶数据GPU频率150MHz
gcr15热处理工艺控制GPU频率2000MHz
数据部署围绕控制站一周均匀分布
用户初始位置在左侧控制站周围均匀分布
续表
仿真参数值
用户移动模型
设置终点的布朗运动ꎬ速度均值1.5m/sꎬ
终点为地图最右侧
用户业务模型
每时刻任务量服从高斯分布ꎬ
每时刻均值3Mbit
单次任务算力消耗3.88ˑ109次浮点运算
算力
数据:0.15ˑ109次浮点运算
控制:2ˑ109次浮点运算固有能耗
开启时:45kJ
睡眠时:5kJ
4.2㊀解决方案
首先ꎬ对比本文所提技术方案与传统方案的性能ꎮ
方案一(传统方案):用户在场景二中以某种规律移动ꎬ数据负责下辖用户的计算任务ꎬ当数据没有用户接入时ꎬ该数据休眠ꎮ
方案二:强化学习算法生成资源分配方案ꎬ运行过程中不迭代优化ꎮ在具有某种用户移动规律的场景一中训练出强化学习模型Aꎬ场景二具有与场景一完全不同的用户移动规律ꎬ将模型A用于场景二ꎬ不对模型A重训练优化ꎮ
其次ꎬ为探索强化学习模型迭代优化频次对系统性能的影响ꎬ选择具有代表性的两种方案ꎬ设计对比方案如下:
方案三(周期性迭代优化):强化学习算法生成资源分配方案ꎬ运行过程中周期性接收训练样本并迭代优化ꎮ模型A用于场景二后ꎬ在用户移动过程中ꎬ每2min收集一次该段时间的用户样本ꎬ作为训练样本优化模型A得到模型Bꎬ模型B替换模型A作为策略生成模型产生资源调配策略ꎬ不断迭代优化策略模型ꎻ
方案四(实时迭代优化):强化学习算法生成资源分配方案ꎬ运行过程中实时接收训练样本并迭代优化ꎮ模型A用于场景二后ꎬ在用户移动过程中ꎬ每生成一组用户样本即作为训练样本更新模型Aꎬ新模型替换旧模型作为策略生成模型产生资源调配策略ꎬ不断迭代优化策略模型ꎮ
4.3㊀仿真结果分析
模拟了两种用户移动场景ꎬ如图4所示ꎬ场景一中的用户从左向右进行布朗运动ꎬ场景二中的用户从外围向中间聚拢ꎮ
镁合金微弧氧化加工
DDPG算法在用户移动场景一中训练得到模型Aꎬ如图5所示ꎮ经过500次的学习ꎬ模型A学习到了场景一中的用户移动与业务规律

本文发布于:2024-09-23 03:31:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/325273.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基站   用户   业务
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议