神经网络模型中灾难性遗忘研究的综述

2023年12月21日发(作者：stir是什么意思)

2021年5月第47卷第5期JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGY北京工业大学学报Vol.47No.5May2021神经网络模型中灾难性遗忘研究的综述(1.北京工业大学信息学部,北京摇100124;2.桂林电子科技大学人工智能学院,广西桂林摇541004)摘摇要:近年来,神经网络模型在图像分割、目标识别、自然语言处理等诸多领域都取得了巨大的成功.但是,神经网络模型仍有很多关键性的问题尚未得到解决,其中就包括灾难性遗忘问题.人类在学习新知识后不会对旧知识发生灾难性遗忘,神经网络模型则与之相反.神经网络模型在适应新任务之后,几乎完全忘记之前学习过的任务.为了解决这一问题,很多相应的减缓神经网络模型灾难性遗忘的方法被提出.对这些方法进行了归纳总结,以促进对该问题的进一步研究.主要贡献包括3个方面:对现有的减缓神经网络模型灾难性遗忘的方法进行了详细的介绍,并将不同方法分为4类,即基于样本的方法、基于模型参数的方法、基于知识蒸馏的方法和其他方法.介绍了不同的评估方案,以评估不同方法对减缓神经网络模型灾难性遗忘的效果.对神经网络模型中的灾难性遗忘问题进行了开放性的讨论,并给出了一些研究建议.关键词:神经网络模型;灾难性遗忘;样例;模型参数;知识蒸馏;增量学习中图分类号:TP389郾1doi:10.11936/bjutxb2020120014文献标志码:A文章编号:0254-0037(2021)05-0551-14韩纪东1,李玉鑑1,2SurveyofCatastrophicForgettingResearchinNeuralNetworkModels(yofInformationTechnology,BeijingUniversityofTechnology,Beijing100124,China;HANJidong1,LIYujian1,ofArtificialIntelligence,GuilinUniversityofElectronicTechnology,Guilin541004,Guangxi,China)Abstract:Inrecentyears,neuralnetworkmodelshaveachievedgreatsuccessinsomefields,suchasimagesegmentation,objectdetection,naturallanguageprocessing(NLP),r,manykeyproblemsofneuralnetworkmodelshavenotbeensolved,forexample,eingshavetheabilityofcontinuouslearningwithoutcatastrophicforgetting,butneuralnnetworkmodelsalmostcoethisproblem,percatastrophicforgettingofneuralnetworkmodelswereintroducedindetail,andallmethodsweredividedintofourcategories,namelyexemplar鄄basedmethods,parameter鄄basedmethods,distillation鄄baseddifferentdiscussiononthecatastrophicforgettingprobleminneuralnetworkmodelswascarriedout,andsomeresearchsuggestionsweregiven.收稿日期:2020鄄12鄄21基金项目:国家自然科学基金资助项目(61876010)作者简介:韩纪东(1992—),男,博士研究生,主要从事深度学习和计算机视觉方面的研究,E鄄mail:hanjd@.通信作者:李玉鑑(1968—),男,教授,博士生导师,主要从事模式识别与图像处理、机器学习与数据挖掘、人工智能与自然语言处理方面的研究,E鄄mail:liyujian@entevaluationschemeswereintroducedtoevaluatetheeffectof

552北摇京摇工摇业摇大摇学摇学摇报2021年Keywords:neuralnetworkmodels;catastrophicforgetting;exemplar;modelparameters;knowledgedistillation;incrementallearning摇摇近年来,神经网络模型在很多方面已经远远超对抗网络(generativeadversarialnetwork,GAN)[34鄄35]等.这是由于同20世纪相比,神经网络模型的思想变化并不大,变化最大的是训练神经网络模型所使用的硬件设备及所使用的数据量.目前,神经网络模型依然使用反向传播算法进行反复迭代优化,直到损失函数的值收敛,具体的优化策略可能更丰富了,如自[37][38]适应梯度法(adaptivegradient,AdaGrad)[36]、过人类大脑,如在围棋领域AlphaGo战胜人类顶尖高手[1鄄2],在大规模视觉比赛ImageNet中表现出更游戏玩家[5鄄6].注意,本文中的神经网络泛指所有的神经网络.这不仅使得神经网络模型受到广泛的关注,还极大地促进了神经网络模型的进一步发展,使强的图像识别能力[3鄄4],在电子游戏中战胜专业顶级得神经网络模型在更多领域取得了更加不凡的成就,如图像分割[7鄄10]理[14鄄17]、姿态估计[18鄄21]、目等标.神经网络模型的快速发检测[11鄄13]、自然语言处展,并没有使其克服所有缺陷.神经网络模型依然有很多不足,如灾难性遗忘、广受争议的黑箱子操作等,但是瑕不掩瑜,神经网络在很多方面的惊艳表现使它依然备受学者们的青睐.一个显而易见的事实是,人类在学习新知识后不会对旧知识发生灾难性遗忘,而这既是神经网络模型的一个重大缺陷,也是它的一个遗憾.该问题在很久之前就已经引起了学者们的注意.20世纪八九十年代,连接网络时期,Carpenter等[22]已经提到了神经网络模型中的灾难性遗忘问题,并且用了一个形象的比喻来说明,一个出生在波士顿的人搬到洛杉矶,他再回到波士顿时,仍然不会忘记他在波士顿的一切;也即他在洛杉矶学会新知识后,仍然会记得之前在波士顿的旧知识,而不会发生灾难性遗忘;McCloskey等[23]描述了神经网络在序列学习中遇到的灾难性遗忘问题,在文中称该问题为灾难性干扰(catastrophicinterference).注意:当时,神经网络常被称为连接网络.当时,有很多学者提出了相关的方案试图解决该问题,如有学者认为灾难性遗忘是由于存储在神经网络内部表征重叠造成的,因此使用稀疏向量、输入正交编码等方法来避免神经网络模型中的灾难性遗忘[24鄄25]来解决神经网络模型中的灾难性遗忘;有学者使用双网络[26鄄27]者使用伪训练数据预演的方法来减少神经网络模型;也有学中的灾难性遗忘[28]现在.亿[16]、几百亿,神经网络模型的参数量已经达到十几[29],甚至一千多亿[17,30]模型中的灾难性遗忘问题依然广泛存在;但是神经网络,如卷积神经网络(convolutionalneuralnetworks,CNN)[31鄄32]期记忆网络(longshort鄄termmemory,LSTM)[33]、、长短生成AdaDeltamomentestimation,Adam)、RMSprop、[39]自等适.应为了克服神经网络矩估计(adaptive模型中的灾难性遗忘问题,最近,很多学者提出了他们的解决方案.如Rebuffi等[40]提出iCaRL方法,该方法选择性地存储之前任务的样本;Sarwar等[41]提出基于部分网络共享的方法,该方法使用“克隆-分支冶技术;Li等[42]提出LwF方法,该方法主要以知识蒸馏的方式保留之前任务的知识;Zeng等[43]提出使用Oswald正交等权重修改结合情景模块依赖的方法;von[44]提出任务条件超网络,该网络表现出了保留之前任务记忆的能力;Li等[45]结合神经结构优化和参数微调提出一种高效简单的架构.也有学者研究了神经网络中的训练方法、激活函数及序列学习任务之间的关系怎样影响神经网络中的灾难性遗忘的问题,如Goodfellow等[46]就发现dropout方法在适应新任务和记住旧任务中表现最好,激活函数的选择受两任务之间关系的影响比较大.目前对神经网络模型中灾难性遗忘的研究主要是增量学习(incrementallearning),在很多情况下,也被称为持续学习(lifelong(continous为增量学习learning),但是有时为与原论文保持一致也可能等.这里如没有特别说明统一称learning)或终身学习使用持续学习或终身学习.还有一些其他神经网络模型方法对灾难性遗忘问题的研究非常有意义且与增量学习有一定的交叉learning)、是同时学习多个任务迁移学习(transfer,如多任务学习(multi鄄task,利用不同任务的互补learning).多任务学习,相互促进对方的学习[47]识迁移到新任务上;迁移学习主要是将之前学习的知[48]习到新知识后是否发生灾难性遗忘,但是这种学习方式不关心学,也即该方法主要的关注点是怎样将之前任务上的知识迁移到新任务上.多任务学习、迁移学习和增量学习如图1所示.图1(a)表示多任务学习的一个实例,modela和

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述553modelb分别针对taskA、taskB,涵盖2个模型的蓝背景代表modela和modelb在同时训练2个任务时的某种联系,如共享神经网络的前几层等;图1(b)表示迁移学习,model1表示已经使用任务taskA的数据训练好的模型,model2表示针对任务taskB的模型且尚未被训练,迁移学习就是将model1的知识迁modelI学习任务taskA,在t+1时刻modelI学习任务taskB,增量学习要求modelI在学习过taskB后不能忘记taskA.移到model2;图1(c)表示增量学习,在t时刻,摇摇显然,神经网络模型中的灾难性遗忘问题已经成为阻碍人工智能发展的绊脚石,该问题的解决无疑将是人工智能发展史上的一个重要里程碑.为促进该问题的早日解决,本文对神经网络模型中灾难性遗忘问题的相关研究做了一个综述.该综述的主要目的是为了总结之前在这方面的研究和对该问题提出一些研究建议.Fig.1摇Multi鄄tasklearning,transferlearningandincrementallearning图1摇多任务学习、迁移学习和增量学习则化的方法和基于参数隔离的方法;其次,为了公正地对比不同持续学习方法的效果,还提出了一种对比性研究持续学习性能的框架.Lesort等[51]综合性地研究了机器人中的增量学习.Parisi等[52]对基于神经网络的持续性终身学习做了一个综述,首先对生物的终身学习做了详细的介绍,如人类怎样解决弹性-稳定性困境、赫布弹性稳定性、大脑互补的学习系统,这是该综述与其他类似综述最大的不同;然后,分析了神经网络模型中的终身学习方法,并将其分为:正则化方法、动态架构方法和互补学习系统及记忆回放.Belouadah等[53]对视觉任务的类增量学习做了一个综合性研究,提出了增量学习的6个通用属性,即复杂度、内存、准确率、及时性、弹性和伸缩性,并将增量学习的方法分为基于微调的方法和基于固定表征的增量学习方法.Masana等[54]提出了类增量学习所面临的挑战,即权重偏移、激活值偏移、任务间混淆和新旧任务失衡,并将类增量学习分为3类,基于正则化的方法、基于预演的方法和基于偏置-校正的方法.文献[50鄄54]虽然都对神经网络中的克服灾难性遗忘的方法做了综述性研究,但是它们均有一定的局限性,如文献且用来对比不同持续学习方法性能的框架也是针对图像分类任务的,文献[51]仅研究了针对机器人的增量学习.另外,文献[50鄄54]都没有涉及生成对抗模型或强化学习克服灾难性遗忘方法的介绍.[50]仅介绍了持续学习中关于图像分类的方法,1摇相关工作之前的连接网络模型中,French[49]对连接网络的灾难性遗忘的问题做了一个综述.该文献不仅详细地分析了造成连接神经网络灾难性遗忘的原因,而且介绍了多种解决连接神经网络灾难性遗忘问题的方案.该作者最后指出解决神经网络的灾难性遗忘问题需要2个单独的相互作用的单元,一个用于处理新信息,另一个用于存储先前学习的信息.但是该文献作者分析的是早期的神经网络模型,随着神经网络技术的快速发展,现在的神经网络模型与连接神经网络模型在神经网络的结构、深度以及优化策略,甚至是训练神经网络模型的数据量等方面都有很大不同.最近,为了总结对神经网络模型中灾难性遗忘的研究,也有部分学者做了一些综述性研究.deLange等[50]对持续学习中的图像分类任务做了一个对比性研究,首先对持续学习的方法进行了综合的介绍,如介绍很多持续学习的方法,将各种持续学习的方法进行了总结并归为基于回放的方法、基于正

554北摇京摇工摇业摇大摇学摇学摇报2021年2摇减缓灾难性遗忘问题的方法针对神经网络模型中的灾难性遗忘问题,相关学者提出了很多解决方法.尽管相关文献大都声称提出的方法可以克服灾难性遗忘的问题,但实际上仅是不同程度地减缓神经网络模型中的灾难性遗忘问题,为了表述的严谨,本章的标题为减缓灾难性遗忘问题的方法.由第1节的内容可以看出,不同的综述文献依据不同的规则,对减缓灾难性遗忘问题方法的分类并不相同,本节将减缓灾难性遗忘问题的方法分为4类,即基于样本的方法、基于模型参数的方法、基于知识蒸馏的方法和其他方法.为方便下文的叙述,这里对下文中的符号进行统一,符号及其含义具体如表1所示.表1摇符号及其含义Table1摇Symbolsanddefinition符号TaskpreTdatapreTasknew含义2n已经被神经网络模型学习过的任务的集合,等价于{T1pre,Tpre,…,Tpre}d2dn1Taskpre相对应的各任务样本的集合,等价于{Tdpre,Tpre,…,Tpre}TdataselectTdatanewClasspreCdatapreClassnew专sd2dn1由Tdatapre中抽取的部分样本的集合,等价于{Tdselect,Tselect,…,Tselect}2p将要被神经网络模型学习的新任务的集合,等价于{T1new,Tnew,…,Tnew}d2dp1Tasknew相对应的各新任务样本的集合,等价于{Tdnew,Tnew,…,Tnew}2n已经被神经网络模型学习过的类的集合,等价于{C1pre,Cpre,…,Cpre}d2dn1Classpre相对应的各类的样本的集合,等价于{Cdpre,Cpre,…,Cpre}d2dn1由Cdatapre中抽取的部分样本,等价于{Cdselect,Cselect,…,Cselect}CdataselectCdatanew专Ti专ModelpreModeltarget2p将要被神经网络模型学习的新类的集合,等价于{C1new,Cnew,…,Cnew}d2dp1Classnew相对应的各新类的样本的集合,等价于{Cdnew,Cnew,…,Cnew}神经网络模型的共享参数神经网络模型针对任务Ti的特定参数神经网络模型的全部参数添加新任务或新类之前的神经网络模型添加新任务或新类之后的神经网络模型摇摇考虑到很多被提出的减缓灾难性遗忘的方法将共享参数专s模块与特定任务参数专Ti模块分开,这里有必要进行提前说明.以卷积神经网络的图像分类任务为例,如图2所示,淡红方框的参数共享模块是指卷积神经网络中的前几层,这几层被认为提取图像的通用特征;浅绿方框的特定任务模块是网络的分支,每个网络分支分别对应一个固定的任务Tipre,且仅用于任务Tipre的图像分类;浅蓝方框的特定任务模块是为新任务添加的新网络分支,该模块用于新任务的图像分类.这样划分是由于文献[55]已经指出卷积神经网络的前面几层学习的是不同任务所共享的通用知识,而之后的几层学习每个任务所专有的知识.注意,由于增加新任务与增加新类非常相似,在下文中不做特别区分,均使用增加新任务表示;Fig.2摇Parametersharingmoduleandtask鄄specificmodule图2摇参数共享模块和特定任务模块有些时候为与原论文表述一致,也会使用增加新类表示.

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述5552郾1摇基于样本的方法据的方法称为基于样本的方法.直接使用即为使用额外的内存存储Tdatapre样本集中的部分数据Tdataselect,在学习新任务时,将Tdataselect与Tdatanew混合,最后使用混合后的数据训练Modeltarget.间接使用主要指生成伪数据或保存Tdatapre的特征,然后使用它们与Tdatanew或Tdatanew的特征混合训练Modeltarget.在文献[50,52]中也将该方法称为回放.本文将直接或间接地用到Tdatapre样本集中数计量.存储之前任务Taskpre部分样本Tdataselect的目然后作为更新网络的训练数据;存储每类样本初次学习时的统计量,是由于初次训练时,该类样本的数据最全,相应地统计量也最准确;该统计量的作用是为了矫正更新网络时由于数据失衡(新任务Tasknew偏差.的数据多,而之前任务Taskpre的数据少)所造成的Isele等[59]提出了一种选择性存储所有任务样的非常简单,是为了与新任务Tasknew的数据混合,注意:有些方法中虽然用到了Tdatapre中的部分样本本的方法,避免强化学习的灾难性遗忘.该方法包数据,考虑到论文作者在克服灾难性遗忘中的主要思想是使用其他方法,因此这部分方法并没有被认2郾为是基于样本的方法1郾1摇Guo直接使用样本的方法.题等[56]为解决增量学习中的灾难性遗忘问supported,提出了支持样本表征的增量学习(exemplar鄄ESRIL)触(memory方法ynapses,MAS)包括for3个部分incremental模块:1),该模块使用记忆感知突learning,ImageNetconvolutional数据集预训练的深度卷积神经网络(deep之前任务Taskneuralnetwork,DCNN),;2)是为了维持用pre数据集训练的特征基于样例的字3ESC)空间)多模块聚质,类心该模块是为了提取每个任务中的样本(exemplar鄄basedsubspaceclustering,最近类(thenearestclassmultiple;centroids,NCMC)器,当增加的新类数据与模块,该模块作为一个辅助分类ImageNet数据很相似时,使用该分类器替代MAS中全连接层,减少训练时间过迭代的方式不断优化等采用文献的关键是每类数据中代表样本的选择[57]中的方法进行样本的选择,通,f浊(zj,Zknew)=hminj沂RN(椰hj椰1+浊2zj-zj沂移Zkhijzi2new2)式中:zj表示样本xj沂Cdk被DCNN提取的特征(1);Zknew是Xk为Cdknew样本集的特征集合new;浊为一个超参数;N保持的稀疏形式new样本的数量;hj[57].=[h1j,h2j,…,hNj]T,为子空间学习方法Belouadah,称为等[58]提出了一种基于双内存的增量IL2M.与普通基于样本的方法不同,该方法使用2个记忆模块:1)第1个记忆模块存储之前任务Task模块存储之前任务pre的部分样本TdataTaskselect;2)记忆pre每类样本初次学习时的统括长时存储模块和短时存储模块.长时存储模块称为情景记忆,存储的样本基于样本的等级(使用排序函数对样本排序).短时记忆模块是一个先进先出(first鄄in鄄first鄄out,FIFO)区,该部分不断刷新,以确2郾保网络能接触到所有的输入数据1郾2摇间接使用样本的方法.型Hayesmemory,该模型称为使用记忆索引的回放等[60]提出了一种别样的基于样本的模储之前任务indexing,Task征.REMIND模型将样本的特征经过量化后给予索preREMIND).的原始样本REMIND(replayusing,而是存储样本的特模型并不存引号并存储,增加新任务Tasknew时,将随机抽取r个存储的特征进行回放Atkinson等.[61]Pseudo鄄Rehearsal)提出了RePR(reinforcement鄄演的方式避免神经网络中的灾难性遗忘模型.RePR模型使用伪数据.RePR-预包括短时记忆(short鄄termmemory,STM)和长时记忆模块(long鄄termmemory,LTM).STM模块使用当前任务Tasknew的数据Tdatanew训练针对当前任务的深度强化网络(deepQ鄄networks,DQNs);LTM模块包括拥有之前所有任务Task任务伪数据的GAN.结合迁移学习pre的知识和能生成之前所有,将DQNs的知识迁移到Modelpre中;在知识迁移的过程中,真实的数据使得Modeltarget学习到新知识,GAN生成的伪数据维持成相应的伪数据AtkinsonModelpre等中之前任务的知识.[62]和Shin等[63]均使用中GAN生.Atkinson等[62]使用GAN生成伪图像代替随机生成的伪图像,因为随机生成的伪图像明显不同于自然的图像,这将导致网络能学习到很少的之前任务的知识.当训练第T1任务时,GAN被训练T1的数据集DT1D,增加了T2任务后,GAN被训练使用T2的数据集T2;增加了T3任务后,该方法显然就出现了问题,意味着GAN生成的伪数据也是,前一步中,GAN仅使用数据集DT2T2的伪数

556北摇京摇工摇业摇大摇学摇学摇报2021年据.为了不增加内存的消耗,作者将GAN也使用伪标签进行训练,这样GAN生成的数据就代表之前所有任务的数据.Shin等[63]提出的模型具有双架构掖G,S业,G是深度生成器模型用来生成伪样本,S是2郾2摇基于模型参数的方法基于模型参数的方法根据是否直接使用模型参数进行分类:1)选择性参数共享,该方法直接使用模型的参数;2)参数正则化,该方法约束模型的重要参数进行小幅度变动,以保证对之前已学习知识解算器用来处理每个任务.2郾的记忆2郾1摇.该方法在预训练神经网络模型选择性共享参数Model新任务Taskpre后,增加.虽然神经网络模型的参数没有发生改变new时选择性地使用神经网络模型的参数,由于针对不同任务所选择性激活神经网络中参数的不同,导致不同任务使用的神经网络的模型参数不同,进而使同一个神经网络模型的参数适应不同的任务.可以看出,这种方式换一个角度解决神经网络中的灾难性遗忘问题.这种方式的优点:1)不需要使用之前任务Taskpre的数据Tdata网络模型进行较大的改进.这种方式也有一个显著pre;2)没有对神经的缺点,虽然不需要使用先前任务的数据进行训练,但是需要针对不同任务存储一个激活参数,即使在相关文献中,作者一再强调存储的激活参数很小,但当任务量非常多时,即使逐渐小幅度定量的增加也是非常可怕的Mallya等.[64]提出了一种共享参数的方法,该方法不改变预训练骨干网络的参数专,而仅对每个任务训练掩模m,具体如图3所示.以第k个任务为例进行说明:首先训练得到掩模mask忆k;然后通过将3掩模中maskmask忆k二值化处理得到二值化掩模maskk,如图k所示(红实方框为表示1,深灰实方框表示0);最后将二值化掩模maskk与预训练骨干网络的参数专的参数集专,如图backbone3逐元素运算得到适用于任务中专kkbackbone和专k所示(专中绿实方框表示具体的参数,专中绿实方框表backbonek示激活的参数,深灰实方框表示未被激活的参数)习(calibratingSingh.等[65]提出了校准卷积神经网络的终身学CNNsforlifelonglearning,CCLL),该模型是一个与众不同的网络.该网络重复使用训练的参数,不同之处在于该网络在每层卷积神经网络的输出位置添加一个校准模块,通过校准模块使该图3摇共享参数的方法[64]摇Fig.3摇Methodofsharingparameters[64]网络避免灾难性遗忘问题,同时适应新的任务.该网络在神经网络的每层后面加一个任务适应校准模块CMti络),该模块包括由针对网络中的单个参数的空间(t表示第t个任务,i表示第i层卷积神经网校准模块和针对网络参数通道的通道校准模块.空间校准模块计算式为Mti*=GCONV琢(Mti式中:Mt表示第t个任务中第i)茌层神经网络空间校Mti(2)i*准模块的输出;GCONV琢表示组卷积,每个组卷积有琢个通道;Mti表示表示第t个任务中第i层神经网络的输出;茌表示逐元素相乘.空间校准模块的输出Mti*作为通道校准模块的输入,通道校准模块计算式为Mti**=滓(BN(GCONV茁(GAP(Mti*))))茚Mti*式中:Mt(3)i**表示第t个任务中第i层神经网络通道校准模块的输出;BN表示批归一化;GCONV琢表示组卷积,每个组卷积有茁个通道;GAP表示全局均2郾值池化2郾2摇;茚使用该方法时参数正则化表示逐通道相乘.,Model对神经网络进行重新训练;pre在添加新任务后,需要但是,由于添加了参数正则项,神经网络在训练的过程中会保证对重要参数进行小幅度的改变,以保证对之前任务的效果Kirkpatrick等[66]参考生物对特定任务的突触巩固原理,提出了类似于该原理的人工智能算法,即可塑权重巩固(elasticweightconsolidation,EWC).

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述557小鼠在学习新任务后,一定比例的突触会增强,并且能保持一段时间;相应地,神经网络模型的参数并非全是等价的,有些参数可能是有用的,有些参数可能作用非常低甚至是没有作用.因此,作者提出缓慢改变神经网络模型中的重要参数,以使得模型不忘记之前学习的知识.EWC使用损失函数来实现该目的,即L(兹)=LB(兹)+式中:N为样本x的数量;i、j、k三个索引分别为样本x的3个维度,D是样本x三个维度数的乘积;xijk^ijk为重建后图为图像在索引(i,j,k)处的灰度值;x2郾3摇基于知识蒸馏的方法像在索引(i,j,k)处的灰度值.Hinton等[68]于2015年提出了一种模型压缩的式中:LB(兹)表示针对taskB的分类损失函数;姿表示移i姿2Fi(兹i-兹*A,i)2方法,即知识蒸馏.该方法使用软目标辅助硬目标(4)进行训练小模型modelsmall,软目标即将样本xi输入到预训练的大模型modelbig中得到的输出qi,硬目标即为样本的真实标签y.之所以这样做,是因为软之前学习的taskA的重要性;F表示费雪矩阵;i是参数的索引;兹表示模型的参数;兹*的参数A,i表示之前任务AChang.等[35]为了使GAN避免灾难性遗忘,提出了记忆保护生成对抗模型MPGAN)(memoryprotectionderivative,则化方法使用输出函数的一阶导数不能准确地评估preserver,SDP).并设计了一种参数正则化方法考虑到已存在的参数正(secondGAN,参数的重要性,SDP使用输出函数的二阶导数.使用F表示输出函数,兹表示模型的参数,则SDP表示为ISDP(兹)=啄兹+1由于汉森矩阵计算较为复杂(鄣鄣F兹)T2啄兹T(鄣,在实际操作中使鄣2兹F2)啄兹(5)用费雪信息E[((鄣鄣F/鄣兹)2I]近似汉森矩阵鄣.SDP使用SDPEl等(兹[67])=鄣F兹)T啄兹+1借用参数正则化的思想2啄兹TE[(,提出了一种方鄣F兹)2]啄兹(6)式约束增加新任务后模型参数的改变.作者将卷积神经网络的特征提取模块称为编码器,在编码器后由有2个分支网络,一个分支网络为了图像分类,另一个分支网络称为解码器,使用反卷积进行样本的重建.为了训练该网络,作者在损失函数中添加了一个非监督重建损失,该损失的作用等同于参数正则化.优化网络中的损失函数L=L^,y)+姿L式中:Lrec的真实标签cls(y^,y)是图像分类的交叉熵损失cls(y(x^,x)(7),y为图像L^,y^网络输出的预测标签;姿是超参数;,x)是重建损失,x^表示为rec(x为重建样本,x为样本.LrecLrec(x^,x)=-ND1·移N^n=1移ijk[xijklogaxijk+(1-xijk)(1-logax^ijk)](8)i目标中包含的信息量巨大;而硬目标包含的信息量较低.如果modelbig中真实类的输出结果远远大于其他类的结果,那就不能很好地使用软目标中的信息了,因此需要平滑softmax的输出结果,即qi=移expexp(z(iz/T)(9)jj/T)式中:zi为softmax前一层(该层的神经元个数已被映射为训练任务的类别数)的输出;T为温度,T越大modelbig输出的结果越软.知识蒸馏的方法被广泛应用于模型压缩[69鄄71]被广泛应用于解决神经网络模型的灾难性遗忘问题、迁移学习[72鄄74]等领域,也中[75鄄79]data的方式将同时输入到.图4为知modelbigmodel识蒸馏的示意图,将训练样本的知识迁移到big和modelmodelsmall,通过知识蒸馏small.图4摇知识蒸馏Fig.4摇Knowledgedistillation(learningLi等[42]结合知识蒸馏设计了学而不忘模型类Classnewwithout时,仅需要使用新类forgetting,LwF),Class该模型在增加新且能避免对之前学习知识的遗忘new的数据训练模型,.LwF模型使用前几层作为特征提取模块,为所有任务共享;之后几层作为特定任务模块LwF使用的损失函数,为不同任务的单独所有.L=姿0Lold(Y^R0(,Y兹^0s,)兹^+L(Yo,兹^newn,Y^n)+n)(10)

558北摇京摇工摇业摇大摇学摇学摇报2021年式中:姿0为一个超参数,值越大,相应地对蒸馏损失^)为软标签的损失,Y为的权重就越大;L(Y,Y^增加新类增加新类Classnew前模型的软标签,Y0^为训练过程中模型的输出;R(兹^,兹^,兹^)实标签,Ynson^^为正则项,兹为共享参数,兹之前任务的特定任务^为新任务的特定任务参数.参数,兹nsonnold0001LC(棕)=-N1LD(棕)=-NNClassnew后训练过程中模型输出的软标签;Lnew(Yn,^)增加新类别的标准损失,Y为新类别数据的真Y式中:N和C分别表示样本的数目和样本的类别数;pij表示样本真实标签,qij为模型的输出;pdistij与qdistij类比于pij和等[79]结合未标记的大规模野生动物数据设pdistijlogaqdistij移移i=1j=1移移pijlogaqiji=1j=1CNC(13)(14)损失函数,将知识蒸馏的方法用到目标检测的灾难Shmelkov等[75]和Chen等[76]分别提出了新的计了一个蒸馏损失,称为全局蒸馏(globaldistillation,GD)[79].用Mt表示增加第t个任务时所性遗Shmelkov忘中,这里以文献[75]为例进行说在增加新的任务时等明.[75]提出的损失函数使FastRCNN网络,不用使用之前任务的数据,且表现出对之前任务知识的不遗忘.将当前的网络称为CA,CA增加新任务后需要增加新的分类分支和使用新任务的数据进行重新训练,此时的网络称为C由于目标检测任务中需要进行分类与回归训练,因B.此作者结合分类与回归提出蒸馏损失函数L移dist[((yAy,tA,yB,tB)=N|1CA-yB)2+(tA-tB)2](11)式中:N表示感兴趣区域A|(regionofinterest,RoI)的个数,|C与yAC和B分别是|表示增加新任务前目标的种类个数CCA和CB的分类输出,tyA与tB分别是,yAA,作者从每幅图像中的B的回归输出.A128、yB、个具有最小背景分数tA、tB参数计算稍复杂的RoI中随机抽取64个;对于C类输出的均值不妨记为y忆A,y忆,yA,令每个此RoI64的输出减去个RoI的分A既得yAB、t结合知识蒸馏与样本回放的方式提A、tB的计算同理.出了适应蒸馏的方法Hou等[77],该方法首先针对新任务tnew训练一个模型CNN新任务的知识迁移到目标模型expert,然后通过知识蒸馏的方式将CNN同的是,该方法在知识蒸馏时用到少量的之前任务target,与LwF不的样本前任务的数据设计了一个端到端的增量学习模型Castro.等[78]使用之前任务的小部分数据和当,由任务共享模块特征提取和特定任务模块组成.针对该架构,作者提出了交叉-蒸馏损失公式L(棕)=LC(棕)+式中:LC(棕移Ff=1LDf(棕)(12)L)为新旧任务所有数据的交叉熵损失;LDf(棕)表示每个特定任务层的蒸馏损失.LC(棕)和Df(棕)表示为需要训练的最终模型,兹和准务的共享参数和特定任务参数1:t分别表示Mt中各任,准准1:t={准1,准2,…,t务的数据的混合},Dtrnt表示第t个任务的数据集和小部分之前任;则训练Mt的标准损失为L准cls(兹,据1:,t;直接使用该数据集训练Dtrnt).考虑到Dtrnt仅包括小部分之前任务的数Mt可能导致灾难性遗忘,因此需要在损失函数中加入蒸馏损失.使用之前的Mt-1模型生成软标签,为了避免数据偏置,生成软标签的数据集为Dtrnt生动物数据集抽样得到,胰则该部分损失为Dextt,Dextt由未标记的野L准dst(兹,1:t-1;Mt-1,Dtrnt胰Dextt).仅使用Mt-1进行知识蒸馏未考虑第t个任务的知识,添加了Ct个任务数据集训练的模型,该部分的损失为t,Ct为仅使用第L准1:t;Ct,Dtrnt胰Dextt).由于Mt-1与Ct分别独立地包dst(兹,含t之前任务和第t个任务的知识,可能有知识遗漏,因此结合Mt-1与C(兹,准t构建了模型Qt为L,该部分损失dst1:Losst;Qt,Dextt).最终,全局蒸馏损失为LGD=Lcls(兹,准1:t;Dtrnt)+dst(兹,准,1:(准t-1);Pt,DtrntextL胰Dt)dst(兹t;Ct,Dtrnt胰Dext+t)+2郾4摇其他方法Ldst(兹,准1:t;Qt,Dextt)(15)除了上面所述的3类方法外,一些学者还提出了Mu觡oz鄄Mart侏n其他方法为等避免神经网络中的灾难性遗忘.[80]将有监督的卷积神经网络与受生物启发的无监督学习相结合,提出一种神经网络概念;不同于参数正则化方法,Titsias等[81]提出一种函数正则化的方法;Cao在将学习系统视为一个纤维丛(表示一种特殊的映射),提出了一个学习模型[82].该学习模型的架构如图5所示,该图根据文献[82]所画,与动态地选择模型的参数不同,该模型动态地选择解释器.图5(a)表示了一个普通的神经网络,即输入x通过神经网络得到输出y;图5

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述559(b)表示作者所提出的学习模型的架构,该架构主要有以下几步:1)输入x通过生成器Generator被编码为潜在空间L中的xL,这里相似的样本会得到xL;2)基于xL选择神经网络中被激活的神经元,得到解释器Interpretor:fx;3)将样本x输入到解释器fx得到输出y.为了使该学习模型能有对时间的感知,作者又在模型中引入了一个生物钟,T=Tmin+滓[鬃(x)](Tmax-Tmin)(16)(17)问题:如何确定哪种方法最优?如何确定某种解决方案所适应的环境?如何评价不同方法的优劣?针对如何评价不同方法这个问题,也有一些学者进行了相应的研究.Kemker等[83]提出了衡量灾3个评价指标,该评指标主要有3个新的评估参数赘base赘new1=T-11=T-1难性遗忘问题的实验基准和评估指标.这里只介绍式中:x表示输入;Yt表示生物钟的输出;t表示当前Yt=(Asin(2仔t/T),Acos(2仔t/T))移i=2TT琢new,i移i=2琢base,i琢ideal(18)(19)时刻;T表示周期;Tmin和T表示max均为超参数,分别表示T的最小值与最大值;滓sigmoid函数;鬃表示可训练的神经网络模型.通过实验作者发现该学习模型不仅具有良好的持续学习能力,而且还具有一定的信息存储能力.图5摇普通神经网络和纤维束学习系统[82]Fig.5摇Commonwithafiberneuralbundlenetwork[82]andlearningsystem3摇减缓灾难性遗忘的评价准则针对神经网络中的灾难性遗忘问题,大量学者提出了自己的方法,无论是基于样本的方法,或是基于模型参数的方法,又或是基于知识蒸馏的方法等等;总之,解决方案有很多,那么这又产生了一系列赘all=T1移T-1琢i=琢all,i2式中:T表示任务的数量;琢ideal(20)1个任务的准确率base,i表示训练第i个任务后,神经网络模型对第;琢训练基础数据集(也即第1个任务)后,神经网络模ideal表示型对基础数据集的准确率;琢务后,神经网络模型对该任务的准确率new,i表示训练第i个任;琢型对当前所能得到所有数据的准确率.这里式all,i表示模(18)中的赘base表示神经网络模型在训练T个任务之后,对学习到第1个任务知识的遗忘程度;式(19)中的赘务的适应能力new表示神经网络模型在学习到新任务后,对新任;式(20)中的赘知识all计算模型保留先前学习的知识和学习到新的能力.vandeVen等[84]也指出,虽然有很多针对神经网络中灾难性遗忘问题的解决方案,但是由于没有统一的评价基准,导致直接对比不同解决方案的效果非常困难.为了能结构化地比较不同的解决方案,vandeVen等提出了3种困难度逐渐加大的连续学习的情景,每个情景包含2种任务协议.3种任务情景分别为:1)测试时,已知任务ID;2)测试时,任务ID未知,且不需要判断任务ID;3)测试时,任务ID未知,且需要判断出任务ID.第1种实验情景针对的是任务增量学习(task鄄IL),即每个任务在输出层都有与之对应的特定的输出单元,而其余网络是共享的;第2种实验情景是针对域增量学习(domain鄄IL),即任务的结构相同但输入分布却不相同;第3种实验情景针对类增量学习(class鄄IL),即递增地学习新类.在文献中,作者将第1种任务协议称为分割MNIST任务协议,该协议将MNIST数据集中分为5个任务,每个任务包含MNIST包含10任务协议2类;作者将第2种任务协议称为置换类,将原始,该协议包含MNIST作为任务10个任务1,在,每个任务MNIST基础上随机生成另外Pf俟lb等9组数据即任务2~9的数据集.[85]也提出了一个评价深度神经网络(deep

560北摇京摇工摇业摇大摇学摇学摇报2021年neuralnetworks,DNNs)灾难性遗忘问题的范例.该评价范例主要是针对实际应用层面,主要包括:1)tasks,STLs)时,模型应能保证能随时增加新类;2)在DNNs上训练序列学习任务(sequentiallearning模型应该对先前学习过的任务表现出一定的记忆力,即使灾难性遗忘不可避免,至少应该缓慢的遗忘之前所学习的知识,而不是立即遗忘;3)DNNs如果应用到嵌入式设备或机器人中,应该满足内存占用低、添加任务时重新训练的时间或内存复杂度不应依赖于子任务的数量等.除了提出新的评价方法,也有学者提出了用于测试神经网络模型中灾难性遗忘问题性能的新数据集,如Lomonaco等[86]提出了基准数据集CORe50,该数据集用于测试不同持续学习方法对目标检测的效果.展神经网络模型的方法意义不大.之所以说灾难性遗忘问题没有被解决且一直是阻碍现在人工智能领域突破的关键点,是因为想使用尽量有限的神经网络模型完成尽可能多的任务.如图7所示,t1时刻仅有task1出现,为任务task1设计且训练的神经网络模型modelA;t2时刻任务task2出现,想在尽量小地改变神经网络模型modelA的前提下让其学习到任务task2的知识,且modelA学习到任务task2的知识后仍然对任务task1具有良好的效果;t3时刻任务task3出现,依然想在尽量小地改变神经网络模型modelA的前提下让其学习任务task3的知识,且modelA学习到任务task3的知识后仍然对任务task1和任务task2具有良好的效果;当任务task4出现时…….注意:图7中某一时刻多个任务同时指向modelA,并不意味着modelA在该时刻同时训练这多个任务的数据,仅表示modelA能同时适应这多个不同时间出现的任务;如任务task1和任务task2同时指向modelA,仅表示modelA能同时适应t1时刻出现的task1和t2时刻出现的task2,并不意味着modelA在t2时刻同时训练任务task1和任务task2的数据.由上可以看出,灾难性遗忘问题可以表述为在尽量小地改变神经网络模型的前提下,使得神经网络模型学习尽可能多的新知识且依然能记得先前学习过的知识.灾难性遗忘实际可以类比为人类或其他哺乳动物的记忆功能,人类在学习新知识后并不会忘记之前学习的知识,而灾难性遗忘则与之相反.4摇讨论由神经网络模型将信息存储在它的权重参数中可以看出,其产生灾难性遗忘问题的根本原因:同一个神经网络模型在学习新任务时,其权重参数在反向传播算法的作用下不断更新以适应新任务;神经网络模型权重参数的改变,进而导致其不适用于之前学习的任务.如果允许使用无限并行扩大的神经网络模型且不改变之前模型的参数,可以看出灾难性遗忘问题能轻易地被解决,如图6所示.tasks是所有任务的并集胰taski;models是适应每个任务i=1ni=1ntaski的模型的并集胰modeli,显然使用这种简单扩摇摇在尽量小地改变神经网络模型自身的情况下允许神经网络模型适应更多的新任务且不发生灾难性遗忘.如直接使用样本回放的方法,并非简单地将所有任务的样本混合而是想要到每个任务中具有代表性的样本,并使用不同的方法对样本进行排序,进而选择具有代表性的样本;在使用生成伪数据的方法中,想要生成适量的伪数据而不是无限扩展网Fig.6摇Infinitelyexpandingneuralnetworkmodel图6摇无限扩大的神经网络模型络;参数正则化的方法中,想要到神经网络模型中最重要的参数,并对其进行约束,而不是简单地约束所有参数;在知识蒸馏中,想要将知识由一种网络迁移到另一种网络,而不是简单地将2个网络并联.另外,第3节中的很多方法依据生物的认知记忆等原理进行改进创新,以期达到克服神经网络模型中灾难性遗忘的目的[66,80,82].注意:对减缓灾难性遗

摇第5期韩纪东,等:神经网络模型中灾难性遗忘研究的综述561中的某些样本具有代表该样本集的能力.一个显而易见的事实是,神经网络模型是对生物神经网络的模仿,而现在神经网络模型出现灾难性遗忘的问题,说明对生物的神经网络研究的并不彻底,还有很多盲点.思路1)进一步研究生物的避免研究灾难性遗忘的机制,应该是研究的重点和趋势.为彻底解决神经网络模型中的灾难性遗忘问题,需要人工智能等方面学者们的努力,也需要脑科图7摇逐渐增加模型的任务Fig.7摇Graduallyaddtaskstothemodel忘方法的分类并不是绝对的,如文献[77鄄78]既用到了知识蒸馏的方法,也用到了样本的方法;这里的分类依据是作者解决神经网络模型中灾难性遗忘问题的主要思想,以文献[78]为例,作者在文中主要的关注点是使用知识蒸馏的方法避免灾难性遗忘,而使用之前任务所组成的小样本集仅是作者使用的一个辅助的方式,因此将该方法归类为知识蒸馏的类中.5摇总结与建议首先将减缓神经网络模型灾难性遗忘的方法分为四大类,并对不同大类的方法进行了介绍;然后,介绍了几种评价减缓神经网络模型灾难性遗忘性能的方法;接着,对神经网络模型中的灾难性遗忘问题进行了开放性的探讨.如果将人类的大脑看成一个复杂的神经网络模型,可以观察到人类并没有灾难性遗忘的问题.这说明现在的神经网络模型与人脑相比仍有非常大的缺陷,仍有非常大的进步空间.对于怎样解决灾难性遗忘的问题,本文最后提出了几个解决思路:1)探索生物怎样避免灾难性遗忘的机制,并根据该机制设计相似的神经网络模型.2)探索神经网络模型存储信息的新机制,如果神经网络模型在学习新知识后仍能保持对之前学习的知识不遗忘,必然需要存储一些关于之前学习的知识的一些信息,怎样高效地存储和利用这些信息值得研究.3)选取具有代表性的样本也是一种方法.该方法不仅存在于生物的认知中,也广泛存在于社会生活中.如社会生活中的选举,某一社会团体通常推选出该团体中的某几位成员而不是全体成员代表该社会团体,这也从另一个角度说明,部分样本往往可以近似代表总体样本.对比到神经网络模型中,选取某一任务中具有代表性的样本,而不是使用所有样本代表该任务;该方法需要确定推选机制,即怎样确定样本集学、心理学等方面学者们的支持.参考文献[1]SILVER:MasteringD,thegameHUANGA,MADDISONCJ,etal.[2]treesearch[J].Nature,ofGo2016,with529(7587):deepneuralnetworks484鄄ure,MasteringSILVERD,2017,theSCHRITTWIESERgame550(7676):ofGowithoutJ,354鄄IMONYANknowledge[K,etJ].al.[3]HEforimageK,ZHANGrecognitionX,REN[CS,]椅sidualofthelearningConferenceonComputerVisionandPatternIEEE[4]Piscataway:HUIEEE,2016:770鄄ition.[C]J,椅SHENandProceedingsL,eeze鄄and鄄excitationIEEEPiscataway:ConferenceIEEE,onComputernetworks7132鄄2018:[5]generalSILVERreinforcementD,HUBERTT,learningSCHRITTWIESERalgorithmthatJ,etmastersal.A[6]2018,chess,YED,362(6419):shogi,andLIUZ,SUN1140鄄ughself鄄play[J].Science,inMOBAM,ingcomplexcontrol[7]tworksJ,Cambridge,gameswithMA:deepAAAIreinforcementPress,2020:learning6672鄄6679.[C]椅IEEEConferenceforSHELHAMERsemanticonsegmentation[C]E,erVision椅ProceedingsFullyconvolutionalandPatternofthe[8]ataway:IEEE,2015:3431鄄3440.[C]椅ProceedingsK,GKIOXARIofG,theDOLL魣RIEEEInternationalP,enceMaskR鄄CNNon[9]ComputerRENARDVision.F,GUEDRIAPiscataway:S,IEEE,DEPALMA2017:2961鄄ilityN,egmentationandreproducibility[Jindeeplearningformedical[10](1):PORZI1鄄16.].ScientificReports,2020,10multi鄄objectL,HOFINGERannotations[trackingC]椅andM,ProceedingssegmentationRUIZI,tomaticLearningConferenceonComputer/CVFPiscataway:IEEE,2020:Vision6846鄄ternRecognition.

562北摇京摇工摇业摇大摇学摇学摇报2021年[11]KONGT,SUNF,LIUH,ox:Beyoundanchor鄄basedobjectdetection[J].IEEETransactionsonImageProcessing,2020,29:7389鄄utionsformonocular3dobjectdetection[C]椅VisionandPatternRecognition.[12]DINGM,HUOY,YIH,ngdepth鄄guidedProceedingsoftheIEEE/CVFConferenceonComputer2020:1000鄄away:IEEE,AnnualConferenceoftheCognitiveScienceSociety.[25]MCRAEK,:LawrenceErlbaumAssociates,1989:26鄄erenceiseliminatedinpretrainednetworks[C]椅ErlbaumAssociates,1993:723鄄rophicProceedingsofthe15hAnnualConferenceoftheMahwah,NJ:Lawrence[26]鄄recurrentconnectionistnetworks:Anapproachtothe‘sensitivity鄄stability爷dilemma[J].ConnectionScience,1997,9(4):353鄄380.[27]ANSB,ngcatastrophicforgettingby[13]QINZ,LIZ,ZHANGZ,rNet:towardsreal鄄timegenericobjectdetectiononmobiledevices[C]椅away:IEEE,2019:6718鄄:pre鄄understanding[J].trainingDEVLINofJ,deepCHANGbidirectionalMW,LEELANZ,CHENM,arXiv,GOODMAN2018:transformersK,etal.S,abset/:gebertforself鄄supervisedlearningoflanguagealiteRADFORDrepresentations[J].unsupervisedA,WUmultitaskJ,arXiv,CHILD2019:learnersR,etabs[al./1909.J].nAImodels2019,1(8):,w鄄shotB,MANNlearnersB,RYDER[J].N,arXiv,etal.2020:Languageabs/ARTACHOposeB,e:unifiedhumanProceedingsestimationoftheinIEEEsingle/CVFimagesConferenceandvideosonComputer[C]椅Vision2020:7035鄄away:IEEE,multi鄄humanL,AI3DH,poseCHENestimationR,s鄄viewover100FPStracking[C]forProceedings椅VisionoftheIEEE/CVFConferencePiscataway:onComputer2020:3279鄄,CHENregionX,WANGG,GUO[J].JINS,Neurocomputing,ensemblenetworkH,idedstructuredXUL,XUJ,2020,forcascadedetal.395:Whole鄄body138鄄Berlin:wild[CA,GROSSBERGSpringer,]椅European2020:ConferenceS.196鄄RTofnetwork[J].adaptivepatternMCCLOSKEYComputer,recognitionM,COHEN1988,byNJ.21(3):aself鄄organizingCatastrophic77鄄inconnectionistnetworks:thesequentiallearninginterferenceproblem24:[J].109鄄chologyofLearningandMotivation,1989,connectionistHETHERINGTONnetworks?e[C]椅'catastrophicProceedingsinterference'inofthe11thcouplingRendustworeverberatingcad佴miedesSciences鄄Seriesneuralnetworks[III鄄SciencesJ].CompteslaVie,1997,del'A320(12):Catastrophic989鄄[28]ting,rehearsaland[29]123鄄rehearsal[J].ConnectionScience,1995,7(2):MassivelyARIVAZHAGANmultilingualN,BAPNAA,FIRATO,:findingsandchallengesneuralmachine[J].arXiv,translation2019:inabsthe/[30]eouslyN,largeMIRHOSEINIneuralnetworks:A,MAZIARZthesparsely鄄gatedK,etal.[31]e鄄of鄄expertslayer[J].arXiv,2017:abs/ASovercomingnetworkscatastrophicA,鄄CNN:ctiveBerlin:ArtificialnetworkSpringer,Neuralaugmentation2018:Networks[C]102鄄椅PatternIAPR[32]ROYdeepconvolutionalD,PANDAP,[J].NeuralNetworks,neuralROY2020,鄄CNN:121:for148鄄entalahierarchicallearning[33]forgettingSCHAKM,oncatastrophicConferenceindeepLSTMnetworks[C]椅InternationalSpringer,2019:on714鄄:[34]THANH鄄TUNGmodecollapseinH,NeuralGANsTRANNetworks[C]T.椅Catastrophic2020(IJCNN).InternationalforgettingPiscataway:Jointand[35]IEEE,ConferenceCHANG2020:on1鄄tiveY,LIW,PENGJ,protectiontoregularizationovercomeadversarialthemethodsforgettingnetwork[J].of(MPGAN):IEEEGANsAccess,usingaframework2020,parameter179942鄄179954.8:[36]methodsDUCHIJ,forHAZANonlineE,sticAdaptiveoptimizationsubgradient[J].JournalofMachineLearningResearch,2011,12[14][15][16][17][18][19][20][21][22][23][24]

摇第5期(7):2121鄄2159.韩纪东,等:神经网络模型中灾难性遗忘研究的综述563[37]ta:anadaptivelearningrate[38]TIELEMANT,e6郾5鄄rmsprop:dividethegradientbyarunningaverageofitsrecentmagnitude[Z/OL].[2012鄄02鄄11].https:椅/~tijmen/csc321/slides/lecture_slides_zation[C]椅Proceedingsofmethod[J].arXiv,2012:abs/1212.5701.[51]LESORTT,LOMONACOV,STOIANA,ngstrategies,opportunitiesandchallenges[J].InformationFusion,2020,58:52鄄Networks,2019,113:54鄄hensivestudyofclasslifelonglearningwithneuralnetworks:areview[J].incrementalContinuallearningforrobotics:definition,framework,[52]PARISIGI,KEMKERR,PARTJL,ual[53]BELOUADAHE,POPESCUA,KANELLOSI.A[39]KINGMAD,:amethodforstochasticInternationallear,dam:REBUFFIIcarl:SA,KOLESNIKOVA,SPERLG,[C]椅EandconferencerepresentationonComputerlearning2017:2001鄄away:IEEE,SARWARdeepsharing[J].convolutionalSS,ANKITA,entallearninginLIZ,,neuralLearning2019,networkswithout8:4615鄄artialnetworkTransactionsIntelligence,2017,on40(12):Pattern2935鄄isforgetting[andJ].MachineIEEEZENGcontext鄄dependentG,CHENY,CUINatureVONMachineIntelligence,processingB,et2019,Continual1(8):networkslearning364鄄372.[J].ofConferenceContinualOSWALDlearningJ,HENNINGwithhypernetworksC,SACRAMENTO[C]椅InternationalJ,er,dam:LIstructureX,ZHOUY,WUT,ogrow:tinglearning[C]椅frameworkInternationalforConferenceovercomingoncatastrophicNewYork,NY:ACM,2019:3925鄄eGOODFELLOWempiricalIJ,MIRZAM,XIAOD,ient鄄networksofcatastrophic[J].arXiv,forgetting2013:absin/ks[J].viewarXiv,of2017:multi鄄taskabs/Piscataway:onF,transferQIZ,IEEE,learningDUAN2020:[K,C]et1鄄34.椅dingsAcomprehensiveofthe(4):networksFRENCH128鄄135.[J].CatastrophicinCognitiveforgettingSciences,inconnectionist1999,3DEContinualLANGEM,ALJUNDIR,MASANAM,ning:classificationacomparativetasks[J].studyarXiv,onhow2019:toabsdefy/thmsforvisualtasks[J].arXiv,2020:abs/2011.[54]MASANAincrementalM,LIUX,TWARDOWSKI[55][J].arXiv,learning:2020:abssurvey/,鄄manceevaluationtransferableYOSINSKIareJ,featuresCLUNEinJ,deepBENGIOneuralnetworks?Y,etal.[C]椅HowAdvances[56]Foundation,Jolla,CA:inNeuralGUOL,XIE2014:NeuralInformationG,3320鄄sLarepresentationXUX,ar鄄supported[57]IEEEYOUAccess,forexemplar鄄basedC,LI2020,effectiveC,ROBINSON8:51276鄄鄄incrementallearning[J].DP,leComputerdata[C]椅dingssubspaceBerlin:ofclusteringSpringer,theEuropeanonclass鄄imbalancedBELOUADAH2018:Conference67鄄[58]learningE,2m:classincrementalIEEE,InternationalwithConferencedualmemory[C]椅ataway:theIEEE[59]2019:583鄄ngISELED,learning[J].COSGUNarXiv,ive2018:experienceabs/[60]HAYESyourneuralTL,networkKAFLEtopreventK,SHRESTHAcatastrophicR,forgetting[C]椅EuropeanSpringer,2020:Conference466鄄:[61]ATKINSONPseudo鄄rehearsal:C,MCCANEB,SZYMANSKIL,rophicachievingforgettingdeep[J].reinforcementarXiv,2018:learningabs/[62]Pseudo鄄recursal:ATKINSONC,MCCANEsolvingB,theSZYMANSKIcatastrophicL,forgettingetal.[63]mSHINH,neuralnetworks[J].arXiv,2018:deepgenerativeLEEJreplay[C]椅AdvancesK,KIMJ,ualinNeurallearningwithProcessing[64]ProcessingMALLYASystemsSystems.A,LAZEBNIKFoundation,LaJolla,S.2017:CA:Packnet:2990鄄InformationInformationaddingmultiple[40][41][42][43][44][45][46][47][48][49][50]

564北摇京摇工摇业摇大摇学摇学摇报taskstoasinglenetworkbyiterativepruning[C]椅7765鄄ternRecognition.9163鄄9171.2021年ProceedingsoftheIEEEConferenceonComputerVisionPiscataway:IEEE,2018:[75]SHMELKOVK,SCHMIDC,away:IEEE,2017:3400鄄ngofobjectdetectorswithoutcatastrophicforgetting[65]SINGHP,VERMAVK,MAZUMDERP,atingCNNsforlifelonglearning[C]椅a,CA:Neural[66]KIRKPATRICKJ,PASCANUR,RABINOWITZN,etInformationProcessingSystemsFoundation,2020:mingcatastrophicforgettinginneuralnetworks[C]椅ProceedingsoftheIEEEInternationalConferenceon[76]CHENL,YUC,owledgedistillationforincrementalobjectdetection[C]椅2019International2019:1鄄away:IEEE,learningviaprogressivedistillationandretrospection[C]椅[J].ProceedingsoftheNationalAcademyofSciences,[77]HOUS,PANX,CHANGELOYC,ng2017,ELKHATIB114(13):A,3521鄄Preemptingbycatastrophicregularization[C]椅away:O,IEEE,DEAN2019:J.1鄄ONG,ralnetwork[J].arXiv,2015:abs/squeezedLIP,SHUC,XIEY,chicalknowledgeCambridge,adversarialnetworkcompression[C]椅lationSUNS,CHENGMA:AAAIY,Press,2020:11370鄄dingsforinNaturalLanguageoftheBERTGAN2019modelZ,tknowledge[C]椅JointProcessingConferenceandontheEmpirical9thInternationalMethodsStroudsburg,ConferencePA:stics,WEItowardsY,PAN2019:X,4314鄄ationforQINH,zationdetection[mimic:C]椅Vision(ECCV).Berlin:EuropeanSpringer,Conference2018:267鄄uterYIMdistillation:J,JOOD,BAEJ,romknowledgeConferencetransferlearningfastoptimization,[C]椅ProceedingsnetworkminimizationoftheIEEEandPiscataway:onXUIEEE,Computer2017:Vision4133鄄J,NIEY,WANGP,ngabinaryweightanddriving[detectorAHNAutomation.C]椅2019byPiscataway:InternationalknowledgetransferIEEE,Conferencefor2019:2379鄄nomousRoboticsinformationS,HUProceedingsdistillationSX,DAMIANOUtheIEEEforConferenceknowledgeA,ional[C]椅away:onComputerIEEE,Vision2019::oftheSpringer,European2018:Conference437鄄uter[78]CASTROEnd鄄to鄄endFincrementalM,MAR魱N鄄JIM魪NEZlearning[C]M椅ProceedingsJ,GUILN,anSpringer,2018:Conference233鄄:ofthe[79]LEEforgettingK,LEEProceedingswithK,ofunlabeledSHINJ,mingInternationalinthewildcatastrophic[C]椅away:IEEE,2019:Conference312鄄[80]MU譙OZ鄄MART魱NUnsupervisedI,BIANCHIS,PEDRETTIinSolid鄄StateneuralnetworkslearningComputational[Jto].overcomeDevicesIEEEJournalcatastrophicG,cuits,onExploratory[81](1):TITSIAS58鄄66.2019,onalMK,regularisationSCHWARZJ,forMATTHEWScontinuallearningAGG,withet[82]Gaussianprocesses[J].arXiv,2019:abs/Realizingasacontinualfiberbundle[J].learningthrougharXiv,2019:modelingabsa/[83]MeasuringKEMKERR,MCCLUREM,ABITINOA,etal.[84]arXiv,VANDE2017:catastrophicVENabsG/tingM,alnetworks[J].continuallearning[J].cenariosfor[85]PF譈LBapplication鄄orientedB,GEPPERTHarXiv,2019:rophicAabs/comprehensive,[J].arXiv,2019:abs/tingin[86]andLOMONACObenchmarkV,CORe50:recognitionanew[datasetProceedingsofthe1stAnnualC]椅MicrotomeConferencePublishing,on2017:Robot17鄄ine,MA:(责任编辑摇杨开英)[67][68][69][70][71][72][73][74]

本文发布于:2024-09-22 12:38:51，感谢您对本站的认可！

本文链接：https://www.17tex.com/fanyi/19899.html

上一篇：综合教程第3版Unit 1 Words and expressions for Text I

下一篇：二模阅读理解--隐晦的主旨目的题

标签：模型神经网络任务学习方法

留言与评论（共有 0 条评论）