Informer模型改进方法及长序列时序的预测方法及系统[发明专利]

(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202210019775.8
(22)申请日 2022.01.10
(71)申请人 中国地质大学(武汉)
地址 430074 湖北省武汉市洪山区鲁磨路
388号
(72)发明人 张冬梅 贾思亮 李江 成建梅 
朱天清 
(74)专利代理机构 湖北武汉永嘉专利代理有限
公司 42102
专利代理师 许美红
(51)Int.Cl.
G06K  9/62(2022.01)
G06N  20/00(2019.01)
(54)发明名称
Informer模型改进方法及长序列时序的预
测方法及系统
(57)摘要
本发明公开了一种Informer模型改进方法
及长序列时序的预测方法及系统,其中Informer
模型改进方法主要对I n f o r m e r 模型中的
ProbSparse自注意力机制进行改进,具体使用
Wasserstein距离替换KL散度。本发明通过引入
Wasserstein距离将Informer模型做进一步改
进,在长序列预测任务中表现出更好的性能。基
于Wasserstein距离的自注意力机制在度量无重
叠分布时,
效果优于KL散度。权利要求书2页  说明书10页  附图12页CN 114444584 A 2022.05.06
C N  114444584
A
1.一种基于Wasserstein距离的Informer模型改进方法,其特征在于,对Informer模型中的ProbSparse自注意力机制进行改进,具体使用Wasserstein距离替换KL散度。
2.根据权利要求1所述的基于Wasserstein距离的Informer模型改进方法,其特征在于,该方法包括以下步骤:
S1、将输入的时序数据预处理后进行编码,并作为Informer模型中自注意力机制的输入,包括查询向量Q;
S2、计算查询向量Q的均匀分布和注意力概率分布;
S3、使用Wasserstein距离度量查询向量Q的均匀分布和注意力概率分布之间的相似性;
S4、当相似性的值达到预设阈值时,查询向量Q在注意力分布中起主导作用,选取查询
向量Q中超过阈值的向量组成新的查询向量根据该新的查询向量重新计算ProbSparse自注意力机制。
3.根据权利要求1所述的基于Wasserstein距离的Informer模型改进方法,其特征在于,还包括步骤:
在Informer模型的编码器各层之间增设直达注意力通道,该直达注意力通道与各层编码器的注意力机制模块连接,上一层编码器的注意力机制模块的输出作为下一层编码器的注意力机制模块的附加输入。
4.根据权利要求1或3所述的基于Wasserstein距离的Informer模型改进方法,其特征在于,还包括步骤:
使用基于K‑Max‑Pooling的蒸馏操作,对各编码器层之间做网络参数压缩,K为大于1的整数。
5.一种基于改进Informer模型的长序列时序预测方法,其特征在于,该方法基于权利要求3所述的基于Wasserstein距离的Informer模型改进方法,该预测方法包括以下步骤:将时序数据进行标准化处理,对标准化处理后的时序数据进行词向量编码和位置编码,并将两种编码的数据进行加权,得到时序样本,将时序样本划分为训练集、测试集和验证集;
将训练集和测试集中的时序样本数据输入到改进后的Informer模型进行训练,得到训练好的Informer改进模型;
通过验证集对训练好的Informer改进模型进行验证,得到最终的Informer改进模型;
使用最终的Informer改进模型对待测试时序进行预测。
6.根据权利要求5所述的基于改进Informer模型的长序列时序预测方法,其特征在于,改进后的Informer模型进行训练方法包括以下步骤:
将训练集的数据输入改进后的Informer模型,得到训练集的预测数据;
计算训练集的预测数据和实际数据的平均绝对误差、均方误差、均方根误差、平均绝对百分比误差和纯均方误差,并将其作为度量指标对模型进行评估,得到优化后的模型参数,作为改进后的Informer模型初始模型参数。
7.一种基于Wasserstein距离的Informer改进模型,其特征在于,该Informer改进模型具体使用Wasserstein距离替换KL散度。
8.根据权利要求7所述的基于Wasserstein距离的Informer改进模型,其特征在于,该Informer改进模型的编码器各层之间设有直达注意力通道,该直达注意力通道与各层编码器的注意力机制模块连接,上一层编码器的注意力机制模块的输出作为下一层编码器的注意力机制模块的附加输入。
9.根据权利要求7或8所述的基于Wasserstein距离的Informer改进模型,其特征在于,该Informer改进模型使用基于K‑Max‑Pooling的蒸馏操作,对各编码器层之间做网络参数压缩,K为大于1的整数。
10.一种基于改进Informer模型的长序列时序预测系统,其特征在于,包括:
样本处理模块,用于将时序数据进行标准化处理,对标准化处理后的时序数据进行词向量编码和位置编码,并将两种编码的数据进行加权,得到时序样本,将时序样本划分为训练集、测试集和验证集;
训练模块,用于将训练集和测试集中的时序样本数据输入到改进后的Informer模型进行训练,得到训练好的Informer改进模型;
验证模块,用于通过验证集对训练好的Informer改进模型进行验证,得到最终的Informer改进模型;
预测模块,用于使用最终的Informer改进模型对待测试时序进行预测。
Informer模型改进方法及长序列时序的预测方法及系统
技术领域
[0001]本发明涉及机器学习领域,尤其涉及一种基于Wasserstein距离的Informer模型改进方法及长序列时序的预测方法及系统。
背景技术
[0002]在长时序预测任务中,如何捕获长序列输入之间的长期依赖关系已成为最具挑战性的热门课题
之一。2017年谷歌机器翻译团队提出Transformer架构,捕获时序序列间长期依赖关系的能力要优于RNN模型。2020年Neo等基于Transformer框架建立了时序预测模型,并用于流感样疾病预测,研究结果表明,相对于ARIMA、LSTM、Seq2Seq等模型,使用注意力机制的Transformer模型在短时序预测任务上预测结果更优。2021年Zhou等证明注意力矩阵贡献分数服从长尾分布,即序列中某个元素一般只会和少量元素有较高的关联度,通过引入Kullback‑Leibler散度,到这些重要的序列元素,仅对高关联度的向量进行规范点积运算,提出一种稀疏的自注意力机制,降低时间和内存开销,并在长时序预测任务上表现出良好的性能。
[0003]Informer模型解决Transformer模型在应用于长时序预测任务时存在一些严重的问题。比如二次时间复杂度、较高的内存使用量和编解码器结构的固有限制等。但ProbSparse自注意力机制中使用的Kullback‑Leibler散度,在分布无重叠时,其散度值可能无意义。Post Layer Normalization结构在深层次的网络中会存在梯度消失的问题。模型蒸馏中的Max‑Pooling会损失过多的序列信息。
[0004]综上所述,Informer模型在Transformer架构的基础上针对长时序预测任务做出改进,但模型中还存在一些问题可以做进一步改进工作。
发明内容
[0005]本发明主要目的在于提供一种在长序列预测任务中表现出更好性能的Informer 模型改进方法及
长序列时序的预测方法。
[0006]本发明所采用的技术方案是:
[0007]提供一种基于Wasserstein距离的Informer模型改进方法,对Informer模型中的ProbSparse自注意力机制进行改进,具体使用Wasserstein距离替换KL散度。
[0008]接上述技术方案,该方法包括以下步骤:
[0009]S1、将输入的时序数据预处理后进行编码,并作为Informer模型中自注意力机制的输入,包括查询向量Q;
[0010]S2、计算查询向量Q的均匀分布和注意力概率分布;
[0011]S3、使用Wasserstein距离度量查询向量Q的均匀分布和注意力概率分布之间的相似性;
[0012]S4、当相似性的值达到预设阈值时,查询向量Q在注意力分布中起主导作用,选取
查询向量Q中超过阈值的向量组成新的查询向量根据该新的查询向量重新计算
ProbSparse自注意力机制。
[0013]接上述技术方案,还包括步骤:
[0014]在Informer模型的编码器各层之间增设直达注意力通道,该直达注意力通道与各层编码器的注意力机制模块连接,上一层编码器的注意力机制模块的输出作为下一层编码器的注意力机制模块的附加输入。
[0015]接上述技术方案,还包括步骤:
[0016]使用基于K‑Max‑Pooling的蒸馏操作,对各编码器层之间做网络参数压缩,K为大于1的整数。
[0017]本发明还提供了一种基于改进Informer模型的长序列时序预测方法,该方法基于上述基于Wasserstein距离的Informer模型改进方法,该预测方法包括以下步骤:[0018]将时序数据进行标准化处理,对标准化处理后的时序数据进行词向量编码和位置编码,并将两种编码的数据进行加权,得到时序样本,将时序样本划分为训练集、测试集和验证集;
[0019]将训练集和测试集中的时序样本数据输入到改进后的Informer模型进行训练,得到训练好的Informer改进模型;
[0020]通过验证集对训练好的Informer改进模型进行验证,得到最终的Informer改进模型;
[0021]使用最终的Informer改进模型对待测试时序进行预测。
[0022]接上述技术方案,改进后的Informer模型进行训练方法包括以下步骤:
[0023]将训练集的数据输入改进后的Informer模型,得到训练集的预测数据;
[0024]计算训练集的预测数据和实际数据的平均绝对误差、均方误差、均方根误差、平均绝对百分比误差和纯均方误差,并将其作为度量指标对模型进行评估,得到优化后的模型参数,作为改进后的Informer模型初始模型参数。
[0025]本发明还提供一种基于Wasserstein距离的Informer改进模型,该Informer改进模型具体使用Wasserstein距离替换KL散度。
[0026]接上述技术方案,该Informer改进模型的编码器各层之间设有直达注意力通道,该直达注意力通道与各层编码器的注意力机制模块连接,上一层编码器的注意力机制模块的输出作为下一层编码器的注意力机制模块的附加输入。
[0027]接上述技术方案,该Informer改进模型使用基于K‑Max‑Pooling的蒸馏操作,对各编码器层之间做网络参数压缩,K为大于1的整数。
[0028]本发明还提供了一种基于改进Informer模型的长序列时序预测系统,包括:[0029]样本处理模块,用于将时序数据进行标准化处理,对标准化处理后的时序数据进行词向量编码和位置编码,并将两种编码的数据进行加权,得到时序样本,将时序样本划分为训练集、测试集和验证集;
[0030]训练模块,用于将训练集和测试集中的时序样本数据输入到改进后的Informer模型进行训练,得到训练好的Informer改进模型;
[0031]验证模块,用于通过验证集对训练好的Informer改进模型进行验证,得到最终的Informer改进模型;
[0032]预测模块,用于使用最终的Informer改进模型对待测试时序进行预测。

本文发布于:2024-09-25 08:31:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/395105.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   时序   改进
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议