【5000字+ 内附代码】数据挖掘期末论文-时间序列预测

柔性管接头
电化教育研究期末课程论文
课程名称:数据挖掘
学生姓名:
学号:
专业班级:
基于R语言平台的状态LSTM太阳黑子预测模型
摘要:太阳黑子预测对于天文学观测有重大影响。此外,随着数据科学机器学习和深度学习的发展,时间序列预测在预测准确性方面取得了显着进展。本文旨在复现论文报告[1]的实验原理, 通过此案例分析掌握所学数据挖掘与R语言知识,本次实验涉及数据预处理,异常检测,数据可视化,深度学习框架的使用以及数据统计分析等。
关键词:R语言;数据挖掘;太阳黑子;时间序列预测;LSTM;自相关函数;交叉验证
1.引言
太阳表面常常可以见到一些照斑点,叫太阳黑子, 如图1所示。这是一些巨大的旋涡状气流,它们运动的速度为每秒几公里,温度约为4500℃,比太阳表面温度低1500℃,所以量得暗黑一些。太阳黑子可影响无线电短波通讯,对生物生长、人类健康也会产生影响。地面上气候的变迁、水文的变化、地震的发震率、地磁的騷抗和磁爆变化,都与太阳黑子的变化有着程度不等的关系,因而太阳黑子也就成了预报这些自然现象的重要参考因素。因此,使用数据挖掘技术研究此太阳黑子的周期性变化具有重要意义。
图1. 太阳黑子(图片来自NASA).
数据挖掘是一种深层次的数据分析方法。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘的目标是从数据库中发现隐含的、有意义的知识主要有以下五类功能:1. 自动预测趋势和行为数据挖掘自动在大型数据库中寻预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论;2. 关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联;3. 聚类数据库中的记录可被划分为一系列有意义的子集,即聚类;4.概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别;5. 偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。
目前,使用数据挖掘方法对太阳黑子周期序列进行预测具有很高的天文价值。近些年来,随着深度学习的迅猛发展,对于太阳黑子的预测变得愈加准确,也为数据科学家提供了解决此类问题可行的方法。其中,循环神经网络[2] (Recurrent Neural Network, 以下简称RNN) 在预测时间序列方面具有传统方法无可比拟的优点。其中,长短期记忆神经网络(Long Short Term Memory networks, 以下简称LSTM) 性能十分出,主要因为它能解决时间序列数据在处理时的梯度消失问题。本文主要以研究性实验为主,以Business Science公司的CEO Matt Dancho所做的演讲内容为基础,复现并学习数据挖
财经书店
掘在太阳黑子时间序列预测所体现的优势, 实现平台为Rstudio,使用包主要为基于R的Keras。
2.方法
长短期记忆网络——通常被称为LSTM,是一种特殊的RNN,能够学习长期依赖性。LSTM由Hochreiter 和Schmidhuber(1997)提出[3],并且在接下来的工作中被许多人改进和推广。LSTM 在各种各样的问题上表现非常出,现在被广泛使用。LSTM 模型在预测具有自相关性(时间序列和滞后项之间存在相关性)的时间序列时非常有用,因为模型能够保持状态并识别时间序列上的模式。在每次处理过程中,递归架构能使状态在更新权重时保持或者传递下去。
图2. LSTM架构及基本单元
LSTM基本架构如图2所示,其中一个LSTM网络由三个细胞结构组成,LSTM 可以通过所谓“门”的精细结构向细胞状态添加或移除信息。门可以选择性地以让信息通过。它们由S 形神经网络层和逐点乘法运算组成。
硝酸铯3.实验
3.1 实验搭建
本次实验主要基于RStudio 3.6.1平台,使用包如下:用 Keras 包开发一个状态LSTM 模型,该R 包将 R TensorFlow 作为后端; 借助 rsample 包在初始抽样上滚动预测,实现时间序列的交叉检验; 借助 ggplot2 和 cowplot 可视化回测和预测结果; 通过自相关函数(Autocorrelation Function,ACF)图评估时间序列数据是否适合应用LSTM 模型. 此外,还有一些包含在CRAN中的基础包。
本次实验所用数据集为sunspots. month, 包含了265(1749 ~2013)年间每月太阳黑子数量的月度数据. 数据如图3所示。
简称歌
图3. 上图为总体数据;下图为1949-1800部分数据从图3中,我们可以看到,周期(10 年)和振幅(太阳黑子的数量)似乎在1780 年至1800 年之间发生变化。这产生了一些挑战。
3.2 实验结果
LSTM 模型利用自相关性产生序列预测。我们的目标是使用批量预测(一种在整个预测区域内创建单
一预测批次的技术,不同于在未来一个或多个步骤中迭代执行的单一预测)产生未来10 年的预测。批量预测只有在自相关性持续10 年以上时才有效。
为了评估LSTM的适用性,本文采用自相关函数(Autocorrelation Function,以下简称ACF),它表示时间序列与自身滞后项之间的相关性。
之后,测试这个函数以确保它按预期工作。该函数使用我们的tidy 时间序列,提取数值列,并以tibble 的形式返回ACF 值以及对应的滞后阶数。我们有601 个自相关系数(一个对应时间序列自身,剩下的对应600 个滞后阶数)。结果如图4所示。MATLAB iradon

本文发布于:2024-09-21 18:33:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68471.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议