首页 > 学术百科

数据挖掘技术在气温预测中的应用

2021.07科学技术创新数据挖掘技术在气温预测中的应用

王江波白雪徐景李景诗

（南京信息工程大学数学与统计学院，

江苏南京210044）1概述

气象温度的预测一直以来都是天气预测的重点问题，天气

不仅直接影响人们的健康、甚至影响人们的心情[1]；此外，天气变

化还会影响一个国家的经济状况。据美国气候中心报告，美国每年因为气象灾害的损失要达到1000亿美元[2]。短临预报是近

年来的热点问题，其根据大气科学原理，

运用统计学知识对未来变化趋势预测。提高短临预测的准确率和效率，对国民经济有重要指导意义[3]。

在统计学理论范畴下，气温预测技术种类繁多。最新的数值预报有如下几个方面：一是多元统计分析，主要运用数理统计学的相关知识，在多对象多因素的关联下进行相关性分析，进而得

到规律；二是运用概率预测的统计方法，

以此来预测某类天气现象是否可能发生，并给出其发生可能性大小；三是时间序列分

析，通过挖掘历史数据中的规律，

进而来预测未来的天气。随着计算机技术的快速发展，机器学习在气象预测中展现

出巨大的潜力，其能够有效避免过拟合过高维数等问题，

而且求解速度快，精度也更高。

在国外，Khan M R [4]等人提出简单递归网络对气温进行预测，SinghS [5]等人对气象中的温度属性以及特定数据采用依赖性研究，提出了基于遗传算法和神经网络相结合的综合反向传播

温度预测模型。国内针对气温的预测相对滞后，

比如黄文杰，曹鸿兴等人[6]在20世纪以ARIMA 作为季节模型定量分析，

这一期间ARIMA 时间序列模型被广泛用于预测研究，南京信息工程大学的智协飞[7]等运用贝叶斯模式平均法将三个模式预报结果进行多模式气温集成。

2数据预处理2.1数据采集

本文选取了海口地面观测站点的观测数据集作为样本数据集，其中采集了2019年6月到2020年6月的相关气象观测数据。原始观测数据的部分见表1。

据表1显示，该气象站的数据更新频率为1小时/次，即每1小时更新一次海口站点的相关要素值，其数据要素采集包括

区站号、时、本站气压、气温、相对湿度、

小时降水量、瞬时风向、瞬时风速、最小能见度，

其中后面7个要素的单位分别为：百帕、摄氏度、百分率、

毫米、度、米/秒、米。2.2数据处理

2.2.1清洗数据。数据清洗是数据预测中最为重要的环节。首先处理表中的重复值，其中区站号都是海口站点59757，对气温的预测没有实际作用，所以删除此列；其次要对缺失值进行处理，本文采用中位数代替缺测值。

2.2.2归一化处理。观察表可知，不同的变量有不同的量纲，这将对最终的预测结果产生不利的影响。本文采用数据归一化以解决气象要素之间的可比性问题。归一化后气象要素的取值范围在[0,1]之间，具体公式如下所示：

（1）

其中，max 为最大值，min 为最小值。归一化后，能加快LSTM 的处理速度，也能减小输出误差。

2.2.3将时间序列数据转化为有监督数据。本文采用的输入

t 时间步各要素的观测值，

输出t+1时间步气温值。具体就是将时间序列数据向后滑动一个单位，

然后进行拼接，这就是有监督的数据集。

3方法与原理

长短期记忆网络（Long Short-Term Memory ，LSTM ）是循环神

经网络RNN 的分支，LSTM 有效解决了长期依赖问题，其设计的目的意在更好的存储和访问历史信息。

一方面，LSTM 由隐藏层、输出层和输入层组成。另一方面，LSTM 又是一种特殊的RNN ，隐藏层由一个或多个记忆单元组成，每个记忆单元拥有3

个“门”结构，其中包括遗忘门、

输入门和输出门。LSTM 的单元摘要：气温预测一直是气象预报中的关键课题，随着经济社会的发展，

人们对气象预报的要求逐渐提高。短临预报作为近年来的热点问题，具有重要研究意义。

本文基于海口气象站2019年6月-2020年6月采集到的地面观测数据，通过长短期记忆网络对未来三小时进行气温预测。结果表明，长短期记忆网络在气温预测中具有良好的预报能力，

此外，预测效率也大大提高。关键词：数据挖掘；长短期记忆网络；药网

气温预测中图分类号:P456,P311.1文献标识码:A 文章编号:2096-4390(2021)07-0105-03区站号 Time 本站气压

气温

相对湿度

小时降水量

瞬时风向

瞬时风速

最小能见度

59757 0:00 1007.6 26 87 0 146 0.4 25644 59757 1:00 1006.9 26 87 0 142 2.9 28081 59757 2:00 1006.4 25.8 88 0 157 2.3 27442 59757 3:00 1005.6 25.9 87 0 171 2 27879 59757

4:00

1004.9

25.8

197

30000

表1原始观测数

据

105--

科学技术创新2021.07

结构如图1所示。

图1LSTM 结构图由图1所示，有一条直线横穿了整个单元，

并且通过线性计算与输入门、输出门、遗忘门链接，下面列出相关公式：其中，f t 、i t 、c t 、o t 分别表示当前时刻的遗忘门、输入门、单元

状态和输出门；h t 则是LSTM 的输出；b 是偏置项，w 是各类输入

循环权重；滓是sigmoid 函数，用来调节权重；

在LSTM 结构中，因为3种门结构和特殊单元，

以至于LSTM 能够学习历史信息，并从中舍弃无效的信息，将有价值的信息保留下来。其次，

单元c t 在遗忘门舍弃了一些信息，所以需要通过输入门来学习新的

信息。最后，通过计算单元状态之后，c t 得到了更新，

再利用输出门，和tanh 层决定最终的输出值h t 。

4实验与结果4.1模型结构

气温预测即用历史的气象要素{…,x t-1x t }来预测未来的气温

序列。如图2所示，

用LSTM 来预测未来数据。下一刻气温可由下列公式得出

（7）

其中，x t 为当前气温，为下一刻气温。W 2为输出层权重，h t 可以通过式（6）得到，b 为偏置。

图2LSTM 时间序列模型结构

4.2结果分析

本文采集了海口地区的气象数据，并利用采集数据进行训练的测试。这里随机选取80%作为训练集，20%作为测试集。为

了评估模型的性能和精度，本文根据预测的值和实际的值，

采用了均方误差MSE 和平均绝对误差MAE 作为模型的评估指标，它们的计算公式如下所示：

（8）

（9）

其中，y 为气温的预测值，y 为气温的实际值，当MSE 和

MAE 越小时，说明模型的预测性能越好，

同时表明预测误差较小。不同时间序列长度的模型效果如表2所示。表2模型效果比较基于不同序列长度对数坐标

序列长度是指我们在预测过程中的数据输入长度，即用多

长序列的数据来预测未来三小时的温度。由模型效果的结果，可以发现当序列长度为4天，即96小时，模型的预测效果最好，因此我们的模型的序列输入长度为96。接下来对训练好的模型进行未来三小时的预测，为了尽可能直观展示未来三小时的预测结果，我们用96小时的数据对未来三小时分别进行了预测，预测的效果图如图3所示。

（2）（3）（4）（5）（6

）

模型效果

序列长度

R _s qu a re d

MS E MA E 72h ou rs 0.89565 0.06459 0.16874 96h ou rs 0.90713 0.05727 0.15524 120ho ur s 0.88988 0.06744 0.17198 144ho ur s 0.88707 0.06854 0.17000 168ho ur s

0.85718

0.08573

0.19788

（转下页）

106--

2021.07科学技术创新a 图未来1小时预测值，b 图未来2小时预测值，c 图未来3小时预测值

图3未来三小时气温预测值

从预测的结果可以看出，在未来一小时内预测结果良好，

ca1110预测温度与实际温度基本一致，但在第三个小时，

出现了轻微的波动。由此可见，LSTM 在气温预测中具有良好的预报能力，

另外，在不同的参数组合下对结果影响大。在实际业务中，应进行

大量的实验，选取最佳的参数组合，

使模型预测效果达到最佳。参考文献

[1]尤金.短期天气预报的新方法和问题[M].北京：科学出版社,1965.

[2]刘利花，张金喜.高速公路不良天气交通事故分析[J].道路交通与安全,2006(8):26-29.

[3]朱晶晶，赵小平，吴胜安，吴慧，邢彩盈.基于支持向量机的海南

民用建筑外保温系统及外墙装饰防火暂行规定

气温预测模型研究[J].海南大学学报(自然科学版),2016,34(01):40-44.

[4]Maqsood I,Khan M R,Abraham A.Weather Forecasting Models Using Ensembles of Neural Networks [M]//Intelligent Systems Design and Applications.Springer Berlin Heidelberg,2007:33-42

[5]Singh S,Bhambri P,Gill J.Time Series based Temperature Prediction using Back Propagation with Genetic Algorithm Technique [J].International Journal of Computer Science Issues,2011,8(5).

[6]黄文杰，曹鸿兴，顾岚等.时间序列的ARIMA 季节模型在长期

预报中的应用[J].科学通报,1980,25(22):1030-1032.

[7]智协飞，李刚，彭婷.基于贝叶斯理论的单站地面气温的概率预报研究[J].大气科学学报,2014,37(6):740-748.

作者简介：王江波（1996，4，15-），男，汉族，籍贯：

河南洛阳，学历：研究生，研究方向：大数据

分析。

在离线状态下BIM+GIS 系统数据传递方法及应用实践

王健1冉光炯1*白皓1张果2（1、四川高速公路建设开发集团有限公司，四川成都6100472、四川省公路规划勘察设计研究院有限公司，四川成都610041）目前BIM+GIS 系统已经广泛应用于基础设施建设的各个领域，在各个行业均开始构建各种各样的项目管理系统，当前的BIM+GIS 管理系统对网络有极大的依赖，在市政等网络条件好的项目地通常易于满足，而在荒无人烟的公路、水利等项目地通常网络较差，尤其是公路工点可能会穿越无网络信号区，或者

人为的无网络信号区

（如隧道施工）。以公路工程施工工序报检为例，现场工序检查结果采集完成后，需要上传到系统，由监理进行抽检等流程处理后进入下

一道工序。而无网络信号区域无法顺利地完成上述工作，

因此，考虑到无网络信号区域，

构建离线状态下BIM+GIS 管理系统及实现数据传递研究的必要性凸显。

本文以公路工程工序报检案例为例，介绍如何解决BIM+GIS 系统APP 端在离线状态工作并解决流程数据传递问题，从而提高BIM+GIS 系统的可用性。

1离线数据存储结构

1.1数据存储容器

施工现场到BIM+GIS 系统的数据传递基础是基础数据存

储。SQLite 作为一款轻型数据库，实现了自给自足的、

无服务器的、零配置的、事务性的SQL 数据库引擎，是遵守ACID 的关系型数据库管理系统，它包含在一个相对小的C 库中。它是D.

土地科学与技术RichardHipp 建立的公有领域项目，设计目标是嵌入式的，

由于它的资源占用率非常低，在嵌入式设备中，可能只需要几百K 的内存，目前已经有很多嵌入式产品使用了它。综合考虑以上因素，SQLite 是满足当前需求的极佳选择。

1.2数据类型

实现系统内的数据传递，即施工自检填报的数据流向监理的客户端。必须规定一种统一的数据类型，在数据接收方接收到数据之后才能用统一解析方式来解析拿到的数据。

JSON 作为一种流行的数据传输类型，有轻量、解析速度快、

存储数据体积小等特点，且各个平台语言都支持摘要：当前公路工程施工过程中，

神州龙地图开始逐步应用BIM+GIS 系统进行建设管理，不仅涉及APP 端现场数据采集，还涉及系统内部流程数据传递，上述需求均对网络有较大的依赖，一旦网络异常，就无法实现上述数据传递，

这极大影响了系统使用。本文在考虑离线状态下的系统工作方法基础上，研究了使用SQLite 数据库对离线状态下的数据进行采集及存储，使用通过二维码实现

离线状态下端对端的数据传递，

保证了BIM+GIS 系统在离线状态下顺利使用。关键词：公路工程；数据采集；数据传递；离线；二维码中图分类号:TU17文献标识码:A 文章编号:2096-4390(2021)07-0107-03（转下页）

107--

本文发布于:2024-09-22 04:32:07，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/68563.html

上一篇：数据挖掘技术现状及未来发展方向（转）

下一篇：浅谈数据挖掘在QAR数据处理的应用研究

标签：数据预测气温模型进行网络系统小时

留言与评论（共有 0 条评论）