基于Spark SQL的海量数据实时分类查询算法的研究

收稿日期：２０２１－０１－１２

车流量统计作者简介：胡晶（１９８１—），女，山东平度人，副教授，硕士，主要研究方向为数据库技术、大数据技术与应用、计算机应用。

基于ＳｐａｒｋＳＱＬ的海量数据实时分类查询算法的研究

胡　晶

（福建船政交通职业学院，福建福州３５０００７）

摘要：Ｓｐａｒｋ是高速计算引擎，在计算能力上优于ＭａｐＲｅｄｕｃｅ。Ｓｐａｒｋ采用的是内存计算方式，而ＳｐａｒｋＳＱＬ在基于Ｈｉｖｅ数仓数据的分布式计算上尤为广泛。重点研究ＳｐａｒｋＳＱＬ在进行海量数据的分类查询时，对处理大数据计算的性能进行优化建议。大数据的分类、查询和大数据处理的两个重要方向，引入了改进的随机森林算法提高数据分类的准确性，优化遗传算法缩短了查询时间，在对海量大数据进行实时分类、查询的场景中具有指导意义。

关键词：ＳｐａｒｋＳＱＬ；随机森林算法；遗传算法

中图分类号：ＴＰ３１１．１３　文献标识码：Ａ　文章编号：２０９６－７９０Ｘ（２０２１）０５

－００３５－０４ＤＯＩ：１０．１９５７６／ｊ．ｉｓｓｎ．２０９６－７９０Ｘ．２０２１．０５．００７

ＲｅｓｅａｒｃｈｏｎＭａｓｓｉｖｅＤａｔａＲｅａｌＴｉｍｅＣｌａｓｓｉｆｉｃａｔｉｏｎＱｕｅｒｙＡｌｇｏｒｉｔｈｍＢａｓｅｄｏｎＳｐａｒｋＳＱＬ

ＨｕＪｉｎｇ

（ＦｕｊｉａｎＣｈｕａｎｚｈｅｎｇＣｏｍｍｕｎｉｃａｔｉｏｎｓＣｏｌｌｅｇｅ，ＦｕｚｈｏｕＣｉｔｙ，ＦｕｊｉａｎＰｒｏｖｉｎｃｅ３５０００７）

Ａｂｓｔｒａｃｔ：Ｓｐａｒｋｉｓａｈｉｇｈ－ｓｐｅｅｄｃｏｍｐｕｔｉｎｇｅｎｇｉｎｅ，ｗｈｉｃｈｉｓｂｅｔｔｅｒｔｈａｎＭａｐＲｅｄｕｃｅｉｎｃｏｍｐｕｔｉｎｇｐｏｗｅｒ．Ｓｐａｒｋｕｓｅｓｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇ，ａｎｄｓｐａｒｋＳＱＬｉｓｐｏｐｕｌａｒｉｎｄｉｓｔｒｉｂｕｔｅｄｃｏｍｐｕｔｉｎｇｂａｓｅｄｏｎｈｉｖｅｄａｔａｗａｒｅｈｏｕｓｅ．ＴｈｉｓｐａｐｅｒｆｏｃｕｓｅｓｏｎｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｓｐａｒｋＳＱＬｉｎｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｑｕｅｒｙｏｆｌａｒｇｅ－ｓｃａｌｅｍａｓｓｉｖｅｄａｔａ，ａｎｄｐｒｏｖｉｄｅｓｓｏｍｅｓｕｇｇｅｓｔｉｏｎｓｏｎｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｐｔｉｍｉｚａｔｉｏｎｏｆｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇ．Ｂｉｇｄａｔａｃｌ

ａｓｓｉｆｉｃａｔｉｏｎａｎｄｑｕｅｒｙａｎｄｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇａｒｅｔｗｏｉｍｐｏｒｔａｎｔｄｉｒｅｃｔｉｏｎｓ，ｓｏｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｉｍｐｒｏｖｅｄｒａｎｄｏｍｆｏｒｅｓｔａｌｇｏｒｉｔｈｍｔｏｄｅｖｅｌｏｐｔｈｅａｃｃｕｒａｃｙｏｆｄａｔａｃｌａｓｓｉｆｉｃａｔｉｏｎ，ａｎｄｉｎｔｒｏｄｕｃｅｓｔｈｅｏｐｔｉｍｉｚｅｄｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍｔｏｓｈｏｒｔｅｎｔｈｅｑｕｅｒｙｔｉｍｅ，ｗｈｉｃｈｈａｓｇｕｉｄｉｎｇｓｉｇｎｉｆｉｃａｎｃｅｉｎｔｈｅｓｃｅｎｅｏｆｒｅａｌ－ｔｉｍｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅａｌ－ｔｉｍｅｑｕｅｒｙｏｆｍａｓｓｉｖｅｂｉｇｄａｔａ．

Ｋｅｙｗｏｒｄｓ：ｓｐａｒｋＳＱＬ；ｒａｎｄｏｍｆｏｒｅｓｔａｌｇｏｒｉｔｈｍ；ｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ

０　引言

大数据应用一个重要的方向就是大数据挖掘。和传统的数据挖掘对比，大数据具有数据体量庞大、数据处理结果实时性高、处理对象价值密度低的特

点［

１］

。目前有许多大数据平台比如Ｈａｄｏｏｐ，平台的ＭａｐＲｅｄｕｃｅ为海量的数据提供了计算，而Ｓｐａｒｋ因其支持多种语言、通用性强、易用易处理、迭代速度快、ＳｐａｒｋＳＱＬ独立处理结构化数据的实时性、良好的交互功能等优势被广泛使用。Ｓ

ｐａｒｋ主要包含以下几个模块：ＳｐａｒｋＣｏｒｅ、２．２ＳｐａｒｋＳＱＬ、ＳｐａｒｋＳｔｒｅａｍｉｎｇ、ＳｐａｒｋＭＬ。本文主要研究ＳｐａｒｋＳＱＬ在处

理海量数据时面对的两大问题：数据分类和查询优化。改进了两种算法：一是改进的加权随机森林算法，另一个是优化的遗传算法，通过实验验证了两种算法在提高分类准确性和查询效率上较原有方法有明显的提高。

１　大数据实时分类算法和查询优化研

究现状

包装袋印刷在分布式的数据库管理系统的使用过程中，数据分割包含以下３种方法：水平分割、垂直分割和混合分割，在进行处理的过程中面临一个重要的问题就对数据进行准确高效的划分，然后将划分好的数

　第２３卷　第５期

　Ｖｏｌ．２３　Ｎｏ．５

黄河科技学院学报

ＪＯＵＲＮＡＬＯＦＨＵＡＮＧＨＥＳ＆ＴＣＯＬＬＥＧＥ

２０２１年５月

Ｍａｙ２０２１

手机转轴据分配给各个子节点进行处理。本文将基于大数据计算框架Ｓｐａｒｋ集，分析当前的数据分配策略和查询优化算法，提出一种基于当前研究的新的数据划分策略和查询优化算法，提高分布式数据库的分类准确性和查询效率。数据分配一般是指“数据分布”，主要包括以下几种分配策略：集中式、分割式、全复制式和混合式［２］。为保证后续查询高效进行，在分类的研究过程中，重要的一个关注点就是数据分配的准确性和均衡性，控制每一个目标对象节点上数据的大小，保证各节点负载均衡，避免单个节点数据体积过大。另外复制策略也受到广泛关注，复制策略需要对数据进行进一步分配，具有全复制和分区的特性，提高了数据局部性和查询效率，这方面研究一般和动态数据分配策略结合。在数据分配的过程中必须保证数据库的ＡＣＩＤ特性，同时要保证数据库可用。

Ｓｐａｒｋ采用的是内存计算方式，是一个性能优秀的大数据处理平台，在计算能力上优于Ｈａｄｏｏｐ的ＭａｐＲｅｄｕｃｅ，被誉为第二代大数据计算框架引擎。Ｓｐａｒｋ的四大核心是Ｓｐａｒ

ｋＲＤＤ（Ｓｐａｒｋｃｏｒｅ）、ＳｐａｒｋＳＱＬ、ＳｐａｒｋＳｔｒｅａｍｉｎｇ、ＳｐａｒｋＭＬ。而ＳｐａｒｋＳＱＬ在基于Ｈｉｖｅ数仓数据的分布式计算上尤为广泛。分类算法优化的下一步就是进行查询的优化，Ｓｐａｒｋ可以将数据进行实时分区处理。目前常用的分类和查询算法有分类决策树算法、Ｋ－ｍｅａｎｓ算法、最大期望（ＥＭ）算法、ＮＢＣ算法、ＬＲ回归算法、ＫＮＮ分类算法等、贝叶斯分类算法、模拟退火算法等。这里采用的分类算法是随机森林算法，数据查询采用优化的遗传算法。户外防雷器

２　改进的随机森林算法

随机森林算法一系列的分类和回归问题，该算法要克服的问题主要包含过拟合、缺失值和分类值建模，因此在使用过程中遇到以下几个问题：（１）决定树个数较多导致的训练时间和空间较大；（２）对一些复杂的数据无法处理；（３）数据集冗余大、无用数据较多的情况下，ＲＦ模型容易陷入一种为了得到一致假设而使假设变得过度严格的过拟合状态。随机森林算法在解决实际问题是具有以下优点：（１）对数据集有较强的适应能力；（２）能够对特征的重要性进行评估；（３）可以并行处理数据，尤其适合处理高维海量数据。缺点主要体现在以下几方面：（１）无相关性、冗余度高的数据分类能力差；（２）对决策树的分辨不够准确；（３）执行效率较低。为解决随机森林算法对无相关性、冗余底高的数据不占优势的问题，我们提出了一种加权改进的随机森林算法。

随机森林（Ｒａｎｄｏｍｆｏｒｅｓｔ，ＲＦ）算法应用广泛准确率较高，但面对高维不平衡数据时其分类性能会大大降低，高维数据价值密度低、冗余高［３］，这里结合权重的思想提出了一种改进的加权随机森林算法，使用了ＲｅｌｉｅｆＦ算法，该系列算法运行效率高，对数据类型没有特殊的划分限制，是特征选择算法的一种，是对所有和类别相关性高的特征分配较高的权重进行区分［４］。具体流程如下：对数据集按特征集分配不同的权值，再引用递归算法去掉冗余的较低的权值特征数据集合，得到分类性能最优的子集来构造随机森林，对数据集抽样方式进行加权改进，从而减轻高维的数据对分类模型的影响［５］。通过实验数据显示，在对维度较高的比较复杂的数据集的处理中，改进算法的各评价指标均高于原算法，证明提出的改进的加权随机森林算法有效减轻了高维度的复杂的具有冗余特征的目标数据对模型分类精度的影响。

ＲｅｌｉｅｆＦ算法是Ｒｅｌｉｅｆ算法的扩展和改进，ＲｅｌｉｅｆＦ算法可以应用到多个样本集上。假定现有不同数据类型的样本若干，对每类样本称作Ｒ，选取特征为Ａ，本文在应用ＲｅｌｉｅｆＦ算法步骤说明如下：（１）置零所有特征权重；（２）从所有样本中，随机取出一个样本Ｗ；（３）在与样本Ｗ相同分类的样本组内，取出ｋ个最近邻样本Ｍ；（４）在所有其他与样本Ｗ不同分类的样本组内，也分别取出ｋ个最近邻样本Ｎ；（５）计算每个特征的权重；（６）最后对Ｗ进行排序，递归删除权值低的分类。

Ｒｅｌｉｅｆ算法最早由Ｋｉｒａ提出。基本内容：从训练集Ｄ中随机选择一个样本Ｒ，然后从和Ｒ

同类的样本中寻ｋ最近邻样本Ｈ，从和Ｒ不同类的样本中寻ｋ最近邻样本Ｍ，最后按照公式更新特征权重。

Ｗ（Ａ）＝Ｗ（Ａ）－∑

ｋ

ｊ＝１

ｄｉｆｆ（Ａ，Ｒ，Ｈ

ｊ

）／（ｍｋ）＋∑

Ｃ∈ｃｌａｓｓ（Ｒ）［

ｐ（Ｃ）

１－ｐ（Ｃｌａｓｓ（Ｒ））

∑ｋ

ｊ＝１

ｄｉｆｆ（Ａ，Ｒ，Ｍ

ｊ

（Ｃ））］／（ｍｋ）

简要说明如下：ｄｉｆｆ（Ａ，Ｒ

１

，Ｒ

２

）表示样本Ｒ

１

和

样本Ｒ

２

在特征Ａ上的差，其计算公式，Ｍ

ｊ

（Ｃ）表示类Ｃ中的第ｊ个最近邻样本。如下式所示：

６

３黄河科技学院学报

ｄｉｆｆＡＲＲ＝

｜ＲＡ－ＲＡ｜

Ａ－Ａ

ｉｆＡｉｓｃｏｎｔｉｎｕｏｕｓｉｆＡｉｓｄｉｓｃｒｅｔｅａｎｄＲＡ＝ＲＡ

ｉｆＡｉｓｄｉｓｃｒｅｔｅａｎｄＲＡ≠{

工业制氧气方法ＲＡ

３　优化的遗传算法

遗传算法是一种求解复杂系统优化问题的算法，应用于较多的领域，诸如函数优化、组合优化、生产调度问题、图像处理、遗传编程、机器学习和数据挖掘等领域。数据挖掘技术可以从大规模、变速变化的数据集中提取具有潜在价值的数据集合。在实际应用中，数据挖掘可以解决一系列搜索的优化问题，如果把大规模数据看成一个搜索目标，挖掘有用数据的算法就是搜索策略，我们这里搜索策略即采用优化的遗传算法。我们应用优化的遗传算法对海量数据进行搜索，对在搜索过程中实时随机产生的规则进行优化，从而实现对目标数据进行搜索，这里的目标数据是指已经应用加权随机森林算法优化后的数据集。

遗传算法就是优先选择适应性强的个体，遗传算法采用概率化最优化的原则，在大范围内对解进行优化，遗传算法擅长解决全局最优化问题。解决问题的基本步骤如下：（１）输入数据集的规模、长度、交叉概率、变异概率和停止规则；（２）初始化数据集合；（３）计算个体的适应度；（４）对个体适应度进行排序；（５）选择及交叉操作；（６）变异操作；（７）判断结束搜索的条件，如满足，终止算法。其中遗传算法是运用遗传算子来进行遗传操作的，即：选择算子和交叉算子。

①选择算子：根据个体的适应度，按照一定的规则，从第ｎ代体中选择出一些具有优良性状的个体遗传到下一代（ｎ＋１）体中。在这一选择过程中，个体适应度越大，则被选择到下一代的机会越大。某个体ｉ的适应度ｆｉ，种大小ＮＰ，则ｉ被选择的概率公式为：

Ｐｉ＝

ｆｉ

∑ＮＰ

ｉ＝１

ｆｉ

（ｉ＝１，２，３，４…，ＮＰ）

②交叉算子：将体Ｐ（ｎ）中选中的各个个体随机搭配，交叉算法使遗传算法的搜索能力得到更好的延伸。

４　实验结果与分析

４．１　实验环境搭建

在将随机森林算法和遗传算法并行化时，在对算法逻辑和使用的数据结构进行优化提高算法执行效率的同时，优化平台环境的对数据分类搜索的优化也相当重要。

在虚拟机的搭建ｓｐａｒｋ集，集包含５台主机，并分别配置结点，具体配置如表１所示。实验采用ＫＤＤＣｕｐ数据集，该数据集中具有近２０万条记录，为充分验证本文方法在大数据分类和搜索方面的优势，共采用客户机、数据服务模块服务器、应用服务器、数据库服务器６台设备构成一个分布式数据库集，如图１所示。

表１　Ｓｐａｒｋ集配置

主机号节点配置类型

ｎｏｄｅ１ＮｏｄｅＭａｎａｇｅｒ，ＮａｍｅＮｏｄｅ，ＤａｔａＮｏｄｅ，ＲｅｓｏｕｒｃｅＭａｎａｇｅｒｎｏｄｅ２ＳｅｃｏｎｄａｒｙＮａｍｅＮｏｄｅ，ＮｏｄｅＭａｎａｇｅｒ，ＤａｔａＮｏｄｅ

ｎｏｄｅ３ＮｏｄｅＭａｎａｇｅｒ，ＤａｔａＮｏｄｅ

ｎｏｄｅ４ＮｏｄｅＭａｎａｇｅｒ，ＤａｔａＮｏｄｅ

ｎｏｄｅ５ＮｏｄｅＭａｎａｇｅｒ，ＤａｔａＮｏｄ

ｅ

图１　数据库集

７

３胡晶：基于ＳｐａｒｋＳＱＬ的海量数据实时分类查询算法的研究

开模图１中，ＤｒｉｖｅｒＰｒｏｇｒａｍ是ｍａｉｎ（）函数和创建ＳｐａｒｋＣｏｎｔｅｘｔ的进程；ＳｐａｒｋＣｏｎｔｅｘｔ是主程序中的对象；ＣｌｕｓｔｅｒＭａｎａｇｅｒ是外部服务对象用来请求的集资源；

Ｗｏｒｋｅｒｎｏｄｅ是集中应用程序代码结点；Ｔａｓｋ是发送到Ｅｘｅｃｕｔｏｒ上执行的单元；Ｅｘｅｃｕｔｏｒ是指ｗｏｒｋｅｒ结点上的进程；Ｃａｃｈｅ主要用于数据缓存。

Ｓｐａｒｋ应用程序在集上运行多个独立的进程，通过主程序中的ｓｐａｒｋｃｏｎｔｅｘｔ对象来协调，ＳｐａｒｋＣｏｎｔｅｘｔ会连接多种类型的ＣｌｕｓｔｅｒＭａｎａｇｅｒ，它们会分配资源给应用程序。连接建立成功ｓ

ｐａｒｋ会请求集结点分配Ｅｘｅｃｕｔｏｒ，Ｅｘｅｃｕｔｏｒ为应用程序运行计算和存储数据，ＳｐａｒｋＣｏｎｔｅｘｔ发送应用程序代码给ｅｘｅｃｕｔｏｒｓ，最后ＳｐａｒｋＣｏｎｔｅｘｔ发送Ｔａｓｋ给Ｅｘｅｃｕｔｏｒ执行。４．２　结果分析

本文主要对比的目标是参考文献［６］，通过实验得到不同方法在ＫＤＤＣｕｐ数据集上的数据搜索时间，随着数据规模的增加，两种方法在大数据分类的准备率呈现增长增高。本文方法在数据规模达

到１０００００时的搜索准确率提高了３．７％，表明此方法具有更高的大数据搜索的准确率。同时改进遗传算法后，搜索时间也随之降低，如图２

所示。图２　数据搜索准确率

采用估化算法后运行时间度量算法在Ｓｐａｒｋ集环境下的性能表现，如表２所示。

表２　算法运行时间对比

算法

运行时间／ｓ

原算法运行时间

９８０优化的遗传选择算法运行时间

７６０

５　结束语

本文重点研究ｓｐａｒｋＳＱＬ在进行大规模海量数据的分类查询，对处理大数据计算的性能进行优化建议。大数据的分类和查询和大数据处理的两个重要方向，因此引入了改进的随机森林算法提高数据分类的准确性，引入了优化遗传算法缩短了查询时间，实验结果证明在大数据分类的准确度和查询时间方面取得了一定的改进。

参考文献：

［１］齐超，崔然．基于递归随机搜索算法的Ｈａｄｏｏｐ平台大数据软件系统研究［Ｊ］．软件，２０２０，４１（６）：１７７－

１８４．

［２］周诗源，王英林．基于布谷鸟搜索优化算法的多文档摘要方法［Ｊ］．计算机工程，２０２０，４６（７）：５８－６４，７１．［３］陈俊芬，张明，赵佳成．复杂高维数据的密度峰值快速搜索聚类算法［Ｊ］．计算机科学，２０２０，４７（３）：７９－

８６．

［４］ＢＯＳＣＨＡ，ＺＩＳＳＥＲＭＡＮＡ，ＭＵＮＯＺＸ．Ｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｒａｎｄｏｍｆｏｒｅｓｔｓａｎｄｆｅｒｎｓ［Ｃ］／／ＩＣＣＶ２００７：

ＥｌｅｖｅｎｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥＰｒｅｓｓ，２００７：１－８．

［５］ＲＯＧＥＺＧ，ＲＩＨＡＮＪ，ＲＡＭＡＬＩＮＧＡＭＳ，ｅｔａｌ．Ｒａｎｄｏｍｉｚｅｄｔｒｅｅｓｆｏｒｈｕｍａｎｐｏｓｅｄｅｔｅｃｔｉｏｎ［Ｃ］／／ＣＶＰＲ２００８：

ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥＰｒｅｓｓ，２００８：１－８．

［６］ＨＯＴＫ．Ｒａｎｄｏｍｄｅｃｉｓｉｏｎｆｏｒｅｓｔ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ，１９９５：

２７８－２８２．

８

３黄河科技学院学报

本文发布于:2024-09-21 22:03:18，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/113041.html

上一篇：中兴u930刷机教程图解(附中兴u930刷机包下载)

下一篇：ElasticSearch在海量遥感影像查询中的应用

标签：数据算法分类优化进行查询搜索遗传算法

留言与评论（共有 0 条评论）