西南油气田数据湖入湖技术研究

0  引言
西南油气田分公司经过多年的信息化建设,积累了大量的系统与数据,目前面临着“信息系统多、数据库多、孤立应用多”的三多局面,亟需开展数据湖的建设,实现A1、A2、A4、A5等统建系统和勘探开发成果数据采集系统、作业区数字化管理平台、页岩气共享平台等分公司核心自建系统的共享数据和油田特数据入湖,打破数据壁垒,实现数据共享,并与集团总部主湖构成连环湖架构,最终实现和主湖数据逻辑统一、分布存储、互联互通、就近访问的目标。
1    技术方案
1.1  结构化数据入湖
结构化数据共享存储采用MPP (大规模并行处理器Massively Parallel Processor )数据库技术,能够将任务均衡分解到多个节点同时进行运算,有效的解决了大规模的数据作业计算,缓存和IO 带来的性能问题[1]。
结构化数据入湖前需要先开展数据模型的建设和主数据入湖。各数据源系统的数据通过ETL 工具,汇聚到数据湖的贴源层,在贴源层进行归一化处理后,数据推送至数据治理区,进行业务质控审核,审核通过的数据
进入到共享存储层,再推送至分析层,实现数据入湖。
图1 结构化数据入湖
1.2  非结构化数据入湖
数据湖中非结构化数据存储,采用基于S3(简单存储服务Simple Storage Service )标准协议的软件定义分布式文件存储架构,主湖主控保证逻辑统一,用户基于统一的RESTful 服务访问文件内容,支
持软件定义数据多镜像与就近访问,满足地震等大块数据存储与高效应用[2]。
非结构化数据包括物探数据体、测井曲线和文档文件三类,按照存储方式可分为文件索引部分(文件名称、文件大小、作者等)和文件体部分(数据文件本身)。(1)文件索引入湖:源数据索引通过DSB 同步到FSS 管理库,源数据管理库变更触发DBZ 产生变化数据,处理程序1将DBZ 产生得变化数据,变换格式后推送到RabbitMQ ,处理程序2将RabbitMQ 数据推送到ElasticSearch 。
(2)文件体入湖:处理程序把数据体从源数据存储同步到数据湖的对象存储,同步配置对象存储集同步
二苯甲醇
策略,文件自动从数据湖对象存储同步到总部对象存储。
图2 非结构化数据入湖
1.3  时序数据入湖
数据湖时序数据存储,采用主流时序数据库技术,通过使用Kakfa 开展时序数据流接收,清洗,标记,分析等功能。来源数据进入Kafka 中,通过各种订阅进行处理;通过Hadoop 对历史数据进行保存;处理程序对时序数据整理标记,按照模型进行数据映(下转第68页)
西南油气田数据湖入湖技术研究
陈柯宇,吕昕蓓,孙 韵,秦 超
(中国石油西南油气田分公司通信与信息技术中心,四川  成都  610051)
摘要:基于西南油气田数据湖的建设,需要实现油气勘探、油气开发、协同研究、生产运行、经营管理、安全环保、工程技术等全域数据入湖,为上层应用提供数据支撑。文章对结构化数据、非结构化数据和时序数据的数据特征和存储方式进行研究,结合总部数据入湖的先进技术,形成了数据湖各类型数据的入湖技术方案。
关键词:数据湖;结构化数据;非结构化数据;时序数据;数据入湖doi :10.3969/J.ISSN.1672-7274.2020.12.022中图分类号:F426.22    文献标示码:A    文章编码:1672-7274(2020)12-0058-02
基金项目:西南油气田科研项目“勘探开发梦想云平台在西南油气田的深化应用研究”(20200309-02)。作者简介:陈柯宇(1987-),男,四川南充人,工程师,本科,研究方面为信息技术应用。mean shift
(2)
3可得含水层平均的厚度为11.17m 。引用半径带数值为250m ,当第四系的地下水涌入试采区时,含灰层中的水将会被疏通,所以h 应该为0m 。据资料显示,渗透系数为K=1.47,影响半径为300m ,最大涌水量的变化系数是1.5。将这些数据代入稳定流理论公式可得Q (正常)=60m 3/h ,Q (最大)=93m 3/h 。
由上可得,正常情况下的涌水量为60m 3/h ,最大涌水量为93m 3/h 。当超过正常涌水量时就会容易发生突水水害。
用贝叶斯分类算法进行涌水量的预测,首先要进行突水的概率计算分析,也就是先验概率。表示后验概率,也就是在B 已知的情况下A 事件表示发生突水的概率,表示的是先验概率,就是A 事件本身发生的概率。在这里以往发生突水的概率用A 事件表示。涌水量超过正常值用B博客圈
事件表示。
(3
(4)
运用贝叶斯分类算法预测将来会发生突水的概率,
公式如下
(5)
求解的为指的是求解在已知的情况下的,在这里,指的是在矿井中超过正常涌水量的概率,指的是会发生突水的概率。代入公式所得
,所以该矿井在开采时会发生突水事故的
概率为80%,应该进行水害的防治措施。
程春晓4    结束语
除铁剂本文从大数据介绍,数据挖掘方式,贝叶斯算法简介,涌水量预测四个方式进行介绍。通过贝叶斯算法的先验概率来验证后验概率的性质对水文地质的涌水量进行预测,预测结果为80%,从预测结果来看发生水害的概率很大应提前做好预防措施。
参考文献
[1]  刘文艳.内蒙古哈日根台多金属矿区水文地质特征及矿井涌水量预测研究[D].北京:中国地质大学,2014.
[2]  李冬梅.朴素贝叶斯与决策树混合分类方法的研究[D].大连:大连海事大学,2016.
茶杯门[3]  高昀,程彦培,倪增石,刘方珍,等.近年来国外水文地质研究综述[J].南水北调与水利科技,2008,6:74-79.
[4]  石建省.从第34届国际水文地质大会看水文地质学发展趋势(代序)[J].地球学报,2007,28(6):509-520.
[5]  V . C. Patil , Ajit Maru , G. B. Shashidhara and U. K. Shanwad , Remote Sensing ,GeographicalInformation System and Precision Farming in India : Opportunities andchallenges.
(上接第58页)射;挂接流处理引擎,对数据进行处理分析;标记后的时序数据进行写入数据湖中时序库保存,并进
行查询应用。
图3 时序数据入湖
2    应用效果
建立数据入湖形象进度展示模式,以地质导航为驱动,按照西南油气田分公司、区块、小区块层层递进的方式对各层人员关注的已入湖数据情况进行数据资产可视化展示,包括油田数据总体概览、基本实体的数量以
及非结构化文档的展示等。
图4
3    结束语
针对不同类型的数据,采用成熟的技术,设计具有可操作性的数据入湖方案,保证数据能够全自动、无缝入湖。数据入湖经过实践,取得了良好的应用效果,对实现数据标准的统一,提升数据质量,支持数据共享,改变油田有数据无资产的被动局面具有重要的意义。
参考文献
[1]  MPP Database Architecturehttps :///gpdb-sandbox-tutorials/introduction-greenplum-database-architecture/
[2]  Amazon Simple Storage Service (Amazon S3) guidehttp ://docs.aws.amazon/AmazonS3/latest/gsg/s3-gsg.pdf

本文发布于:2024-09-23 07:30:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/430099.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   进行   入湖   时序   结构化
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议