一种自动化运维监测系统及方法与流程



1.本发明涉及一种自动化运维监测系统及方法,属于信息化管理领域。


背景技术:



2.随着各行各业的信息化水平的要求不断提高、信息化建设工作的深入开展、各种行业性的核心业务系统陆续上线运行,对于信息化系统和设备的运行维护提出了巨大的挑战。
3.目前,大部分企业的信息化管理维护手段仍基本停留在手工或半手工方式,缺乏对it软硬件动态过程的监控与分析手段,使得运维人员不能及时发现故障问题,也不能实时了解设备运行状态和效率;故障发生时,运维人员需到机房现场应对,大大消耗人力和时间成本;当人员流动频繁时,管理维护的经验知识和技术技能得不到很好的共享和传递,运维效率无法保证。


技术实现要素:



4.本发明解决的技术问题是:克服现有技术不足和涉密网络与非涉密网络信息隔离壁垒,提出一种自动化运维监测系统及方法,在满足安全保密的条件下解决了对涉密内网it设备的集中监测与安全运维,同时解决企业依靠人工巡查、现场处理和无法有效传承知识经验问题,提高运维效率,降低运维成本。
5.本发明的技术解决方案是:
6.一种自动化运维监测系统,包括内网运维服务器、双单向光闸和外网自动化运维管理服务器;
7.内网运维服务器用于监测在内网运行的it设备,判断是否需要告警,如需告警,内网运维服务器发送it设备的运维接口数据;内网运维服务器根据接收的运维策略对告警的it设备进行运维处理操作;
8.双单向光闸用于安全传输内网运维服务器、外网自动化运维管理服务器之间的交互数据;
9.外网自动化运维管理服务器根据接收的运维接口数据生成运维策略,并将运维策略经双单向光闸传输至内网运维服务器。
10.优选的,所述的内网运维服务器包括告警生成单元、接口数据处理单元、运维执行单元;
11.告警生成单元根据预设的业务运维需求,制定运维告警机制,包括告警类型、告警等级、告警阈值,并自动生成运维告警函数;
12.接口数据处理单元采集处理被监测it设备的接口数据,将生成的运维接口数据代入运维告警函数进行计算,判断是否达到告警阈值,确定被监测it设备的告警状态;将满足告警阈值的运维接口数据发送至双单向光闸;
13.运维执行单元接收运维策略,根据运维策略确定要进行运维处理的告警it设备,
远程控制告警it设备,执行运维处理操作。
14.优选的,所述接口数据处理单元通过建立接口采集被监测it设备的数据,根据预设的运维数据模板从采集的数据中提取特征值,得到运维接口数据。
15.优选的,被监测it设备包括业务服务器及存储系统、网络设备、数据库设备、业务系统设备;所述接口数据处理单元,通过jason接口接收业务服务器与存储系统的运维数据,通过snmp v3协议接收网络设备的基础数据,通过内置api接口接收数据库设备和业务系统设备的状态数据。
16.优选的,外网自动化运维管理服务器包括运维策略模板库、运维策略生成单元;
17.运维策略模板库存储预设的运维模板和运维指令;
18.运维策略生成单元接收运维接口数据,解析运维接口数据中的告警类型和等级信息,匹配预设的运维模板和运维指令,生成运维信息初始脚本;根据告警it设备的ip、端口号、登录方式,修改初始脚本,形成运维策略数据。
19.优选的,还包括防毒墙,对内网运维服务器发出的数据、外网自动化运维管理服务器发出的数据进行过滤、审计,对发现病毒和恶意代码的数据及时进行阻止并产生报警信息;防毒墙处理通过后数据进入双单向光闸。
20.优选的,双单向光闸还具有对待传输数据的安全检查、完整性校验功能,进行身份认证、数据验签,如上述检查校验不通过则判定为数据不合规,阻断本次传输。
21.优选的,还包括上位机,显示所述接口数据处理单元确定的被监测it设备告警状态。
22.一种自动化运维监测方法,包括:
23.内网运维服务器接收被监测it设备的接口数据;
24.内网运维服务器根据运维告警机制,判断被监测it设备是否满足告警条件,确定被监测it设备的告警状态;
25.内网运维服务器将满足告警阈值的it设备运维接口数据通过双单向光闸发送至外网自动化运维管理服务器;
26.外网自动化运维管理服务器自动匹配运维机制并生成包括运维处理方式和运维指令的运维策略;
27.外网自动化运维管理服务器将运维策略通过双单向光闸发送至内网运维服务器;
28.内网运维服务器执行运维操作,告警it设备解除告警,发送解除标记至内网运维服务器确认后更新状态。
29.优选的,满足告警阈值的it设备运维接口数据、运维策略在通过双单向光闸进行传输前,要进行数据过滤、审计处理。
30.本发明与现有技术相比的优点在于:
31.(1)本发明与现有技术相比,构建与内网安全隔离的外网自动化运维管理服务,解决了现有涉密内网环境下运维软件无法实现的带外管理,进一步通过双单向光闸打通了等级不同的两网运维信息传输壁垒,在满足安全保密的条件下解决了等级不同网络时对涉密内网it设备的集中监测与安全运维,使运维人员无需长期在机房现场值守或到达现场处理故障问题、重复性升级、配置等运维工作,提升了运维管理效率。
32.(2)本发明与现有技术相比,通过配置脚本的方式实现自动运维,无需为每个服务
器、存储系统或数据库设备安装服务代理客户端,降低it设备负担,同时利用脚本维护对运维人员而言易实时按需编辑修改。
33.(3)本发明与现有技术相比,便于对运维知识的集中维护,使运维知识显性化,大大减少了运维工作的学习成本,进而降低了因人员流动造成的企业运维能力降低。
附图说明
34.图1为本发明一种自动化运维监测系统实施例示意图;
35.图2为本发明一种自动化运维监测方法实施例流程图;
36.图3为本发明实施例运维监测实施范围;
37.图4为本发明实施例服务器应用服务异常关闭类型故障问题“一键处理”流程图。
具体实施方式
38.下面结合附图和实施例,进一步阐述本发明。
39.需要进行运维检测的设备位于内网中,内网为国家涉密内网,安全防护等级要求高,现允许部署的运维软件仅能实现操作系统层级以上的监控,无法实现远程开关机、raid创建与重构、远程bios设置等;且运维人员所在非涉密局域网与机房内网分处涉密等级不同的两张网络,在本发明中将非涉密局域网称为非涉密外网,内外网之间无法实现信息交互和共享,设备及系统常规性运维巡检、重复性升级、备份操作等需要实时到机房现场实施,因此本发明提供了一种自动化运维监测系统及方法用以解决涉密内网it设备安全运维管理问题。
40.一种自动化运维监测系统,如图1所示,包括内网运维服务器、防毒墙、双单向光闸和外网自动化运维管理服务器。
41.内网运维服务器部署在安全防护等级要求高的涉密内网机房中,用于收集和读取内网被监测it设备的jason接口数据、snmp trap数据以及其他接口数据。外网自动化运维管理服务器部署在非涉密外网中,两网分处等级不同的两张网络。
42.内网运维服务器和外网自动化运维管理服务器做身份鉴别并通过双单向光闸实现运维数据交互,外网自动化运维管理服务器仅接收由内网运维服务器发送的运维接口数据,内网运维服务器仅接收由外网自动化运维管理服务器发出的运维策略,防止接收来源不明的信息,进而掌控内网运维服务器,从而危害内网it设备安全。
43.对内、外网运维服务器以及双单向光闸的外设接口做接入控制,以防恶意设备接入后植入病毒、木马等,获取运维服务器的操作权,进而对内网it设备造成威胁。
44.内、外网运维服务器均采用三权分离授权并加强操作审计,审计信息包括ip地址、登录用户名、操作对象、操作时间、操作内容以及执行结果等信息,最大程度使运维人员操作受控,同时又能加强操作审计与事件追溯能力。
45.(1)内网运维服务器
46.内网运维服务器包括告警生成单元、接口数据处理单元、运维执行单元。
47.告警生成单元根据预设的业务运维需求,制定运维告警机制,包括告警类型、告警等级、告警阈值等,并自动生成运维告警函数。
48.接口数据处理单元采集被监测it设备的接口数据,并对数据进行解析,根据预设
的运维数据模板生成相应的字段信息得到运维接口数据,并将其存储至数据库中。其中,运维数据模板是根据企业运维需求自定义的包含运维所需的部分重要字段。将运维接口数据代入运维告警函数进行计算,判断是否达到告警阈值,将满足阈值运维接口数据发送至双单向光闸。
49.运维执行单元接收外网自动化运维管理服务器发出的运维策略,匹配目标设备,调用远程接口执行运维命令,对告警设备进行开关机、双活检测,对业务软件、数据库和系统服务的启停与检查或是固定软件更新等。
50.(2)防毒墙
51.防毒墙用于对内网运维服务器、外网自动化运维管理服务器之间传输内容进行过滤、审计,对发现病毒和恶意代码的文件及时进行阻止并产生报警信息,确保上述两服务器交互的数据、文件不存在病毒及恶意代码,尤其确保不会对安全保密等级高、数据敏感度强的内网安全防护产生威胁。
52.(3)双单向光闸
53.双单向光闸用于内网运维服务器、外网自动化运维管理服务器间的数据传输,利用光的单向性原理,使得数据传输具有单向无反馈的特点,保障了上述两个服务器之间的安全隔离。采用双单向光闸,使内网运维服务器不直接与外网自动化运维服务器相连,而是双单向光闸连接,确保经过审核校验的运维告警数据才能传输到非涉密外网,满足内网数据安全。
54.双单向光闸包括内网到非涉密外网单向光闸、非涉密外网到内网单向光闸,上述两个单向光闸均包括数据采集单元、单向传输产品以及数据推送单元。
55.数据采集单元,用于数据的采集、处理和安全传输。首先,进行身份认证及数据验签,并对待传输的数据进行安全检查、完整性校验等工作。根据指定策略校验传输的文件,判定文件扩展名,并分析文件内容以识别其真实格式,如果校验不通过则判定为不合规,阻断本次传输,进行日志记录和结果反馈,通过则将数据传输至单向传输产品。
56.单向传输产品将接收到的数据单向无反馈式地同步至数据推送单元。用在内网到非涉密外网单向光闸上的数据采集单元将内网运维服务器采集的运维告警数据单向传输至外网侧数据推送单元;用在非涉密外网到内网单向光闸上的数据采集单元将外网自动化运维管理服务器发送的运维指令数据从非涉密外网单向传至内网侧数据推动单元。
57.数据推送单元,对提交的数据进行判断,内外网上述两个服务器对数据推送系统进行身份鉴别,如果不通过,则阻断本次传输;按与服务器接口规范进行安全对接,如果不合规,则阻断本次传输,进行日志记录和结果反馈。判断与对接均通过后按照预设的推送策略,将内网收集的运维接口数据安全地推送至外网运维管理服务器上,或将非涉密外网发送的运维策略推送至内网运维服务器上。
58.(4)外网自动化运维管理服务器
59.外网自动化运维管理服务器部署在非涉密外网中。外网自动化运维管理服务器包括运维策略模板库、运维策略生成单元;运维策略模板库存储预设的运维模板和运维指令;运维策略生成单元接收运维接口数据,解析运维接口数据中的告警类型和等级信息,匹配预设的运维模板和运维指令,生成运维信息初始脚本;根据告警it设备的ip、端口号、登录方式,修改初始脚本,形成运维策略数据。
60.一种自动化运维监测方法,如图2所述,包括:
61.1)内网运维服务器接收被监测it设备的接口数据
62.在内网机房部署专用内网运维服务器,通过设备监控网和管理网收集机房被监测it设备的运维接口数据。被监测it设备如图3所示,包括业务服务器及存储系统、网络设备、数据库设备、业务系统设备。
63.本实例中通过jason接口实现服务器与存储系统运维数据采集,通过snmp v3协议采集网络设备基础数据,通过内置api接口实现数据库和业务系统的状态数据采集。内网运维服务器根据企业需求预设的运维数据模板从采集的数据进行特征值提取,得到重点关注的运维字段作为运维接口数据并存储;运维数据模板是根据企业运维需求自定义的包含运维所需的部分重要字段,其中服务器/存储系统运维数据模板包括ip地址、操作系统及版本、mac地址、cpu、内存、raid类型、电源、风扇等字段;网络设备运维数据模板包括ip地址、操作系统及版本、磁盘状态、mac地址、cpu、内存、端口状态、网络流量、链路状态、错包率、丢包率等字段;数据库和业务系统运维数据模板包括ip地址、数据库类型及版本、系统名称及版本、用户最大并发数、用户在线数、服务端口号等字段;内网运维服务器采集it设备数据并对信息进行解析,根据上述运维数据模板分别生成相应的字段信息以得到运维接口数据。内网运维服务器将运维接口数据存放至自身mysql数据库中,并通过b/s架构在前台页面进行可视化。
64.进一步地,对数据库、业务系统运行的服务器运维数据模板实施关联设置,即采用服务器/存储系统运维数据模板和数据库/业务系统运维数据模板双重设置,得到运维接口数据,可联动分析硬件、软件问题,使得运维判断和决策更精准。
65.通过自动采集方式,完全克服了传统涉密内网机房运维模式采用人工定期巡检方式进行,无法及时发现问题、浪费人力资源的缺陷,解决了涉密内网it设备发生故障时身处非涉密外网的运维人员无法第一时间作出判断和控制,致使数据中心的数据安全和应用安全受到威胁的问题。
66.2)内网运维服务器根据运维告警机制,判断被监测it设备是否满足告警条件,确定被监测it设备的告警状态
67.在内网运维服务器上根据业务需求和重要程度设置不同级别的告警等级和机制,包括“紧急”、“严重”、“重要”、“通知”,其中“紧急”表示业务中断需要立即进行故障检修的告警;“严重”表示影响业务需要立即进行故障检修的告警;“重要”表示不影响现有业务,但需进行检修以降低故障发生威胁业务中断的风险;“通知”表示不影响现有业务,但需运维人员注意。
68.针对内网被监控it设备的不同告警等级制定相应的告警阈值,内网运维服务器根据不同的告警机制生成相应的告警函数,输入运维接口数据后通过输出值来判断被测设备是否达到告警阈值,即是否达到相应告警等级的告警条件。
69.3)内网运维服务器将满足告警阈值的it设备运维接口数据通过双单向光闸发送至外网自动化运维管理服务器
70.在本发明实例中,满足告警阈值的运维接口数据先经过防毒墙装置进行病毒检查与恶意代码查杀,处理后的运维接口数据发送至双单向光闸。
71.双单向光闸中的内网到非涉密外网数据传输单向光闸根据指定策略校验传输的
文件,判定文件扩展名,并分析文件内容以识别其真实格式,不符合传输要求则阻断本次传输,进行日志记录和结果反馈,反之则发送至外网自动化运维服务器。
72.4)外网自动化运维管理服务器自动匹配运维机制并生成包括运维处理方式和运维指令的运维策略
73.在本发明实例中,外网自动化运维服务器部署在靠近运维人员办公的非涉密外网环境中,因其与内网运维服务器数据交互均通过双单向光闸,因此在保障了两网安全隔离、数据安全的条件下方便了运维人员实时监控与自动运维。
74.外网自动化运维管理服务器根据已有的、多发的、重复性工作等的运维模板和运维指令内置到系统中。外网自动化运维服务器接收内网it设备告警数据,根据不同告警类型和等级匹配预设的运维机制,运维人员通过修改脚本方式编辑运维信息并提交。
75.5)外网自动化运维管理服务器将运维策略通过双单向光闸发送至内网运维服务器
76.运维信息先通过防毒墙进行病毒检查与恶意代码查杀,确保信息安全后再传至外网到内网数据传输单向光闸。此光闸根据指定策略校验传输的文件,判定文件扩展名,并分析文件内容以识别其真实格式,不符合传输要求则阻断本次传输,进行日志记录和结果反馈,反之则传输至内网运维服务器上。
77.6)内网运维服务器执行运维操作,告警it设备解除告警,发送解除标记至内网运维服务器确认后更新状态
78.在本发明实例中,内网服务器接收运维信息,根据故障类型和指令信息自动确定目标设备,并通过安全的远程认证登录操作,执行具体运维操作,包括对服务器及存储系统开关机、双活检测,对业务软件、数据库和系统服务的启停与检查,对网络设备开关机、自动配置变更,以及防病毒系统特征库的自动升级等。
79.内网被监控设备告警解除后将更新后的状态自动反馈至内网运维服务器,以确保故障得到解决,告警得以消除,防止内网服务器继续向非涉密外网发送运维接口数据。
80.进一步举例说明,如图4所示,内网运维服务器监测到某业务服务器应用系统某一服务异常关闭,造成业务中断;内网运维服务器将此告警等级设置为“紧急”、服务状态设置为“异常”,并对该设备发送的数据进行解析,记录ip地址、服务器的操作系统、数据库类型及版本、系统名称及版本、用户最大并发数、用户在线数、服务端口号等字段信息以得到运维接口数据;内网运维服务器将运维接口数据通过双单向光闸传送至外网自动化运维管理服务器;自动化运维管理服务器根据预设的服务器运维模板和运维接口数据自动匹配运维机制,为管理员提供处理方式模板;运维人员通过查看运维处理方式,并做适度的脚本修改,确定ip地址、端口号、操作类型、操作命令、登录方式等信息后,点击“一键处理”,生成运维方式和运维指令,如ssh:01xx service mysqld restart,其中ssh表示服务器登录方式,01xx表示该ip对应服务器的唯一id,restart表示重启指令,service mysqld restart表示重启mysql数据库服务;系统自动将运维方式和指令通过双单向光闸发送至内网运维服务器;内网运维服务器接收并采用运维方式和运维指令,通过ssh方式联通内网告警服务器,再执行运维脚本重启被异常关闭的服务端口;业务恢复正常后该服务器将更新的状态主动发送给内网运维服务器以消除运维接口数据,并将状态更新为“运行”。
81.以上所述,仅为本发明最佳的具体实施方式,但本发明的保护范围并不局限于此,
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
82.本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

技术特征:


1.一种自动化运维监测系统,其特征在于,包括内网运维服务器、双单向光闸和外网自动化运维管理服务器;内网运维服务器处于国家涉密内网中,用于监测在内网运行的it设备,判断是否需要告警,如需告警,内网运维服务器发送告警it设备的运维接口数据至双单向光闸;内网运维服务器根据接收的运维策略对告警的it设备进行运维操作;双单向光闸用于安全传输内网运维服务器、外网自动化运维管理服务器之间的交互数据;外网自动化运维管理服务器处于非涉密外网中,根据接收的运维接口数据生成运维策略,并将运维策略发送至双单向光闸。2.根据权利要求1所述的一种自动化运维监测系统,其特征在于,所述的内网运维服务器包括告警生成单元、接口数据处理单元、运维执行单元;告警生成单元根据预设的业务运维需求,制定运维告警机制,包括告警类型、告警等级、告警阈值,并自动生成运维告警函数;接口数据处理单元采集处理被监测it设备的接口数据,将生成的运维接口数据代入运维告警函数进行计算,判断是否达到告警阈值,确定被监测it设备的告警状态;将满足告警阈值的运维接口数据发送至双单向光闸;运维执行单元接收运维策略,根据运维策略确定要进行运维处理的告警it设备,并将运维策略转换为it设备所能识别并执行的操作信息,远程控制告警it设备,执行运维操作。3.根据权利要求2所述的一种自动化运维监测系统,其特征在于,所述接口数据处理单元通过建立接口采集被监测it设备的数据,根据预设的运维数据模板从采集的数据中提取特征值,得到运维接口数据。4.根据权利要求3所述的一种自动化运维监测系统,其特征在于,被监测it设备包括业务服务器及存储系统、网络设备、数据库设备、业务系统设备;所述接口数据处理单元,通过jason接口接收业务服务器与存储系统的接口数据,通过snmp v3协议接收网络设备的接口数据,通过内置api接口接收数据库设备和业务系统设备的接口数据。5.根据权利要求1所述的一种自动化运维监测系统,其特征在于,外网自动化运维管理服务器包括运维策略模板库、运维策略生成单元;运维策略模板库存储预设的运维模板和运维指令;运维策略生成单元接收运维接口数据,解析运维接口数据中的告警类型和等级信息,匹配预设的运维模板和运维指令,生成运维信息初始脚本;根据告警it设备的ip、端口号、登录方式,修改运维信息初始脚本,形成运维策略。6.根据权利要求1所述的一种自动化运维监测系统,其特征在于,还包括防毒墙,对内网运维服务器发出的数据、外网自动化运维管理服务器发出的数据进行过滤、审计,对发现病毒和恶意代码的数据及时进行阻止并产生报警信息;防毒墙处理通过后数据进入双单向光闸。7.根据权利要求1所述的一种自动化运维监测系统,其特征在于,双单向光闸还具有对待传输数据的安全检查、完整性校验功能,进行身份认证、数据验签,如上述检查校验不通过则判定为数据不合规,阻断本次传输。8.根据权利要求1所述的一种自动化运维监测系统,其特征在于,还包括上位机,显示
所述接口数据处理单元确定的被监测it设备告警状态。9.一种自动化运维监测方法,其特征在于,包括:内网运维服务器接收被监测it设备的接口数据;内网运维服务器根据运维告警机制,判断被监测it设备是否满足告警条件,确定被监测it设备的告警状态;内网运维服务器将满足告警阈值的it设备运维接口数据通过双单向光闸发送至外网自动化运维管理服务器;外网自动化运维管理服务器自动匹配运维机制并生成包括运维处理方式和运维指令的运维策略;外网自动化运维管理服务器将运维策略通过双单向光闸发送至内网运维服务器;内网运维服务器执行运维操作,告警it设备解除告警,发送解除标记至内网运维服务器确认后更新状态。10.根据权利要求9所述的一种自动化运维监测方法,其特征在于,满足告警阈值的it设备运维接口数据、运维策略在通过双单向光闸进行传输前,要进行数据过滤、审计处理。

技术总结


本发明公开了一种自动化运维监测系统及方法,属于信息化管理领域。其中,该系统包括内网运维服务器、双单向光闸和外网自动化运维管理服务器。内网运维服务器用于监测在内网运行的IT设备,判断是否需要告警,发送IT设备的运维接口数据,并根据接收的运维策略对告警的IT设备进行运维操作;双单向光闸用于安全传输内网运维服务器、外网自动化运维管理服务器之间的交互数据;外网自动化运维管理服务器根据接收的运维接口数据生成运维策略,并将运维策略经双单向光闸传输至内网运维服务器。经双单向光闸传输至内网运维服务器。经双单向光闸传输至内网运维服务器。


技术研发人员:

李蕊 李娇 许佳慧 白洋 杨瑞 王珺

受保护的技术使用者:

北京控制工程研究所

技术研发日:

2022.08.17

技术公布日:

2022/12/8

本文发布于:2024-09-21 17:39:36,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/30041.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:服务器   内网   数据   接口
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议