云平台运维体系建设

云平台运维体系建设
一、运维定义
1.云平台运维:为了保障南网云产品正常运转而进行的维护
2.日常维护:维护工程师为了防止系统出现问题做的日常性维护,比如内存清理、系统升级、杀毒检测等;
3.日常巡查:云平台功能、服务器系统、中间件集、产品巡检、服务器资源是否到期等
4.用户权限管理:为避免误操作或技术性方案错误问题导致系统配置被修改,系统受损,收回相关管理员权限,下发普通应用用户权限
5.资源隔离:根据不同产品设立相应的租户,避免资源混用,环境隔离
6.用户报障:使用者反馈的故障;
7.事件:导致系统不能正常运行的事情都是事件。
8.问题:反复发生的事件或者非常重要的事件,上升为问题,问题需要通过分析,到处理方案,通过产品研发等系统性手段进行解决。
9.服务报告:含巡查报告、系统运行分析、总结等内容。
二、组织架构及职责说明
机床数据采集运维体系目前为虚拟架构。主要岗位包括:
船舶智能焊接技术云平台:负责运维主动巡查、故障接报、预处理、工单下发等;
软件运维:负责软件日常维护、升级、故障处理、产品变更、发布。
数据库运维:针对各类型数据库的运维,常见数据库安装升级、迁移等操作
系统运维:负责服务器系统安装、日常维护、漏洞修复、镜像管理、故障处理。
三、    软件/服务器日常维护制度
3.1  软件部指定专人负责服务器维护;
主要工作:
1)定期更新系统补丁;
2)定期升级、加固云防火墙
3)定期更新病毒库,查杀病毒。
4)定期检查CPU、内存、磁盘占有率并维护。
5)定期更改系统管理员密码;
6)Bgain检查系统安全。
四、    配置管理制度
1.工程施工完成,应向服务台提交配置清单及拓扑图等资料存档;
2.硬件更改后,应更新配置清单;
3.软件版本变化后,应更新配置清单;
4.新建服务器后,应更新服务器清单;
5.新建租户后,应更新租户清单;
6.新建网络资源,应更新网络清单。
五、    事件处理制度
1.解决时效
不同的事件有不同的服务等级
移动消防泵
用户等级
解决时效
关键问题
一般问题
不重要问题
等级1
2小时
1天
服务器平台
等级2
3天
5天
等级3
7天
14天
六、    问题管理
激光跟踪仪靶球问题:反复发生的事件或者非常重要的事件,上升为问题,问题需要通过分析,到处理方案,通过产品研发等系统性手段进行解决。
维护部门确认为问题后,服务台负责登记问题并上报,相关部门负责提出解决方案。确定能解决的进入研发等。
七、    变更发布流程
详见《⽣产环境的变更管理》
八、    用户确认
问题最终解决后,解决人员要告知服务台,服务台联系用户确认。
九、    服务报告
每日提交运维报告:说明当日的系统运行情况。
每周提交运维分析报告:统计当期运行情况,对于持续没有解决或者反复发生的事件,单独提出列为问题。

本文发布于:2024-09-22 13:35:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/345243.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:问题   维护   运维   系统   负责   产品   解决   服务器
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议