云平台运维方案

云平台运维方案
1运维目标及对象
云平台的运维工作以保障云平台的稳定性、各个云产品的可用性以及基础软件的可用性为目标,具体运维的产品列表如下:
产品名称
产品描述
ECS
弹性计算服务
RDS
关系型数据库服务
OSS
开放存储服务
SLB
负载均衡服务
OTS
开放结构化数据服务
ODPS
开放数据处理服务
ADS
分析数据库服务
BASE
数据管理服务
ERMS
    云产品管理控制台
2运维工作内容
云平台运维工作内容包括:
1)资源管理
对云平台的物理资源及产品库存资源进行管理。随时掌握产品资源情况,为客户的各种资源需求提供参考和建议,如库存水位超限需及时发出预警。
2)产品技术支持
用户在云产品的开通、使用过程中相关问题的咨询、解答、解决。
3)告警处理及监控优化
及时发现和处理云平台的告警,对现有的监控项不断进行改进和优化。
4)日常巡检
对云平台进行巡检,掌握各类运行情况,提前发现隐患并跟进解决,避免引发故障
5)故障处理
故障的发现、响应、到场排查、初步判定及解决。不能解决的情况,及时联系二线支持,在二线支持的指导下现场解决。故障后,对问题进行review、总结和改进。
6)问题收集及跟进
云平台的全方位问题收集、反馈、并跟进解决,推进专有云产品的不断完善。
3工单及故障处理流程
3.1.工单处理流程
流程关键节点说明
工作内容
简述
主要关键节点说明:
问题提交:用户有任何问题,通过工单平台以工单的形式提单到GOC。
工单流转:用户在阿里通过工单系统提交工单会直接到GOC-监控中心团队。(注:GOC 只处理阿里云平台和产品相关故障,不涉及应用层问题。)
视问题需要,GOC将协调现场支持,现场支持人员可在4小时内到达现场。
交付物
《工单处理记录》
3.2.
故障处理流程
故障处理流程如下:
关键点说明如下:
流程关键节点说明
工作内容
故障主要关键节点说明:
故障来源有2类:监控发现和用户反馈
故障需要确认。计划中的变更引起的异常,用户使用造成的问题等不判定为故障。
报障信息:客户报障需要描述准确故障现象、业务影响、页面URL、IP地址、问题发生时间、报错前操作截图和报错截图、ping和tracert截图等,可引导客户提交工单来提供故障信息。(详情见故障信息提交模板)
确认故障后5分钟内发送故障通告。
如果故障处理超过2小时,故障支持每2小时更新进展。
故障中如需现场支持,GOC将协调人员在4小时内到达现场。
故障后将对问题进行跟踪,包括:问题原因、问题跟进责任人、改进措施、预计解决时间点、验收标准等。
交付物
《故障通告》、《故障报告》
4运维服务方案建议书
1.1运维支持人员
运维支持包括驻场运维及二线运维,驻场运维可以通过电话/工单联系二线运维。
一.1.1  驻场运维
驻场运维人员的工作内容包括各类日常巡检、问题处理、监控优化等以保障平台稳定性及高效运行。同时,驻场运维工程师将视具体需求承担一定的场内运维工程师的技术咨询和培训。
的驻场运维人员:付金龙,电话:185****0051
一.1.2  二线运维
对于云平台的二线运维,提供大客户技术经理、技术支持。
的客户技术经理:电话。
技术支持提供7*24服务,负责日常工单转派和紧急事务的协调。技术支持的后端支持团队包括平台运维、大数据运维、网络运维、数据库运维、技术支持。
问题受理渠道
工单入口
问题受理的官方正式渠道,任何问题均需由场内运维服务提供人员提交工单。
为故障的紧急申报渠道,以及问题处理过程中的辅助沟通渠道。紧急故障驻场运维服务提供人员电话申报后需立即补提工单。紧急问题处理过程,二线运维与驻场运维电话沟通。
1.2日常工作内容
一.1.3  云平台运维
驻场运维人员需要定时对云平台进行巡检工作,以保证专有云运行的安全性和稳定性,及时发现故障和问题,在第一时间进行处理,减少故障带来的损失、维修费用、人员成本和消耗,并提高云平台运行的经济性和完好率,掌握资源的使用情况,包括水位和性能,保证足量资源投入运行,保证投资效果
云平台巡检工作内容请参见 - 附件2 《1110项目云平台巡检手册》
项目
具体工作内容
备注
1.数据备份、迁移类
1、数据库、文件备份与恢复;
2、应用程序备份与恢复 ;
3、多台服务器间的数据库同步;
4、应用程序迁移,包括配置、权限、站点文件、附件等迁移;
5、数据库、文件迁移
6、数据迁移;
2. 技术运维类
1、系统、网站异常排查,日志维护、审计;
2、系统账户维护、异常账户检查;
3、系统各类服务、端口开启与关闭;
4、系统、站点漏洞排查、漏洞修复、病毒及木马清理、防火墙策略、安全加固及调优;
5、各类应用软件安装配置、参数配置、版本升级;
6、磁盘分区、加载及清理空间;
7、数据库配置、重装、升级,报错联调;
8、实时监控系统运行状态检查,联调;
9、系统、网络、数据库、站点运行状况巡检,出具巡检报告;
10、系统资源、应用程序、进程优化;
11、木马、黑客攻击防范;
12、系统、应用程序高可用配置;
13、应用故障、报错排查;
14、网站负载排查、网站配置文件修复、网站代码调试;
15、站点故障排查(针对网站无法打开,访问慢等情况)
3. 环境安装&网站搭建类
1、系统基础环境搭建(IIS、asp、、Apache、nginx、MySQL、FTP等软件安装及参数调整)
2、伪静态组件安装及调试;
3、云平台安全环境配置;
4、云平台状态监测;
5、多机负载均衡配置;
一.1.4  服务器存储运维
项目
具体工作内容
备注
PC服务器和操作系统维护
1.巡检频率:每周一次
2.检查CPU使用情况、内存使用情况、磁盘状况、操作系统日志。
3.每周进行系统分析并提交报告;
 
SAN网络维护
1.巡检频率:每周一次
2.检查系统配置情况、整理标签和线缆
3.每周进行系统分析并提交报告;
 
备份系统
1.巡检频率:每周一次
2.检查备份作业、验证备份有效性、备份介质异地存放。
3.每周进行系统分析并提交报告;
 
存储设备维护
1.巡检频率:每周一次
2.检查硬件状态灯、检查系统配置情况、检查系统日志
3.每周进行系统分析并提交报告;
 
机房巡检
1.巡检频率:每周一次
2.检查机房环境温湿度、配电设备运行情况、空调运行状况等。
3.每周进行系统分析并提交报告;
 
配合应用系统调整配置(大)
1.根据应用系统要求调整服务器、存储配置;
2.较为复杂的,如排查故障。
3.按每套系统每年一次调整计算
厂商进入机房,需陪站
配合应用系统调整配置(小)
1.根据应用系统要求调整服务器、存储配置。
2.较为简单的,如更新程序。
3.按每套系统每半年一次调整计算
厂商进入机房,需陪站
一.1.5  网络管理运维
项目
具体工作内容
网络技术支持
网络诊断解决,按每台设备每年发生1次网络故障计算
网络链路物理问题修复
维修内外网网点的故障, 按每个物理点位每5年发生一次故障计算
网络设备配置信息备份
对网络设备的配置信息进行备份,以备设备故障时恢复。
固定每半年1次,更改后立即备份。
核心网络设备巡检
核心设备状态检查,网络设备路由状态查看每周1次
接入设备巡检
网络设备巡查1个月一次(包括内网和外网)。
内网机房巡检
内网机房巡检每周一次。
一.1.6  桌面运维
项  目
具体工作内容
备注
服务台
1.接听。
2.记录事件,尝试电话解决,一线解决率不低于50%
3.监督现场工程师工作,将事件处理结果反馈给用户。
4.每周分析报告,对于高频事件,升级为问题,交由二线解决。
服务台是运维工作的总调度
现场技术支持(大)
1、现场技术支持,按5年1次频率计算。
2、复杂的,原因未知的故障,如软件冲突、硬件损坏更换。
3、包括PC机、打印机、读卡器等各种硬件设备和操作系统。
厂商现场维修需陪站,存储介质免回收
现场技术支持(中)
1、现场技术支持,按2年1次频率计算。
2、较为复杂的,如重装系统、重装软件、不能按照常规方法排错的。
3、打印机故障,如卡纸、配件损坏。
运维流程管理4、包括PC机、打印机、读卡器等各种硬件设备和操作系统。
 
现场技术支持(小)
1、现场技术支持,按1年2次频率计算
2、较为简单的,如程序使用问题、简单硬件故障、软件调试配置等。
3、包括PC机、打印机、读卡器等各种硬件设备和操作系统。
 
客户端设备巡检
1.巡检频率:每季度一次
2.检查客户端工作是否正常、清理灰尘、整理线缆。
3.检查系统配置和参数是否与文档一致。
 
客户端配置调整
1、根据应用系统需求或网络需求更改客户端配置
2、更改配置时应符合安全规定。
3、按每年一次计算
 
参与组织用户培训
1.参与组织新用户信息系统培训
2.会场准备、设备调试、人员通知、人员考核
3.每季度一次,每次2场
 
日常行政事务
1.设备发放、管理
2.传送公文、领用办公用品
3.其他办公室行政事务
 
1.3服务流程   
一.1.7  运维流程
一.1.7.1  事件管理
事件管理的目标是尽快恢复客户正常的IT服务,将业务操作受到的负面影响降为最低,同时根据服务级别指标确保尽可能高的服务质量和可用性,最大程度上减小事件对客户业务的影响。
运维工程师在日常工作中将及时响应设备的突发故障和其他服务请求,进行处理、协调、升级和记录等工作。以赢得用户高满意度,达到期望的服务质量。
一.1.7.1.1  故障分类
业务故障:由于信息系统硬件设备不能正常运行、应用软件错误、系统接口故障、人为差错等原因,造成信息系统相关功能无法正常使用。
设备故障:信息系统的主备用设备由于各种原因不能正常运行,对业务正常的运行造成隐
患,但尚未影响相关功能的正常使用。
在业务故障和设备故障同时出现的情况下,定义为业务故障。
一.1.7.1.2  事件管理流程目标
准确记录所有事件并进行分类;
以最快的速度帮助用户解决故障或进行故障升级,力求使故障对用户的影响最小化;
准确回答用户的查询问题并给予用户及时地反馈信息,达到故障状态透明化,提高用户满意度;
产生故障的统计汇总报告,提供运维管理所需信息,为工作量的考核提供参考依据。
一.1.7.1.3  事件管理流程图
流程图相关符合说明:
一.1.7.1.4  流程说明
步骤
输入
步骤描述
输出
1.  事件侦测和记录
支持人员填写的事件单、监控工具自动创建的事件单
事件的提交人可以通过各种渠道获取事件信息,包括监控系统;
完整的事件单
驻场支持团队人员负责了解事件症状,准确记录在系统或电子表单中;
其他支持人员如果在日常工作中发现事件,可直接记录在系统或电子表单中并进行分配。
2.  分类和现场支持
完整的事件单
驻场支持团队人员对事件进行分类包括事件的优先级、影响度、紧急度和分类;
分类和分配的事件单
通过查询知识库尝试解决事件;
如果驻场支持团队支持可以解决事件,流程进入步骤“4. 解决和恢复”;
如果驻场支持团队无法解决事件,则将事件根据分类分派给相应的专家支持团队或协调联系第三方设备厂商更换备件支持;
对于无法分类的事件,驻场支持团队人员将事件升级给客户方管理员。
3.  调查和诊断
分类和分配的事件单
专家支持团队对事件进行调查和诊断,给出解决方案,流程进入步骤“4. 解决和恢复”;
解决方案
若未出解决方案且需要对事件请求重新分配,专家技术支持将事件提交事件经理,重新分派此事件;
如果未到解决措施,且专家支持需要到事件的根本原因,专家支持为事件创建问题;或提交给厂商支持进行处理。
4.  解决和恢复
解决方案
根据解决方案解决故障,恢复运行
已解决的事件单
5  联系厂商
厂商报障
联系原厂商/第三方维保服务提供商进行故障处理,或进行备件更换
故障处理记录
6  解决和恢复
解决方案
原厂商/第三方维保服务提供商解决故障,或更换备件,恢复运行。
已解决的事件单
7  故障处理汇报
由运维支持团队向客户提交故障处理报告
故障处理报告
8.与用户确认
已解决的事件单
事件解决后,由驻场支持团队人员与客户方管理员进行确认,如果用户没有确认事件的解决,则重新分配该事件继续进行调查和诊断。
 
如果有新的解决方案,则更新知识库;
9. 事件关闭
已得到用户确认的事件单
得到用户确认后,可将事件关闭,关闭前需要检查信息是否都记录正确。
关闭的事件单
10. 监控事件
事件
该步骤监控所有事件的生命周期;
升级的事件
对关键时间点进行监控,并根据SLA、OLA、UC进行升级。

本文发布于:2024-09-21 16:46:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/356952.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:故障   事件   运维   问题   支持
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议