文件编号: 版本号:
一、 总则
为了规范本部门的运维管理工作, 使得相关工作具有持续改善性及相互协作性, 能够支 撑公司系统的健康可靠的运行,由此制定本规范。 本规范合用于信息管理中心技术保障部所有岗位人员。
二、 部门职能
(1) 负责信息化基础设施的技术保障,包括网络、电话、机房、服务器系统、数据 安全等技术支持;
(2) 负责所有服务器系统的技术运维工作
(3) 负责核心数据库的性能调优及技术运维工作
(4) 负责各种网络设施、路线的技术运维保障工作
(5) 负责其他设施的运维保障工作,如机房设施、一卡通、考勤机等智能化设施。
(6) 负责信息化安全的建设与执行;
三、 岗位职责
(1) 经理:
负责信息化基础设施的技术保障,包括,电脑终端、网络、电话、机房、服务器系 统、数据安全等技术支持;
负责信息化安全的建设与执行;
负责本部门的组织管理, 包括, 修订组织职责、 架构编制、 岗位职级、 分工授权等; 负责本部业务制度流程规范的制定和监督执行;
负责本部团队建设,包括,新员工入职、员工培训、绩效考核、员工心政、团队活 动等;
负责本部门工作管理, 包括, 预算编制与管控、计划管理、汇报管理、会议管理等; (2) 系统工程师: 负责所有服务器系统的技术运维工作
负责核心数据库的性能调优及技术运维工作
(3) 网络工程师:
负责各种网络设施、路线的技术运维保障工作
负责其他设施的运维保障工作,如机房设施、一卡通、考勤机等智能化设施 (4) 安全工程师:
负责信息化安全的建设与执行;
(5) 其他说明事项:
系统工程师、 DBA、网络工程师、安全工程师,以下统称运维工程师;
权限控制: 除负责基础设施的网络工程师, 其余工程师不得拥有进入数据中心机房 的权限。网络工程师不得拥有系统工程师的管理权限。
各岗位周期性工作清单见附一。
四、 管理对象
IT基础设施管理对象包括网络、电话、机房、服务器、系统、信息安全等,具体内 容如下:
(1) 网络: XXXX运营中心、 JJJJ工业园、 WWWW工业园、数据中心、北京办事处的网
络建设与维护。
(2) 电话: XXXX运营中心、 JJJJ工业园、 WWWW工业园的电话网络建设与维护。
(3) 机房:数据中心机房的建设与日常维护。
(4) 服务器:服务器软硬件的采购、建设与日常维护。
(5) 系统:操作系统、数据库、应用系统、虚拟化的日常维护。
(6) 信息安全:信息安全建设与维护。
五、 运维规范
(1) 运维工程师,负责岗位职责内相应的IT设施的 《维护手册》的制定和完善、 并 按照本运维规范执行维护管理工作和巡检工作。
(2) 运维工程师应当依据运维过程采集的记录信息, 每月整理出当月的《月度运维
报告》 提报部门经理, 报告中要重点关注IT设施的问题和改进分析, 并提出改进措施和 建议。
(3) 部门经理, 负责保障运维管理体系的有效执行, 包括本运维管理规范的制定和
完善,督导维护工程师完善各设施维护手册。
(4) 部门经理在月度工作会议上就当月各个运维工作报告与团队沟通共识出整改 措施,并形成新的工作计划,推动落实执行。
参考运维手册:
《网络维护手册》
《系统维护手册》
(1) 巡检对象:机房、数据备份、网络、服务器、系统的运行状态。
(2) 巡检周期:每日、每周、每月,详见附一《周期性工作清单》。
(3) 每位运维工程师依据各自维护设施, 按时对检核内容进行检查。 每日: 当日下班前
要把当天检查情况填报检核表。
(4) 部门经理将不定期检查巡检的完成情况。
(5) 巡检期间, 如果发现设备或者系统异常, 应即将上报部门经理并展开调查, 确认故障
的应即将进入故障处理环节。
(1) 使用*******作为统一的监控中心,提供在线监控、流量分析、故障告警;
(2) 设定告警阀值:磁盘阀值 95%,非数据库系统内存阀值 70%,CPU 阀值 70%。
(3) 告警: 达到阀值或者系统中断时, 平台通过短信通知到运维工程师, 运维工程师收到 告警后,应该即将检查系统的健康状况,并在应急预案规定时间内恢复正常;
(1) 根据公司《应急预案》的要求,在规定时限内进行故障恢复;
(2) 预案的安全等级:(详细系统的安全要求,见《应急预案》)
(3) 故障发生时, 运维工程师在无法锁定问题根源时, 应该即将启动应急机制, 在规定 时间内先恢复业务使用,并在非工作时间进行详细的故障排查;
(4) 经过排查仍然无法解决时,应即将向部门经理汇报,并寻求外部资源直至问题解决;
(1) 三权分立:角分为审计员、设备管理员、运维人员,审计员仅能进行审计工作, 对设备管理员和运维人员的行为进行审计,不能创建运维账号,没有系统权限和账号, 无法进行运维工作。 设备管理员保管系统账号及权限分配, 但不能创建运维账号, 也无 法进行运维工作。运维人员只能进行运维工作,没有系统账号及设备管理权限;
(2) 内部运维工程师使用 AD 账号登录堡垒机,进行日常的运维工作;
(3) 外协人员通过暂时创建的运维账号登录堡垒机,进行相关工作;
(4) 任何人员都严禁擅自更改系统的密码、端口等配置;
(5) 审计记录保留一年,审计人员不定期进行抽检;
各运维工程师做为信息服务部的二线支持,收到服务部门的工单请求时应及时对请 求进行反馈或者处理。在半小时内反馈、在4小时内处理完成视为及时。详细流程参见信 息服务部的《IT设施服务管理制度》。
六、 运维流程
IT基础设施运维作业过程中,浮现问题需要用到的流程:事件管理、问题管理、变更管理, 随着运维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。
事件管理流程的主要目标是尽快恢复IT服务, 并减少其对业务的不利影响, 尽可能保证最好 的IT服务质量和可用性。
(1) 事件流程:
运维流程管理
(2) 事件表单