运维发布版本步骤_详解linux运维工具:运维流程管理、运维发布变更、运维...

运维发布版本步骤_详解linux运维⼯具:运维流程管理、运维
发布变更、运维监控告警...
概述
应⽤上线后,运维⼯作才刚开始,具体⼯作可能包括:升级版本上线⼯作、服务监控、应⽤状态统计、⽇常服务状态巡检、突发故障处理、服务⽇常变更调整、集管理、服务性能评估优化、数据库管理优化、随着应⽤PV增减进⾏应⽤架构的伸缩、安全、运维开发⼯作。
今天重点介绍运维流程管理、运维发布变更、运维监控告警三个⽅⾯所需要的⼯具。
1、运维流程管理⼯具
1.发布变更流程管理⼯具
做为系统接⼝与其他⾓⾊的⼯作衔接。并提供审批环节控制发布变更的风险。流程管理⼯具并不负责具体的业务操作的执⾏,只是作为单据系统跟踪流程和确保闭环。
2.告警和突发管理⼯具
体现业务受损的告警⾃动建单管理。⼈⼯确认之后升级为突发单。通过建单来管理告警和突发确保流程的闭环,以及每次故障都能够总结出经验,并为度量业务的可⽤性提供KPI。
2、运维发布变更⼯具
1.版本管理⼯具(数据库)
所有的发布应该以版本管理为起点。研发给的版本包先⼊版本管理⼯具,再从版本管理⼯具分发到现⽹发布。杜绝 rsync ⼀台服务器发布另外⼀台的做法。
2.配置管理⼯具(数据库)
版本加配置等于现⽹每台机器的状态。最粗粒度的配置管理是到 IP 级别,相当于对机器做资产管理,分组到不同的业务,模块和⼤区等业务概念上。细粒度⼀点会管理到进程以及进程的相关配置。
3.配置和版本下发⼯具
把指定的版本,结合配置好的配置下发到现⽹的机器上。不同的版本和配置⽅式需要完全不同的下发⽅式。以 ssh/fabric 为代表的下发⽅式是以脚本为中⼼的。以 puppet/chef 为代表的下发⽅式是以配置为中⼼的。
4.现⽹状态同步⼯具
为了规避现⽹状态漂移,与管理⼯具内的记录不⼀致。需要有⼀个⼯具定时上报现⽹的实际状况。
5.服务调度⼯具
发布变更经常需要⼀个串⾏的流程,先做A模块,再做B模块。很多机器的时候,需要把能并发的操作并发执⾏,不能并发的操作确保串⾏执⾏。同时很多发布变更流程需要操作管理范围外的服务,⽐如云端的DNS服务器记录等。这就需要有⼀个服务调度⼯具统⼀调度配置和版本下发⼯具,流程单据⼯具,以及其他系统的API接⼝共同组装成⼀个流程。
6.资源管理和隔离⼯具
以xen/kvm为代表的⼯具让运维可以更灵活的切割资源。⽐如虚拟机的快速起停,ip在idc内的漂移等。以 lxc/docker 为代表的⼯具让运维可以进⼀步的切割资源到进程级别。资源隔离代理的细粒度的资源控制可以获得更好的资源利⽤率,以及更容易进⾏可伸缩的资源配置。
7.发布变更统⼀界⾯
包装所有的下层⼯具,提供简单的界⾯完成标准化的发布变更操作。
3、运维监控告警⼯具
1.采集⼯具
⼀般是采集⽇志⽂件,也可以是定时轮询 DB 或者其他系统的接⼝。流⾏的开源⽅案是 logstash。
2.收集⼯具
采集⼯具上报给收集⼯具。或者由开发直接修改代码上报指标给收集⼯具。流程的开源⽅案还是 logstash。
3.统计⼊库⼯具
上报可能是每次调⽤就上报⼀次,统计⼯具负责统计出⼀分钟内的次数。上报也可能是每5秒上报⼀次数值,统计⼯具负责统计出⼀分钟内的最⼤值。统计⼯具的存在是为了上报的⽅便。流⾏的开源⽅案是 statsd,也有⼤公司基于 storm 来做⼆次开发的。
4.时间序列数据库
所有定时指标会落地到数据库⾥。监控告警所需要的数据库需要能够⽀撑⾮常⼤的数据量,但是并没有很严格的 ACID 要求。
5.运维事件数据库
记录所有的告警。包括从其他系统获得告警,以及对现⽹的所有变更操作记录。这些数据⽤于⽀撑告警的原因定位。
6.指标异常检测⼯具
基于数学模型发现指标是否与过去的稳定模式背离,⽽推测出现⽹状态的变化。
7.拨测⼯具
定时 PING 或者 HTTP GET,模拟实际⽤户发现服务是否中断,产⽣告警。同时也产⽣指标上报给收集系统。拨测⼜分为本地拨测,和远程拨测。本地拨测可以⽤于发现磁盘只读等本机告警。远程拨测可以模拟⽤户的地理分布,把⽹络的链路状况也包含在拨测覆盖的范围内。
8.告警收敛⼯具
综合所有来源的告警,进⾏频率收敛,根源分析。统⼀汇总成报告催促⼈⼯修复。
9.告警⾃动修复⼯具
接受告警进⾏⾃动化的处理。帮运维完成固定的故障机下架退库等操作。或者在业务本⾝没有做⾼可⽤的情况下,做故障机替换,ip漂移等现⽹修复操作,⼀定程度地提⾼业务可⽤性。
10.告警通知⼯具
重要的告警需要升级为电话。需要有⾼可⽤的电话,短信,等通知接⼝。
运维流程管理
11.监控告警统⼀界⾯
屏蔽下层各种⼯具,提供统⼀的agent安装,指标采集设置,指标曲线展⽰,告警查询的界⾯。从⼀个地⽅就可以知道现⽹的所有问题。
篇幅有限,关于linux运维管理⼯具⽅⾯的内容就介绍到这,实际上基本是只有在甲⽅才有可能实现的⽐较完整,⼤家也可以针对性去做⼀个了解。
后⾯会分享更多关于devops和DBA⽅⾯内容,感兴趣的朋友可以关注下!

本文发布于:2024-09-22 23:18:55,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/357261.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:管理   告警   运维
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议