计算机系统的可靠性

2.2 计算机系统的可靠性与容错性
一般所说的“可靠性(Reliability)”指的是“可信赖的”或“可信任的”。我们说一个人是可靠的,就是说这个人是说得到做得到的人,而一个不可靠的人是一个不一定能说得到做得到的人,是否能做到要取决于这个人的意志、才能和机会。同样,一台仪器设备,当人们要求它工作时,它就能工作,则说它是可靠的;而当人们要求它工作时,它有时工作,有时不工作,则称它是不可靠的。
根据国家标准的规定,产品的可靠性是指:产品在规定的条件下、在规定的时间内完成规定功能的能力。
对计算机系统而言,可靠性越高就越好。可靠性高的系统,可以长时间正常工作,从专业术语上来说,就是系统的可靠性越高,系统可以无故障工作的时间就越长。
容错性是指计算机系统在出现重大的事故或故障(如电力中断、硬件故障)时做出反应,以确保数据不会丢失并且能够继续运行的能力。
2.2.1 可靠性、可用性和可维修性
计算机系统的可靠性用平均无故障时间MTBF(Meantime Between Failures)来度量,指从它开始运行(t=0)到某时刻t这段时间内能够正常运行的概率。系统的可靠性越高,平均无故障时间越长。
motionjpeg可维修性:指计算机的维修效率,通常用平均修复时间MTRF(Mean Time to Repair Fault)来表示。MTRF是指从故障发生到系统恢复平均所需要的时间。
可维修性有时用可维修度来度量。在给定时间内,将一失效系统恢复到运行状态的概率称为可维修度。
可用性(Availability):系统在执行任务的任意时刻能正常工作的概率。系统可用性用可用度来度量。系统在t时刻处于正确状态的概率称为可用度,用A(t)来表示。
A(t)= MTBF / (MTBF + MTRF) ,即:
A(t) =平均无故障时间/ (平均无故障时间+平均修复时间)
影响计算机可靠性的因素有内因和外因内因是指机器本身的因素,包括设计、工艺、结构、调试等因素,元件选择和使用不当、电路和结构设计不合理、生产工艺不良、质量控制不严、调试不当等都会影响计算机的可靠性;外因是指所在环境条件对系统可靠性、稳定性和维护水平的影响。环境条件包括:空气条件、机械条件、电气条件、电磁条件等几个方面。在系统的可靠性工程中,元器件是基础,设计是关键,环境是保证。因此,要提高信息系统的可靠性,除了保证系统的正常工作条件及正确使用和维护外,还要采取容错错、数据备份、双机系统和集等技术。
2.2.2容错系统
容错是用冗余的资源使计算机具有容忍故障的能力,即在产生故障的情况下,仍有能力将指定的算法继续完成。容错技术是指在一定程度上容忍故障的技术,也称为故障掩盖技术(fault masking)。采用容错技术的系统称容错系统。
容错的基本思想首先来自于硬件容错,1950-1970年,硬件容错在理论和应用上都有重大的发展,目前已成为一种成熟的技术并应用到实际系统中,如双CPU,双电源等,军事上出现了容错计算机;软件容错的基本思想是从硬件容错中引伸过来的,70年代中期开始认识到软件容错的潜在作用;数据容错的策略即数据备份;网络容错将硬件容错和软件容错两方面的技术融合在一起并有新的发展。
1. 冗余设计的实现方发
容错主要依靠冗余设计来实现,它以增加资源的办法换取可靠性。由于资源的不同,冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。
(1)硬件冗余
硬件冗余是通过增加线路、设备、部件,形成备份,其基本方法有:
硬件堆积冗余
在物理级可通过元件的重复而获得(如相同元件的串、并联,四倍元件等)。
待命储备冗余
系统中共有M+1个模块,其中只有一块处于工作状态,其余M块都处于待命接替状态。一旦工作模块出了故障,立刻切换到一个待命模块,当换上的储备模块发生故障时,又切换到另一储备模块,直到资源枯竭,显然,这种系统必须具有检错和切换的装置。融合
混合冗余系统
混合冗余系统是堆积冗余和待命储备冗余的结合应用。当堆积冗余中有一个模块发生故障时,立刻将其切除,并代之以无故障待命模块。这种方法可达到较高的可靠性。
上述三种容错基本结构统称K出自N结构。该结构中共有N个相同的模块,其中至少有K个是正常的,系统才能正常运行。这种结构能容忍分别出现在N-K个模块中的N-K个独立的故障,或称其容忍能力是t=N-K。
(2)软件冗余
软件冗余的基本思想是用多个不同软件执行同一功能,利用软件设计差异来实现容错。
(3)信息冗余
信息冗余是利用在数据中外加的一部分信息位,来检测或纠正信息在运算或传输中的错误而达到容错。在通信和计算机系统中,常用的可靠性编码包括:奇偶校验码、循环冗余码CRC、汉明码等。
(4)时间冗余
时间冗余是通过消耗时间资源来实现容错,其基本思想是重复运算以检测故障。按照重复运算是在指令级还是程序级分为指令复执和程序复算。指令复执当指令执行的结果送到目的地址中,如果这时有错误恢复请求信号,则重新执行该指令。程序复算常用程序滚回技术。例如将机器运行的某一时刻称作检查点,此时检查系统运行的状态是否正确,不论正确与否,都将这一状态存储起来,一旦发现运行故障,就返回到最近一次正确的检查点重新运行。
冗余设计可以是元器件级的冗余设计,也可以是部件级的、分系统级的、或系统级的冗余设计。冗余要消耗资源,应当在可靠性与资源消耗之间进行权衡和折衷。
2. 容错系统工作过程
2012年2月6日容错系统工作过程包括自动侦测、自动切换、自动恢复。
(1)自动侦测(Auto-Detect)
运行中自动地通过专用的冗余侦测线路和软件判断系统运行情况,检测冗余系统各冗余单元是否存在故障(包括硬件单元或软件单元),发现可能的错误和故障,进行判断与分析。确认主机出错后,启动后备系统。
侦测程序需要检查主机硬件(处理器与外设部件)、主机网络、操作系统、数据库、重要应用程序、外部存储子系统(如磁盘阵列)等。
为了保证侦测的正确性,防止错误判断,系统可以设置安全侦测时间、侦测时间间隔、侦测次数等安全系数,通过冗余通信连线,收集并记录这些数据,做出分析处理。
数据可信是切换的基础。
(2)自动切换(Auto-Switch)
当确认某一主机出错时,正常主机除了保证自身原来的任务继续运行外,将根据各种不同的容错后备模式,接管预先设定的后备作业程序,进行后续程序及服务。
系统的接管工作包括文件系统、数据库、系统环境(操作系统平台)、网络地址和应用程序等。
如果不能确定系统出错,容错监控中心通过与管理者交互,进行有效的处理,决定切换基础、条件、时延、断点。
(3)自动恢复(Auto-Recovery)
故障主机被替换后,进行故障隔离,离线进行故障修复。修复后通过冗余通信线与正常主机连线,继而将原来的工作程序和磁盘上的数据自动切换回修复完成的主机上。这个自动完成的恢复过程用户可以预先设置,也可以设置为半自动或不恢复。
2.2.3数据备份
数据备份是指将计算机系统中,硬盘上的一部分数据通过恰当的形式转录到可脱机保存的介质(如磁带库、光盘库)上,以便需要时输入计算机系统使用。
数据备份可以防止自然或人为因素使计算机系统中的数据丢失,或由于硬件故障、操作失误、病毒等造成联机数据丢失而带来的损失。它对计算机的安全性、可靠性来说十分重要。
数据备份不仅是数据的保护,其最终目的是为了在系统遇到人为或自然灾难时,能够通过备份内容对系统进行有效的灾难恢复。备份不是单纯的拷贝,管理也是备份重要的组成部分。管理包括备份的可计划性、磁带机的自动化操作、历史记录的保存以及日志记录等。
南中国海问题
1. 数据备份策略
按备份的策略可分为完全备份、差分备份、增量备份。
立德树人立教圆梦
(1)完全备份(full backup)
对包括应用程序和数据库等一个备份周期内的数据完全备份。
这种备份策略的好处是:当发生数据丢失的灾难时,只要用最近一次的备份数据(即灾难发生前一天的备份数据),就可以恢复丢失的数据。然而它亦有不足之处,首先,由于每次都对整个系统进行完全备份,造成备份的数据大量重复。这些重复的数据占用了大量的介质空间,这对用户来说就意味着增加成本。其次,由于需要备份的数据量较大,因此备份所需的时间也就较长。对于那些业务繁忙、备份时间有限的单位来说,选择这种备份策略是不明智的。
(2)增量备份(incremental backup)
跟完全备份不同,增量备份在做数据备份前会先判断,档案的最后修改时间是否比上次备份的时间来得晚。如果不是的话,那表示自上次备份后,这档案并没有被更动过,所以这次不需要备份。换句话说,如果修改日期「的确」比上次更动的日期来得晚,那么档案就被更动过,需要备份。
增量备份常常跟完全备份合用,例如:星期天进行一次完全备份,然后在接下来的六天里只对当天新的或被修改过的数据进行备份。这种备份策略的优点是节省了备份介质空间,缩短了备份时间。但它的缺点在于,当灾难发生时,数据的恢复比较麻烦。例如,系统在星期三的早晨发生故障,丢失了大
量的数据,那么现在就要将系统恢复到星期二晚上时的状态。这时系统管理员就要首先出星期天的那盘完全备份介质(如磁带)进行系统恢复,然后再出星期一的磁带来恢复星期一的数据,然后出星期二的磁带来恢复星期二的数据。很明显,这种方式很繁琐。另外,这种备份的可靠性也很差。在这种备份方式下,各盘磁带间的关系就像链子一样,一环套一环,其中任何一盘磁带出了问题都会导致整条链子脱节。比如在上例中,若星期二的磁带出了故障,那么管理员最多只能将系统恢复到星期一晚上时的状态。
(3)差分备份(differential backup)
就是每次备份的数据是相对于上一次全备份之后新增加的和修改过的数据。例如:管理员先在星期天进行一次系统完全备份,然后在接下来的几天里,管理员再将当天所有与星期天不同的数据(新的或修改过的)进行备份。差分备份策略在避免了以上两种策略的缺陷的同时,又具有了它们的所有优点。首先,它无需每天都对系统做完全备份,因此备份所需时间短,并节省了备份介质空间。其次,它的灾难恢复也很方便。系统管理员只需两份备份介质,即星期天备份与灾难发生前一天的备份,就可以将系统恢复。
在实际应用中,备份策略通常是以上三种的结合。例如每周一至周六进行一次增量备份或差分备份,每周日进行全备份,每月底进行一次全备份,每年底进行一次全备份。
全备份所需时间最长,但恢复时间最短,操作最方便,当系统中数据量不大时,适宜采用全备份;但是随着数据量的增大,可以采用所用时间更少的增量备份或差分备份。各种备份的数据量不同:完全备份>差分备份>增量备份。备份策略角度各方式的比较如表2-1所示。
表2-1备份方式比较
2. 数据备份介质存放的位置
按备份介质存放的位置可分为本地备份、异地备份。
本地备份是在本地硬盘的特定区域备份文件。异地备份是指备份的数据存放在异地。可以将文件备份到与电脑分离的存储介质,如磁带、磁盘、光盘以及存储卡等介质,以后转移到异地,也可以通过网络直接在异地备份。异地备份的备份信息应尽可能远离当前的信息中心。当数据由于系统或人为误操作造成损坏或丢失后,可及时利用本地备份实现数据恢复;当发生地域性灾难(地震、火灾、机器毁坏等)时,可使用异地备份实现数据及整个系统的灾难恢复。
3.数据备份和灾难恢复方案加强人才队伍建设措施
一个完整的数据备份和灾难恢复方案应包括备份硬件、备份软件、备份计划和灾难恢复计划四个部分。
(1)备份硬件
包括硬盘介质存储、光学介质备份和磁带存储技术
(2)备份软件
备份软件主要分两大类:一是各个操作系统厂商在软件内附带的,如NetWare操作系统的“Backup”功能、NT操作系统的“NTBackup”等;二是各个专业厂商提供的全面的专业备份软件,如HPOpenViewOmniBack Ⅱ和CA公司的ARCserveIT等。
对于备份软件的选择,不仅要注重使用方便、自动化程度高,还要有好的扩展性和灵活性。同时,跨平台的网络数据备份软件能满足用户在数据保护、系统恢复和病毒防护方面的支持。一个专业的备份软件配合高性能的备份设备,能够使损坏的系统迅速“起死回生”。
(3)备份计划
灾难恢复的先决条件是要做好备份策略及恢复计划。日常备份计划描述每天的备份以什么方式进行、使用什么介质、什么时间进行以及系统备份方案的具体实施细则。在计划制订完毕后,应严格按照程序进行日常备份,否则将无法达到备份的目的。
(4)灾难恢复
灾难恢复措施在整个备份中占有相当重要的地位。因为它关系到系统、软件与数据在经历灾
难后能否快速、准确地恢复。全盘恢复一般应用在服务器发生意外灾难,导致数据全部丢失、
系统崩溃或是有计划的系统升级、系统重组等情况中。

本文发布于:2024-09-23 16:24:11,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/364481.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

下一篇:系统总体设计
标签:备份   系统   数据   恢复   故障   进行   软件   时间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议