手机站
网通分站
电信主站
密 码:
用户名:
当前位置 : 主页>网站运营>建站经验>列表

SavWareHA (又称sentinel)

来源:互联网 作者:west263.com 时间:2008-04-16
西部数码-全国虚拟主机10强!40余项虚拟主机管理功能,全国领先!双线多线虚拟主机南北访问畅通无阻!免费赠送企业邮局,.CN域名,自助建站480元起,免费试用7天,满意再付款! P4主机租用799元/月.月付免压金!

显示监控状态:

  能够运行 smon -d 命令显示,也能够选择菜单Utility->Display Monitor Status 显示。在状态栏一行显示 Normal 系统才能够自动转换,如为 Fallback 则表示已转换到备用状态;如为 Pause 则表示主用或备用系统已被关闭。

更换序列号

  如欲将原来的序列号改为123456,先用命令:reggie -ww 确认后删除原序列号,再用命令reggie -Ap4 -s"123456" 输入新的号。

sdccf 回复于:2004-09-30 00:19:59 容错系统的定义:

  能够对系统中的软件和硬件故障作出相应处理,以确保整个系统能够不因这些故障而导致业务处理中断,从而将因为可能的软件连同硬件故障给整个系统带来的风险将至最低。具备此种能力的系统即为容错系统。

  容错系统设计的一个基本原则是冗余,有两种基本冗余方案:冗余的硬件和冗余的数据存储。冗余的代价往往是资金和时间,例如冗余的硬件会增加用户的设备投资、占据更大的空间、消耗更多的电、系统运行速度会减慢等。因此设计者往往需根据用户的实际可靠性和可用性的需要选择不同的冗余方案。

  许多容错技术需要使用专用的硬件或软件,更多的是二者结合。这也取决于系统的需求:硬件的容错方案往往系统运行速度较快但投资规模较大,软件容错方案可能占用系统开销,但比硬件方案更灵活,尤其是在系统已建立起来之后,并且投资相对小。

容错系统评价体系:

  评价一个系统容错能力的两个指标是可靠性(Reliability)和可用性(Availability)。可靠性指一个系统在一定时间内工作时发生故障的可能性。如一个系统一年内的可靠性为99%意味者系统一年中工作时失败的概率为0.01%,即每100个系统中一年有一台损坏,对于硬件系统来说。随着时间增长,可靠性会逐年降低。可用性指一个系统故障中断工作时间和可持续工作时间的比率。如一个系统的可用性为 99%意味者在一百小时的工作中将有一个小时的故障中断时间。请注意任何一个高可用性的系统都无法避免故障,因此故障恢复的时间和故障的频率必须足够小以获得需要的可用性。高可靠性和高可用性的系统对于许多应用如军事、航天、金融、通信、交通等领域很重要,因为每一分钟的工作中断都会导致经济或生闹卮笏鹗А?

  和可用性相比更具体有效的系统容错性能指标是年均工作中断时间。大多数用户喜欢他们的系统99%的可用,假如这个系统一年工作时间为365天,那么因系统故障引起的工作中断时间为5256分钟,在乘上每分钟因工作中断而导致的经济损失,这个指标很容易换算成可能的经济损失。据IEEE电脑组织最新研究报告,电脑系统一般的故障停工时间为每年500-5000分钟,而很多系统都远远超过了这个标准。

常见的两种双机容错系统模式:

纯软件模式
软件:

•SCO UNIX操作系统两套

•双机容错软件壹套

•数据库或应用系统壹套

硬件:

• PC服务器两台

•以太网卡肆块

•直连网线、串口连线各壹根

共享磁盘阵列柜模式

软件:

•SCO UNIX操作系统两套

•监控软件壹套

•数据库或应用系统壹套

硬件:

•PC服务器两台

•磁盘阵列柜壹或两台

•以太网卡两块

•SCSI连线两根、串口连线壹根


两种模式原理介绍

  由于是双机系统,因此必然存在数据一致性的问题。在纯软件方式下,主用系统和备用系统之间通过TCP/IP协议,对应用数据进行的映像,其映像空间的大小,映像的个数,均可根据应用系统的需要进行配置。这种映像是通过修改SCO UNIX写盘机制而实现的,故不存在任何不同步的现象。并且在数据专用网段上,能够直接调用LLI链路,而不必通过TCP/IP,从而有效提高数据专用网段上的数据传输速度。通过映像数据,物理上把数据库的风险平均分布在两台服务器上。在共享磁盘阵列方式下,双机采用外界共享存贮子系统,因此不存在数据一致性的问题。

  两种双机容错系统都有一个故障监控、转换软件,原理方式都类似。


对两种方式的评价和测试建议:

系统整体可靠性

  纯软件方式下,真正将风险分散到两台服务器上,使系统可靠性真正得到提高。这一结论可通过前面所述的评价容错系统的两个指标可靠性和可用性得到,从可靠性指标来看,假设单台PC服务器的可靠性为100%,主备机同时损坏整个系统才不可用,根据条件概率,同时损坏的概率为:
1-(1-100%)*(1-100%)=99%

  能够得到结论:在纯软件方式下,整个系统的可靠性为99%,风险分散到两台主机上。

  假如使用了共享磁盘阵列柜,假设共享磁盘阵列子系统的可靠性为99%,根据条件概率,主备机同时损坏或磁盘阵列柜损坏即双机系统和磁盘阵列子系统同时完好的概率为:
(1-(1-100%)*(1-100%))*99%=98.01%

  能够得到结论:使用了可靠性高于主机的共享磁盘柜双机容错系统,可靠性仍低于纯软件的双机容错系统;假如采用了100%可靠的磁盘阵列柜,则可靠性和纯软件方式相等;可怕的是采用了可靠性较差的磁盘阵列柜,如磁盘阵列柜的可靠性比所用的主备机可靠性还差或相当,那么根据条件概率计算整个系统可靠性还不如单机运行。
1-(1-100%)*(1-100%))*100%=89.01%<100%

从可用性指标评价:

  由于可用性指标取决于故障后的宕机时间,因此测试可用性往往要在容错系统中模拟尽可能的故障,来测试系统是否对该故障进行冗余、故障的侦测时间、故障的转换及恢复时间。这一方法称故障注入法(Fault Injection),被国内用户广泛使用,根据这一原则,对于双机系统能够注入如下故障进行测试:

  1.硬件故障:硬件故障可分别从主机故障、连线故障、磁盘阵列柜故障、数据硬盘故障四个方面去测试。

  • 主机故障。主机的故障如CPU、电源、主板、总线等故障均可导致备机无法收到主机的心跳信息从而导致转换。测试时可将主机非正常关机,记录转换到备用机的时间和修复后的恢复时间。

文章整理:西部数码--专业提供域名注册虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!