本文涉及到有关SavWareHA的具体安装技术细节请参考《SavWareHA手册》。
在SavWareHA软件的安装过程中应遵守以下步骤:
1、操作系统安装、配置。
如在现已运行的系统上安装能够省略这个步骤。要注意主备机操作系统的序列号不能重复,否则会导致网络速度较慢甚至系统用户数变为单用户等问题,SavWareHA软件的登记注册也会涉及到这一问题。在划分文档系统时注意给要映像的数据划出单独的文档系统。
2、数据备份和恢复。
由于SavWareHA是对主机系统包括数据库进行备份,在安装过程中不慎误操作可能导致数据丢失等严重问题,并且由于可能的灾难等原因,双机热备份系统本身也不能完全替代传统的数据备份手段,因此在主机系统做任何调整、维护之前,包括安装SavWareHA之前都要先对数据进行备份再进行操作。并且要将数据备份尝试恢复,确保数据备份是能够恢复的。注意假如使用设备备份的方法(如Dump、dd等),不能采用原始设备的映像方式,因为恢复时设备的大小会改变而无法恢复。
3、映像方式选择。
SavWareHA在SCO UnixWare7上只支持文档系统映像方式,在SCO Open Server上能够支持文档系统和原始设备两种映像方式,两种方式的主要区别是文档系统是操作系统提供的用户IO界面,原始设备是数据库直接读写文档系统设备的方式,前者的长处是能够利用操作系统提供文档缓冲从而加快IO读写速度,在SavWareHA中的配置和安装都比较简单,缺点是突然掉电等故障会导致文档系统损坏而丢失数据,但现代的UNIX文档系统结构都是日志型的,所以也是很安全的;后者的长处是数据库空间利用较充分,缺点是在SavWareHA配置、维护都远比文档系统复杂。
4、在IOLink上IP地址方案的选择。
IOLink指连接客户端的网络,在这个网络上双机应对外提供同一个IP地址,SavWareHA在SCO UnixWare7上的版本只能支持IP漂移的方案,在SCO Open Server上的版本能够支持IP漂移和同一IP两种方案。IP漂移方案是主备机各有一个内部的IP地址,对外使用的IP地址随着主备机运行状态的改变能够绑定在任何一个系统上,三个地址要在同一个网段上,这个方案对任何网卡都能够支持,缺点是要多占用两个IP地址资源。同一IP方案的长处是节省IP地址资源,缺点是只有特定的3COM、Intel、SMC三个厂商的网卡才能使用这种方案,所以在IP资源允许的情况下应尽量在IOLink上使用IP漂移的方案。
5、安装SavWareHA。
以上方案定好后能够按照手册中的安装步骤指定主备机、建立映像、设定IP漂移或修改MAC地址、编写启动、关闭应用的脚本依次安装SavWareHA。
6、测试。
安装结束后,实施人员应先自己对SavWareHA进行必要的测试。应先对启动、关闭应用系统的脚本进行测试,这些脚本往往存在一些问题导致转换时系统故障。然后具体的测试项目能够参照《测试计划》中的内容进行。测试的目标是系统能进行转换,并且系统正常的启动关闭都没有问题。
7、软件登记注册。
SavWareHA会相对应操作系统序列号产生一组注册请求码,将这组请求码返回给供给商后会得到一组注册码,注册后才能正常运行。否则会有30天的评估运行期,过期后映像会停止,系统将不会自动转换,但不会丢失数据。一定要注意安装多套SavWareHA的各个操作系统序列号也不要重复。
(二)SavWareHA测试规范
本文的是写给安装、配置SavWareHA的项目实施工程师,目的是介绍对SavWareHA双机系统安装后的测试方法,用于SavWareHA系统供给商具体工程实施时系统测试计划、测试报告的编写。要注意具体的测试计划需根据用户的具体需求而定,因为具体测试的项目越多,系统配置就越复杂,从而测试环境需要也越高,用户的维护工作也越多。
SavWareHA双机热备份软件的具体功能介绍参见《SavWareHA技术白皮书》一文。在具体指定测试计划或测试方案时应对所要测试的各个项目事先自测一次,以排除配置过程中出现的错误。
在具体工程实施中我们对SavWareHA进行测试的目的是检查SavWareHA是否能达到预期的容错效果。因此测试时要在容错系统中模拟各种故障,来测试系统是否对该故障进行冗余、故障的侦测时间、故障的转换及恢复时间。由于SavWareHA双机完全冗余备份,所以原则上能够对任何一种故障进行测试。这一方法称故障注入法(Fault Injection),被国内用户广泛使用。根据这一原则,对于SavWareHA能够注入如下故障进行测试:
1.硬件故障:硬件故障可分别从主机故障、连线故障、数据硬盘故障四个方面去测试。
• 主机故障。通常用户如不做特别需要,仅做这一种测试就能够了。主机的故障如CPU、电源、主板、总线等故障均可导致备机无法收到主机的心跳信息从而导致转换。测试时可将主机非正常关机,记录转换到备用机的时间和修复后的恢复时间。
• 连线故障:能够拔掉双机之间的各种连线如网线、RS232线、SCSI线等。记录转换到备用的时间和修复后的恢复时间。
• 数据硬盘的故障。分别针对两种容错系统对连线故障的反映,在纯软件双机容错系统中,数据盘的故障据称会将数据的读写转到备机执行,而应用系统的执行仍在主机而不会转换;对于共享磁盘阵列系统数据盘至少做RAID5的容错可容余一块硬盘,因此一块硬盘的故障不会影响系统运行,但在恢复时要考察系统是否能在线恢复。测试数据盘的故障可通过拔插数据盘来测试系统的反映和转换及恢复的时间。注意这种测试有可能会导致硬盘损坏。
2.软件故障:软件故障应从操作系统和应用系统两方面去测试。
• 操作系统故障。指操作系统发生严重的故障核心异常(Kernel Trap)、系统因争夺资源而引起的死锁(Dead Lock)等。致使主用机无法正常发出心跳信息,以备机接受不到主机信息为条件,可参照主机故障记录测试结果。
• 应用系统故障。在客户机服务器模式的应用中,服务器端往往只有数据库监听进程属应用系统范畴,应用故障后系统应能够据用户的需要转换或仅发出警告。因此测试时能够非正常杀掉这个进程,测试系统对该故障的反映和转换及恢复的时间。这个测试主要是检查应用的进程是否在进程队列当中,如要达到更高的需要如数据库空间满等则需要专门设计。
文章整理:西部数码--专业提供域名注册、虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!




