电力研究院应用平台是一个非常重要的应用平台,对数据的可靠性和安全性具有极高的要求。通过与客户协调,决定使用IBM Pserver小型机和IBM DS4300来搭建这个应用平台的硬件部分。通过IBM AIX操作系统和HACMP 5.3来实现这个硬件平台的高可用性。由于平台只有一个应用程序,为了测试更加方便和直观性,于是决定整个平台为双机热备平台。
整个平台具有以下特点:
1. 应用同时运行在两台主机上,A机对外提供服务,B机做为备用机运行应用。
2. 在平台中,如果网卡和网线出现问题,会及时切换平台,保证平台的应用性。
3. 在应用时,如果应用机(A机)突然断电,应用程序会自动切换到备份机(B机)机器上。保证平台的应用性
硬件平台:
|
Hostname
|
配置
|
备注
|
主机1
|
P55A1/P55A Lpar1
|
2C/4G/2*146G/2*Fc/sa
|
|
主机2
|
P55A2/P55A Lpar1
|
2C/4G/2*146G/2*Fc/sa
|
|
磁盘阵列
|
DS4300 5*146GB (raid5)
|
软件平台:
名称
|
描述
|
备注
|
IBM AIX
|
IBM AIX操作系统
|
|
IBM HA
|
IBM HACMP双机应用软件
|
|
现在整个硬件平台已经架构好,可以安装系统和配置HA软件。以为为配置步骤及注意事项:
1. 规划整个平台的资源
2. ip地址、hostname。
备注:整个平台的Boot、sty、svrIP地址不能在同一个网段,否则HA不能接管
Cluster Name
|
P55Asvr
|
Node Name
|
P55A1
|
SvrIP
|
P55A2
|
IP Label
|
P55A1boot
|
P55A1stby
|
P55A1serv
|
P55A2boot
|
P55A2stby
|
Network Type
|
ether
|
ether
|
ether
|
ether
|
ether
|
Network Attribute
|
public
|
public
|
public
|
public
|
public
|
IP Address
|
192.168.10.11
|
192.168.100.101
|
192.168.1.12
|
192.168.10.10
|
192.168.100.100
|
Adapter Function
|
boot
|
stby
|
service
|
boot
|
stby
|
Adapter Name
|
1En
|
En1
|
|
En0
|
En1
|
3. HA模式规划
Res. Grp. Name
|
Node Rel.
|
Part. Node Name
|
orapp
|
Cascading
|
P55A1 P55A2
|
4. 应用服务规划
App Name
|
Start Script
|
Stop Script
|
P55Asvr
|
/usr/es/sbin/cluster/app/orastart
|
/usr/es/sbin/cluster/app/orastop
|
5. 资源组规划
Res. Grp. Name
|
Service IP
|
|
Application Servers
|
P55Asvr
|
192.168.1.12
|
oravg
|
P55Asvr
|
实施步骤
1. 安装操作系统,调整文件系统和交换空间
2. 配置ip地址,编写/etc/hosts文件
3. 编写.rhosts文件。拷贝到/usr/es/sbin/cluster/etc/rhosts,修改root limits权限
chuser fsize=-1 core=-1 data=-1 stack=-1 rss=-1 nofiles=-1 root
4. 查看是否安装 bos.adt.libm 5.3.0.10 bos.adt.syscalls 5.3.0.10 rsct.compat.basic.hacmp 2.4.2.0 rsct.compat.clients.hacmp 2.4.2.0 oracleIY58143 补丁:bos.adt.prof,bos.cifs_fs.rte
5. 安装ha 5.3,重新启动系统(注意不要安装clvm和pssp包)。确保其他的补丁安装成功
6. 添加tty设备,确保能够够正常通信。1.stty < /dev/tty0 2.stty < /dev/tty0
7. 配置vg
8. # smitty chgsys 设定如下参数为
maximum number of processes allowed per user 2048
HIGH water mark for pending write I/Os per file(32)
LOW water mark for pending write I/Os per file(24)
9. 创建/usr/es/sbin/cluster/app/orastart,orastop文本
10. 查看集群通信守候进程
分别查看 2 个机器上的/etc/inittab 文件的最后几行是否包含以下部分:
clcomdES:2:once:startsrc -s clcomdES >/dev/console 2>&1
主要用于启动Cluster Communications Daemon (clcomd),这也是在配置HACMP
时,运行自动发现过程所需要的
11. HACMP详细配置 在P55A1上 输入
smitty hacmp
按回车
>
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0001.jpg)
输入群集名称,因为这是测试,所以我输入test,并输入通讯地址,注意这里要 输入2个boot地址,如果只输入P55A1boot,那么就只能发现自身。按回车后将 运行自动发现过程
![](http://www.chinapowerful.cn/images/clip_image002_0002.jpg)
这里发现了2个节点P55A1,P55A2,6个接口,群集名称为test等等
退回到主菜单,选择Extended Configuration菜单
![](http://www.chinapowerful.cn/images/clip_image002_0003.jpg)
按回车,选择Extended Topology Configuration
![](http://www.chinapowerful.cn/images/clip_image002_0004.jpg)
按回车,返回到Extended Topology Configuration菜单,并选择Configure HACMP
communication Interfaces/devices按回车按回车,显示已经发现的网络
![](http://www.chinapowerful.cn/images/clip_image002_0005.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0006.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0007.jpg)
![](http://www.chinapowerful.cn/images/clip_image002_0008.jpg)
按回车,选择心跳设备/dev/tty0,2个都要选择
![](http://www.chinapowerful.cn/images/clip_image002_0009.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0010.jpg)
提示添加成功。 然后查看通信接口和设备
12. 返回到Extended Resource Configuration菜单
![](http://www.chinapowerful.cn/images/clip_image002_0011.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0012.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0013.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0014.jpg)
按回车,这里的脚本和应用程序名可以根据实际的情况来更改,但必须在2个节 点上位于相同的路径,使用相同的名称。
![](http://www.chinapowerful.cn/images/clip_image002_0015.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0016.jpg)
应用程序服务器添加完成。 下面我们可以显示一下刚刚建立的应用程序服务器
13. 退回到HACMP Extended Resources Configuration菜单,选择配置服务IP标签/ 地址
![](http://www.chinapowerful.cn/images/clip_image002_0017.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0018.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0019.jpg)
因为这是2个节点公用的服务IP标签/地址,所以选择Configurable on Multiple Nodes
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0020.jpg)
选择服务IP标签/地址所在的网络
![](http://www.chinapowerful.cn/images/clip_image002_0021.jpg)
通过按F4或ESC+4来选择服务IP标签/地址
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0022.jpg)
这样,服务IP标签/地址就添加完成了
14. 返回到Extended Resource Configuration菜单
![](http://www.chinapowerful.cn/images/clip_image002_0023.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0024.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0025.jpg)
输入资源组名称和参与的节点,按回车
![](http://www.chinapowerful.cn/images/clip_image002_0026.jpg)
这样就添加完成资源组了。 下面就是更改资源组,包括添加服务IP地址和应用服务器名
15. 括服务IP标签、应用程序服
![](http://www.chinapowerful.cn/images/clip_image002_0027.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0028.jpg)
因为,我没有磁盘阵列,所以没有配置共享卷组,另外,可以选择Startup, Fallover和Fallback Timer策略
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0029.jpg)
资源组修改完成
16. 返回到Extended Configuration菜单,进行验证并同步
![](http://www.chinapowerful.cn/images/clip_image002_0030.jpg)
按回车
把automatically correct error found during verification 选为yes
把Force sysnchronization if verifyication faile 选为yes
![](http://www.chinapowerful.cn/images/clip_image002_0031.jpg)
![](http://www.chinapowerful.cn/images/clip_image002_0032.jpg)
OK和yes不一定就是完全成功的,你可以通过查找fail来确认有没有错误。
到此整个HACMP配置完成。 这里比较遗憾的是,就是我没有共享磁盘阵列,后来想通过iscsi来实现,最终 也没有成功
<![endif]>17. <![endif]> 测试群集
启动HACMP,在P55A1上,命令行下输入smitty clstart,出现以下界面
![](http://www.chinapowerful.cn/images/clip_image002_0033.jpg)
按回车
18. 查看P55A1上的服务IP标签/地址和群集服务
![](http://www.chinapowerful.cn/images/clip_image002_0035.jpg)
在P55A2上输入smitty clstart,出现如下画面
![](http://www.chinapowerful.cn/images/clip_image002_0036.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0037.jpg)
群集启动完成
19. 查看P55A2上的接口地址和群集服务
![](http://www.chinapowerful.cn/images/clip_image002_0038.jpg)
在P55A1上停止群集,并选择shutdown模式为takeover,这将切换服务IP标签/ 地址
![](http://www.chinapowerful.cn/images/clip_image002_0039.jpg)
按回车
![](http://www.chinapowerful.cn/images/clip_image002_0040.jpg)
从win客户端ping服务IP标签/地址,在准备关闭P55A1节点的群集服务开始之前, 就应该在cmd下运行ping 192.168.1.12 –t,发现整个切换只断了一下,这是因 为,我的测试环境很简单,一般来说,像oracle服务的话,可能需要几十秒钟
然后再次查看P55A2上的接口地址和群集服务
![](http://www.chinapowerful.cn/images/clip_image002_0041.jpg)
可以看到服务IP标签已经切换到了P55A2上。 下面测
20. 试网卡故障的情况
在win客户端上ping 192.168.1.12 –t
再拔掉P55A2 boot网卡的网线
![](http://www.chinapowerful.cn/images/clip_image002_0042.jpg)
发现ping出现断点,然后恢复。 再次查看P55A2上的接口地址,发现服务IP标签/地址已经转移到stdby网卡上, 表示切换成功
![](http://www.chinapowerful.cn/images/clip_image002_0043.jpg)
21. 上面如果测试完成后,说明双机热备已经安装成功
备注:在这个方案中,需要注意一下几点。
1. 两台机器的配置文件和参数要一致。
2. <![endif]> 中心跳线是否能够通信
3. <![endif]> 最重要的是和客户沟通好准备工作,否则实施起来很会麻烦
4. <![endif]> Shutdown 加上参数是不能让运行应用的机器释放资源的,是不能够接管的