电力研究院应用平台是一个非常重要的应用平台,对数据的可靠性和安全性具有极高的要求。通过与客户协调,决定使用IBM Pserver小型机和IBM DS4300来搭建这个应用平台的硬件部分。通过IBM AIX操作系统和HACMP 5.3来实现这个硬件平台的高可用性。由于平台只有一个应用程序,为了测试更加方便和直观性,于是决定整个平台为双机热备平台。
整个平台具有以下特点:
1. 应用同时运行在两台主机上,A机对外提供服务,B机做为备用机运行应用。
2. 在平台中,如果网卡和网线出现问题,会及时切换平台,保证平台的应用性。
3. 在应用时,如果应用机(A机)突然断电,应用程序会自动切换到备份机(B机)机器上。保证平台的应用性
硬件平台:
|
Hostname
|
配置
|
备注
|
主机1
|
P55A1/P55A Lpar1
|
2C/4G/2*146G/2*Fc/sa
|
|
主机2
|
P55A2/P55A Lpar1
|
2C/4G/2*146G/2*Fc/sa
|
|
磁盘阵列
|
DS4300 5*146GB (raid5)
|
软件平台:
名称
|
描述
|
备注
|
IBM AIX
|
IBM AIX操作系统
|
|
IBM HA
|
IBM HACMP双机应用软件
|
|
现在整个硬件平台已经架构好,可以安装系统和配置HA软件。以为为配置步骤及注意事项:
1. 规划整个平台的资源
2. ip地址、hostname。
备注:整个平台的Boot、sty、svrIP地址不能在同一个网段,否则HA不能接管
Cluster Name
|
P55Asvr
|
Node Name
|
P55A1
|
SvrIP
|
P55A2
|
IP Label
|
P55A1boot
|
P55A1stby
|
P55A1serv
|
P55A2boot
|
P55A2stby
|
Network Type
|
ether
|
ether
|
ether
|
ether
|
ether
|
Network Attribute
|
public
|
public
|
public
|
public
|
public
|
IP Address
|
192.168.10.11
|
192.168.100.101
|
192.168.1.12
|
192.168.10.10
|
192.168.100.100
|
Adapter Function
|
boot
|
stby
|
service
|
boot
|
stby
|
Adapter Name
|
1En
|
En1
|
|
En0
|
En1
|
3. HA模式规划
Res. Grp. Name
|
Node Rel.
|
Part. Node Name
|
orapp
|
Cascading
|
P55A1 P55A2
|
4. 应用服务规划
App Name
|
Start Script
|
Stop Script
|
P55Asvr
|
/usr/es/sbin/cluster/app/orastart
|
/usr/es/sbin/cluster/app/orastop
|
5. 资源组规划
Res. Grp. Name
|
Service IP
|
|
Application Servers
|
P55Asvr
|
192.168.1.12
|
oravg
|
P55Asvr
|
实施步骤
1. 安装操作系统,调整文件系统和交换空间
2. 配置ip地址,编写/etc/hosts文件
3. 编写.rhosts文件。拷贝到/usr/es/sbin/cluster/etc/rhosts,修改root limits权限
chuser fsize=-1 core=-1 data=-1 stack=-1 rss=-1 nofiles=-1 root
4. 查看是否安装 bos.adt.libm 5.3.0.10 bos.adt.syscalls 5.3.0.10 rsct.compat.basic.hacmp 2.4.2.0 rsct.compat.clients.hacmp 2.4.2.0 oracleIY58143 补丁:bos.adt.prof,bos.cifs_fs.rte
5. 安装ha 5.3,重新启动系统(注意不要安装clvm和pssp包)。确保其他的补丁安装成功
6. 添加tty设备,确保能够够正常通信。1.stty < /dev/tty0 2.stty < /dev/tty0
7. 配置vg
8. # smitty chgsys 设定如下参数为
maximum number of processes allowed per user 2048
HIGH water mark for pending write I/Os per file(32)
LOW water mark for pending write I/Os per file(24)
9. 创建/usr/es/sbin/cluster/app/orastart,orastop文本
10. 查看集群通信守候进程
分别查看 2 个机器上的/etc/inittab 文件的最后几行是否包含以下部分:
clcomdES:2:once:startsrc -s clcomdES >/dev/console 2>&1
主要用于启动Cluster Communications Daemon (clcomd),这也是在配置HACMP
时,运行自动发现过程所需要的
11. HACMP详细配置 在P55A1上 输入
smitty hacmp
按回车
>
按回车
输入群集名称,因为这是测试,所以我输入test,并输入通讯地址,注意这里要 输入2个boot地址,如果只输入P55A1boot,那么就只能发现自身。按回车后将 运行自动发现过程
这里发现了2个节点P55A1,P55A2,6个接口,群集名称为test等等
退回到主菜单,选择Extended Configuration菜单
按回车,选择Extended Topology Configuration
按回车,返回到Extended Topology Configuration菜单,并选择Configure HACMP
communication Interfaces/devices按回车按回车,显示已经发现的网络
按回车
按回车
按回车,选择心跳设备/dev/tty0,2个都要选择
按回车
提示添加成功。 然后查看通信接口和设备
12. 返回到Extended Resource Configuration菜单
按回车
按回车
按回车
按回车,这里的脚本和应用程序名可以根据实际的情况来更改,但必须在2个节 点上位于相同的路径,使用相同的名称。
按回车
应用程序服务器添加完成。 下面我们可以显示一下刚刚建立的应用程序服务器
13. 退回到HACMP Extended Resources Configuration菜单,选择配置服务IP标签/ 地址
按回车
按回车
因为这是2个节点公用的服务IP标签/地址,所以选择Configurable on Multiple Nodes
按回车
选择服务IP标签/地址所在的网络
通过按F4或ESC+4来选择服务IP标签/地址
按回车
这样,服务IP标签/地址就添加完成了
14. 返回到Extended Resource Configuration菜单
按回车
按回车
输入资源组名称和参与的节点,按回车
这样就添加完成资源组了。 下面就是更改资源组,包括添加服务IP地址和应用服务器名
15. 括服务IP标签、应用程序服
按回车
因为,我没有磁盘阵列,所以没有配置共享卷组,另外,可以选择Startup, Fallover和Fallback Timer策略
按回车
资源组修改完成
16. 返回到Extended Configuration菜单,进行验证并同步
按回车
把automatically correct error found during verification 选为yes
把Force sysnchronization if verifyication faile 选为yes
OK和yes不一定就是完全成功的,你可以通过查找fail来确认有没有错误。
到此整个HACMP配置完成。 这里比较遗憾的是,就是我没有共享磁盘阵列,后来想通过iscsi来实现,最终 也没有成功
<![endif]>17. <![endif]> 测试群集
启动HACMP,在P55A1上,命令行下输入smitty clstart,出现以下界面
按回车
18. 查看P55A1上的服务IP标签/地址和群集服务
在P55A2上输入smitty clstart,出现如下画面
按回车
群集启动完成
19. 查看P55A2上的接口地址和群集服务
在P55A1上停止群集,并选择shutdown模式为takeover,这将切换服务IP标签/ 地址
按回车
从win客户端ping服务IP标签/地址,在准备关闭P55A1节点的群集服务开始之前, 就应该在cmd下运行ping 192.168.1.12 –t,发现整个切换只断了一下,这是因 为,我的测试环境很简单,一般来说,像oracle服务的话,可能需要几十秒钟
然后再次查看P55A2上的接口地址和群集服务
可以看到服务IP标签已经切换到了P55A2上。 下面测
20. 试网卡故障的情况
在win客户端上ping 192.168.1.12 –t
再拔掉P55A2 boot网卡的网线
发现ping出现断点,然后恢复。 再次查看P55A2上的接口地址,发现服务IP标签/地址已经转移到stdby网卡上, 表示切换成功
21. 上面如果测试完成后,说明双机热备已经安装成功
备注:在这个方案中,需要注意一下几点。
1. 两台机器的配置文件和参数要一致。
2. <![endif]> 中心跳线是否能够通信
3. <![endif]> 最重要的是和客户沟通好准备工作,否则实施起来很会麻烦
4. <![endif]> Shutdown 加上参数是不能让运行应用的机器释放资源的,是不能够接管的