LVS+Keepalived 高可用集群搭建

发布于:2025-02-28 ⋅ 阅读:(11) ⋅ 点赞:(0)

 一、高可用集群:

1.什么是高可用集群:


高可用集群(High Availability Cluster)是以减少服务中断时间为目地的服务器集群技术它通过保护用户的业务程序对外不间断提供的服务,把因软件、硬件、人为造成的故障对业务的影响降低到最小程度。

2.高可用的自动切换/故障转移(FailOver)


通俗地说,即当A无法为客户服务时,系统能够自动地切换,使B能够及时地顶上继续为客户提供服务,且客户感觉不到这个为他提供服务的对象已经更换。 通过上面判断节点故障后,将高可用集群资源(如VIP、httpd等)从该不具备法定票数的集群节点转移到故障转移域(Failover Domain,可以接收故障资源转移的节点)。

3.高可用中的自动侦测:


自动侦测阶段由主机上的软件通过冗余侦测线,经由复杂的监听程序,逻辑判断,来相互侦测对方运行的情况。 常用的方法是:集群各节点间通过心跳信息判断节点是否出现故障。

4.脑裂现象:


在高可用(HA)系统中,当联系2个节点的“心跳线”断开时,本来为一整体、动作协调的HA系统,就分裂成为2个独立的个体。由于相互失去了联系,都以为是对方出了故障。两个节点上的HA软件像“裂脑人”一样,争抢“共享资源”、争起“应用服务”,就会发生严重后果——或者共享资源被瓜分、2边“服务”都起不来了;或者2边“服务”都起来了,但同时读写“共享存储”,导致数据损坏(常见如数据库轮询着的联机日志出错)。

5.脑裂的原因:


因心跳线坏了(包括断了,老化)。 因网卡及相关驱动坏了,ip配置及冲突问题(网卡直连)。 因心跳线间连接的设备故障(网卡及交换机)。 因仲裁的机器出问题(采用仲裁的方案)。 高可用服务器上开启了 iptables防火墙阻挡了心跳消息传输。 高可用服务器上心跳网卡地址等信息配置不正确,导致发送心跳失败。 其他服务配置不当等原因,如心跳方式不同,心跳广插冲突、软件Bug等。

  二、keepalived原理与简介:

1.keepalived是什么


keepalived是集群管理中保证集群高可用的一个服务软件,用来防止单点故障。

2.keepalived工作原理:


keepalived是以VRRP协议为实现基础的,VRRP全称Virtual Router Redundancy Protocol,即虚拟路由冗余协议。

将N台提供相同功能的服务器组成一个服务器组,这个组里面有一个master和多个backup,master上面有一个对外提供服务的vip(该服务器所在局域网内其他机器的默认路由为该vip),master会发组播,当backup收不到vrrp包时就认为master宕掉了,这时就需要根据VRRP的优先级来选举一个backup当master

3.keepalived主要有三个模块:


分别是core、check和vrrp。 core模块为keepalived的核心,负责主进程的启动、维护以及全局配置文件的加载和解析。 check负责健康检查,包括常见的各种检查方式。 vrrp模块是来实现VRRP协议的。

 三、VRRP虚拟路由冗余协议

虚拟路由冗余协议(Virtual Router Redundancy Protocol,简称VRRP)是由IETF提出的解决局域网中配置静态网关出现单点失效现象的路由协议,1998年已推出正式的RFC2338协议标准。

VRRP广泛应用在边缘网络中,它的设计目标是支持特定情况下IP数据流量失败转移不会引起混乱,允许主机使用单路由器,以及即使在实际第一跳路由器使用失败的情形下仍能够维护路由器间的连通性。

那么这个VRRP协议是干嘛用呢?传统上来说我们通过一个路由器上网,如果故障那就不能用了,如果使用2个路由器,有一个故障你就需要手动的设置客户端切换到另外的路由器上,或者使用ARP客户端也可以实现,但总之部署比较麻烦不利于管理,就像下图

image

有没有一种办法可以自动转移而省去手动配置呢?我们就可以通过VRRP协议来实现路由器的故障转移。如下图

image

虚拟路由器是VRRP备份组中所有路由器的集合,它是一个逻辑概念,并不是正真存在的。从备份组外面看备份组中的路由器,感觉组中的所有路由器就像一个 一样,可以理解为在一个组中: 主路由器+所有备份路由器=虚拟路由器。

四、LVS+keepalived高可用集群的大致工作流程: 

在lvs没有实现高可用之前,我们的架构是一台lvs服务器和两台web服务器,由lvs做负载均衡, 将用户的请求按照一定的负载均衡算法,分发给两台web服务器。然而,这种架构有一个很大的痛点,由于我们访问web服务器是由lvs来进行负载均衡,也就是必须经过lvs服务器,从而访问到real-server也就是我们的web服务器。那么当lvs服务器挂掉之后 ,我们就无法达到均衡的去访问web服务器了。所以我们必须使用高可用技术,就是配置两台lvs服务器,在这两台lvs服务器上面都安装上keepalived。在正常情况下,一台lvs服务器作为master另一台lvs服务器作为backup,虚拟的vip只在master服务器上出现。我们只对外暴露出vip让客户进行访问,并不将真实的web服务器的ip暴露给用户,这样能够保证我们web服务器的安全,所以客户只能通过vip来访问我们的web服务器。 当客户通过vip来访问web服务器的时候,会先经过带有vip的服务器,也就是master,再通过master来进行负载均衡。当发生特殊情况:master服务器挂了的时候。此时的vip就会自动跳到backup服务器上,此时我们通过vip来访问web服务器的时候,也会先经过带有vip的服务器,也就是backup,再通过backup来进行负载均衡,从而实现了lvs的高可用。

 五、搭建LVS+Keepalived 高可用集群

服务器说明 IP openEuler 主机名称
lvs调度器 192.168.46.110 lvs01
lvs调度器 192.168.46.120 lvs02
web服务器 192.168.46.130 server1
web服务器 192.168.46.140 server2
client 192.168.46.150 client

DIP: 192.168.46.100

1. 配置lvs调度器(以master为例)

(1)安装LVSkeepalived软件包

yum install -y keepalived ipvsadm

# 检查LVS
lsmod | grep ip_vs

(2)配置转发及防火墙

#修改配置文件
[root@lvs01 ~]# vim /etc/sysctl.conf
#将0改为1
net.ipv4.ip_forward=1

# 启动
[root@lvs01 ~]# sysctl -p

(3)配置keepalived实现LVS负载均衡

a. 首先进行原配置文件的备份保存
[root@lvs01 ~]# cd /etc/keepalived/

# 进行备份
[root@lvs01 keepalived]# cp keepalived.conf{,.bak}

# 进行查看
[root@lvs01 keepalived]# ls
keepalived.conf  keepalived.conf.bak
b. 修改原配置文件(注意:大括号是否完整)
[root@lvs01 keepalived]# vim keepalived.conf
[root@lvs01 keepalived]# cat keepalived.conf
! Configuration File for keepalived

global_defs {
   router_id LVS_1
}

vrrp_instance VI_1 {
    state MASTER
    interface ens160
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
        192.168.46.100
    }
}

virtual_server 192.168.46.100 80 {
    delay_loop 3
    lb_algo rr
    lb_kind DR
    # persistence_timeout 50  #对该地方进行注释,方便测试实验结果
    protocol TCP
    real_server 192.168.46.130 80 {
        weight 1
        TCP_CHECK {
                connect_timeout 3
                nb_get_retry 3
                delay_before_retry 3
                connect_port 80
        }
    }
    real_server 192.168.46.140 80 {
        weight 1
        TCP_CHECK {
                connect_timeout 3
                nb_get_retry 3
                delay_before_retry 3
                connect_port 80
        }

    }
}
参数说明:
virtual_server 192.168.79.110 80 { #定义虚拟服务,需指定IP地址和端口,空格隔开
delay_loop 6 #定义RS运行情况监测时间间隔
lb_algo wrr #定义负载调度算法
lb_kind DR #定义LVS的工作模式
nat_mask 255.255.255.0 #定义虚拟服务的mask
persistence_timeout 300 #定义会话保持时间,S为单位
protocol TCP #指定转发协议
real_server 192.168.79.118 80 { #定义真实服务器IP地址和端口
weight 1 #定义RS的权重
TCP_CHECK { #RS server 健康检查部分
connect_timeout 8 #定义超出8s连接超时
nb_get_retry 3 #定义重试次数
delay_before_retry 3 #定义重试时间间隔
connect_port 80 #定义健康检查端口
}

(4)拷贝master上的keepalived.conf到backup上

[root@lvs01 keepalived]# scp keepalived.conf 192.168.46.120:$PWD

(5)拷贝后,修改配置文件

只需修改三个地方:

1.router_id Director2

2.state BACKUP

3.priority 80

 (6)启动keepalived服务

[root@lvs01 keepalived]# systemctl start keepalived.service

# 查看ip绑定情况
[root@lvs01 keepalived]# ip ad

可以看出lvs01上的ens160上出现了虚拟IP地址,而lvs02上没有出现说明配置正确,否则两台及其都有虚拟IP的话就出现了脑裂。

2. 配置web服务器

(1)安装nginx测试点

[root@server1 ~]# yum install -y nginx

(2)查看80端口是否启动

[root@server1 ~]# netstat -anpt | grep 80
tcp        0      0 0.0.0.0:80              0.0.0.0:*               LISTEN      3046/nginx: master
tcp6       0      0 :::80                   :::*                    LISTEN      3046/nginx: master

(3)自定义web主页

# 编写默认主页内容
echo "test page, `hostname -I`" > /usr/share/nginx/html/index.html

# 设置开机自启动
systemctl enable --now nginx.service

# 进行测试
[root@server1 ~]# curl localhost
test page, 192.168.46.130

(4)编写脚本,进行绑定VIP和抑制arp

配置脚本如下:

#!/bin/sh
#
# Startup script handle the initialisation of LVS
# chkconfig: - 28 72
# description: Initialise the Linux Virtual Server for DR
#
### BEGIN INIT INFO
# Provides: ipvsadm
# Required-Start: $local_fs $network $named
# Required-Stop: $local_fs $remote_fs $network
# Short-Description: Initialise the Linux Virtual Server
# Description: The Linux Virtual Server is a highly scalable and highly
# available server built on a cluster of real servers, with the load
# balancer running on Linux.
# description: start LVS of DR-RIP
LOCK=/var/lock/ipvsadm.lock
VIP=192.168.46.150
. /etc/rc.d/init.d/functions
start() {
PID=`ifconfig | grep lo:10 | wc -l`
if [ $PID -ne 0 ];
then
echo "The LVS-DR-RIP Server is already running !"
else
/sbin/ifconfig lo:10 $VIP netmask 255.255.255.255 broadcast $VIP up
/sbin/route add -host $VIP dev lo:10
echo "1" >/proc/sys/net/ipv4/conf/lo/arp_ignore
echo "2" >/proc/sys/net/ipv4/conf/lo/arp_announce
echo "1" >/proc/sys/net/ipv4/conf/ens160/arp_ignore
echo "2" >/proc/sys/net/ipv4/conf/ens160/arp_announce
echo "1" >/proc/sys/net/ipv4/conf/all/arp_ignore
echo "2" >/proc/sys/net/ipv4/conf/all/arp_announce
/bin/touch $LOCK
echo "starting LVS-DR-RIP server is ok !"
fi
}
stop() {
/sbin/route del -host $VIP dev lo:10
/sbin/ifconfig lo:10 down >/dev/null
echo "0" >/proc/sys/net/ipv4/conf/lo/arp_ignore
echo "0" >/proc/sys/net/ipv4/conf/lo/arp_announce
echo "0" >/proc/sys/net/ipv4/conf/ens160/arp_ignore
echo "0" >/proc/sys/net/ipv4/conf/ens160/arp_announce
echo "0" >/proc/sys/net/ipv4/conf/all/arp_ignore
echo "0" >/proc/sys/net/ipv4/conf/all/arp_announce
rm -rf $LOCK
echo "stopping LVS-DR-RIP server is ok !"
}
status() {
if [ -e $LOCK ];
then
echo "The LVS-DR-RIP Server is already running !"
else
echo "The LVS-DR-RIP Server is not running !"
fi
}
case "$1" in
start)
start
;;
stop)
stop
;;
restart)
stop
start
;;
status)
status
;;
*)
echo "Usage: $1 {start|stop|restart|status}"
exit 1
esac
exit 0
# 创建开机自启动脚本lvs_dr
[root@openEuler ~]# vim /etc/init.d/lvs_rs
 
# 设置编辑权限
[root@openEuler ~]# chmod +x /etc/init.d/lvs_rs
 
# 修改脚本内容
[root@openEuler ~]# vim /etc/init.d/lvs_rs
VIP=192.168.46.100
 
echo "1" >/proc/sys/net/ipv4/conf/ens160/arp_ignore
echo "2" >/proc/sys/net/ipv4/conf/ens160/arp_announce
 
echo "0" >/proc/sys/net/ipv4/conf/ens160/arp_ignore
echo "0" >/proc/sys/net/ipv4/conf/ens160/arp_announce
 
 
# 将 lvs_dr 服务添加到系统的服务列表中
[root@openEuler ~]# chkconfig --add lvs_rs
 
# 将 lvs_dr 服务设置为在系统运行级别 3、4 和 5 时自动启动
[root@openEuler ~]# chkconfig lvs_rs on
 
# 启动该服务
[root@openEuler ~]# systemctl start lvs_rs.service
 
# 查看服务是否启动
[root@openEuler ~]# systemctl status lvs_rs.service
 
# 查看是否运行脚本,存在VIP
[root@openEuler ~]# ip ad

# 查看是否配置成功
[root@openEuler ~]# route -n

3. 测试 

(1)查看VIP在哪个机器上

VIP在lvs01上

(2)在client上访问192.168.46.100

[root@slient ~]# for ((i=1;i<7;i++)) ; do curl 192.168.46.100; done

实现负载均衡!

(3)假设master上的keepalived停止服务,看lvs02是否承担master任务

# 在lvs01 上停止服务
[root@lvs01 ~]# systemctl stop keepalived.service

#查看lvs02 IP地址
[root@lvs02 ~]# ip ad

现象表明,VIP漂移到lvs02上,实现高可用!

(4)关闭server1站点服务

[root@server1 ~]# systemctl stop nginx.service

server1 站点关闭后,再次访问vip我们发现仍能访问到业务。说明我们的高可用集群试验成功。到此实验完毕!