【从入门到放弃-Kubernetes】Kubernetes进阶-pod水平自动伸缩(hpa)

前言

前面 Kubernetes入门 系列,我们学习了k8s的基础知识和简单用法,今天开始我们继续进一步学习,了解一些复杂和高级用法。本文我们学习pod水平自动扩缩容即hpa。
hpa全称是Horizontal Pod Autoscaler,可以基于CPU的利用率或其它指标自动伸缩replication controller、deployment和 replica set 中的 pod 数量。
我们可以根据标准应用系统的CPU等指标的周期性变化情况,通过HPA进行动态扩缩容以此来提高集群的资源利用率。

准备

hpa通过metrics-server,监控集群运行指标触发扩缩容的,使用前需要先确保metrics-server是可用状态。

1
minikube addons list

观察metrics-server是否是可用状态,如果是disabled。则需要执行以下命令开启。

1
minikube addons enable metrics-server

此时执行kubectl top命令即可查看pod、node的cpu、memory的使用消耗情况。

如果想禁用metrics-server,disable即可

1
minikube addons disable metrics-server

启动应用并暴露服务

我们参考官方demo,使用PHP提供http服务,进行CPU密集型计算。观察CPU和pod自动扩缩容情况。

准备镜像

这里创建一个CPU密集型PHP脚本,并打成镜像。

也可以直接用我打好的镜像 registry.cn-hangzhou.aliyuncs.com/larswang/php-hpa:1.0,跳过这一步,直接看Deployment。

文件及源码地址见:AloofJr

1
2
3
4
# Dockerfile
FROM php:7.4.6-apache
ADD index.php /var/www/html/index.php
RUN chmod a+rx index.php
1
2
3
4
5
6
7
8
// index.php
<?php
$x = 0.0001;
for ($i = 0; $i <= 1000000; $i++) {
$x += sqrt($x);
}
echo "OK!";
?>

Deployment

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
apiVersion: apps/v1
kind: Deployment
metadata:
name: php-hpa-deployment
labels:
app: php-hpa
spec:
replicas: 1
selector:
matchLabels:
app: php-hpa
template:
metadata:
labels:
app: php-hpa
spec:
containers:
- name: php-hpa
image: registry.cn-hangzhou.aliyuncs.com/larswang/php-hpa:1.0
ports:
- containerPort: 80
resources:
requests:
cpu: 200m

Service 暴露服务

1
2
3
4
5
6
7
8
9
10
apiVersion: v1
kind: Service
metadata:
name: php-hpa-service
spec:
type: ClusterIP
selector:
app: php-hpa
ports:
- port: 80

HPA

创建HPA

创建hpa设置pod扩缩最多和最少的数量以及执行扩缩容的条件。

1
2
3
4
5
6
7
8
9
10
11
12
apiVersion: autoscaling/v1
kind: HorizontalPodAutoscaler
metadata:
name: php-hpa
spec:
scaleTargetRef:
apiVersion: apps/v1
kind: Deployment
name: php-hpa-deployment
minReplicas: 1 #pod最小数量
maxReplicas: 10 #pod最大数量
targetCPUUtilizationPercentage: 10 #cpu使用率超过10%进行扩容,小于10%缩容

观察HPA运行情况

1
kubectl get hpa

可以看到以下指标
TARGETS:目前CPU使用率是0%,10%是我们设置的扩缩容阙值。
MINPODS:pod最小数量
MAXPODS:pod最大数量
REPLICAS:当前副本数,因为我们的cpu使用率是0%,当前副本数是1。

增加负载

我们使用busybox,不断的对php-hpa-service发起http调用,增加服务端压力。

1
2
3
4
5
# 使用busybox并进入容器
kubectl run -i --rm --tty load-generator --image=busybox /bin/sh

# 不断发起http请求
while true; do wget -q -O- http://php-hpa-service; done

查看hpa情况

cpu利用率143%了,此时REPLICAS还是1,再等一会儿

可以看到REPLICAS已经扩到了10个pod,cpu负载平均到了35%,虽然比我们配置的10%高,但是扩到了最多MAXPODS 10个,所以不会继续扩容了

降低负载

停掉load-generator发压,等几分钟(可以通过–horizontal-pod-autoscaler-downscale-stabilization设置缩容冷却时间,默认五分钟)。

可以看到REPLICAS缩到了1个pod。

总结

上面介绍了根据CPU利用率进行HPA的操作,其实在实际工作中,HPA是一个非常复杂的课题,因为影响应用运行状态的不单单是CPU,会和内存、ERROR数、线程数等多项指标相关。

在扩容时,还要考虑资源额度、数据库连接数等。

在缩容时则需要更小心了,要时刻关注应用的运行状态,是很容易引发容量故障的。

更复杂的还有,应用系统是否非标、是CPU密集型还是内存密集型应用、系统的流量变化周期、如何应对突发流量等等。

欢迎感兴趣或有实战经验的大神们来交流探讨。

文件用到的yaml配置可以在AloofJr找到。