06.Kubernetes 学习笔记：存储管理与数据持久化

九、存储管理：数据持久化的艺术#

1. 为什么Kubernetes需要存储管理#

1.1 容器数据的”短命”问题#

容器的本质特性是临时的，删除后数据全部丢失。这对于有状态应用（如数据库）是致命的。

演示问题：

1
# 启动MySQL，写入数据
2
kubectl run mysql --image=mysql:8.0 --env="MYSQL_ROOT_PASSWORD=pass"
3
kubectl exec mysql -- mysql -uroot -ppass -e "CREATE DATABASE testdb;"
4

5
# 删除Pod
6
kubectl delete pod mysql
7

8
# 重新创建，数据消失
9
kubectl run mysql --image=mysql:8.0 --env="MYSQL_ROOT_PASSWORD=pass"
10
kubectl exec mysql -- mysql -uroot -ppass -e "USE testdb;"
11
# 报错：Database doesn't exist

Kubernetes的存储挑战：

Pod漂移：Pod可能在不同节点重启
多副本共享：多个Pod需访问同一数据
生命周期管理：存储生命周期独立于Pod

1.2 存储架构总览#

Kubernetes通过四层架构解决存储问题：

graph TB subgraph "用户层" Pod["Pod 使用存储"] end subgraph "申请层" PVC["PVC 存储申请"] end subgraph "资源层" PV["PV 存储资源"] SC["StorageClass 自动创建PV"] end subgraph "实现层" Backend["后端存储 NFS/Ceph/云盘"] end Pod -->|volumes| PVC PVC -.绑定.-> PV SC -.动态创建.-> PV PV -->|挂载| Backend

四大组件：

组件	角色	说明
Volume	最基础	Pod内定义，生命周期绑定Pod
PV	存储资源	集群级，代表真实存储空间
PVC	存储申请	用户申请，自动匹配PV
StorageClass	自动化	动态创建PV，存储分类

静态 vs 动态供给：

1
静态供给：
2
管理员手动创建PV → 用户创建PVC → 自动绑定
3

4
动态供给：
5
用户创建PVC（指定StorageClass）→ 自动创建PV → 自动绑定

2. Volume：最基础的存储#

2.1 emptyDir：临时共享存储#

emptyDir 是最简单的Volume，Pod创建时自动创建，Pod删除时数据丢失。

使用场景：

容器间数据共享
临时缓存
计算中间结果

示例：

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: emptydir-demo
5
spec:
6
  containers:
7
  - name: writer
8
    image: busybox
9
    command: ['sh', '-c', 'echo "Hello" > /data/msg.txt; sleep 3600']
10
    volumeMounts:
11
    - name: shared-data
12
      mountPath: /data
13

14
  - name: reader
15
    image: busybox
16
    command: ['sh', '-c', 'while true; do cat /data/msg.txt 2>/dev/null; sleep 5; done']
17
    volumeMounts:
18
    - name: shared-data
19
      mountPath: /data
20

21
  volumes:
22
  - name: shared-data
23
    emptyDir: {}      # 使用磁盘
24
    # emptyDir:
25
    #   medium: Memory  # 使用内存（更快）

2.2 hostPath：挂载宿主机目录#

hostPath 将宿主机目录挂载到Pod。

⚠️ 注意：

不同节点路径可能不同
有安全风险
不推荐生产环境

示例：

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: hostpath-demo
5
spec:
6
  containers:
7
  - name: nginx
8
    image: nginx:1.20
9
    volumeMounts:
10
    - name: host-data
11
      mountPath: /usr/share/nginx/html
12

13
  volumes:
14
  - name: host-data
15
    hostPath:
16
      path: /data/nginx
17
      type: DirectoryOrCreate

hostPath类型：

type	说明
DirectoryOrCreate	目录不存在则创建
Directory	必须存在的目录
File	必须存在的文件

3. PersistentVolume（PV）：持久化存储资源#

3.1 PV核心概念#

PV 是集群级别的存储资源，由管理员创建或StorageClass动态创建。

特点：

独立于Pod生命周期
集群级资源（无namespace）
代表真实存储空间

PV生命周期：

1
Available（可用）→ Bound（已绑定）→ Released（已释放）→ Failed（失败）

3.2 PV配置详解#

1
apiVersion: v1
2
kind: PersistentVolume
3
metadata:
4
  name: pv-nfs-001
5
spec:
6
  capacity:
7
    storage: 10Gi
8

9
  accessModes:
10
  - ReadWriteOnce
11

12
  persistentVolumeReclaimPolicy: Retain
13

14
  storageClassName: nfs-storage
15

16
  nfs:
17
    server: 192.168.100.14
18
    path: /data/nfs/pv-001

3.3 访问模式（AccessModes）#

模式	缩写	说明	适用场景
ReadWriteOnce	RWO	单节点读写	数据库
ReadOnlyMany	ROX	多节点只读	静态资源
ReadWriteMany	RWX	多节点读写	共享文件系统

不同存储支持的模式：

存储类型	RWO	ROX	RWX
hostPath	✅	❌	❌
NFS	✅	✅	✅
Ceph RBD	✅	✅	❌
云盘	✅	❌	❌

3.4 回收策略（ReclaimPolicy）#

策略	说明	适用场景
Retain	保留数据，需手动清理	生产环境
Delete	自动删除PV和数据	动态供给
Recycle	删除数据（已废弃）	不推荐

4. PersistentVolumeClaim（PVC）：存储申请#

4.1 PVC核心概念#

PVC 是用户对存储的申请，类似于Pod对CPU的申请。

特点：

命名空间级资源
用户无需知道底层存储细节
K8s自动匹配PV

4.2 PVC配置#

1
apiVersion: v1
2
kind: PersistentVolumeClaim
3
metadata:
4
  name: mysql-pvc
5
  namespace: default
6
spec:
7
  accessModes:
8
  - ReadWriteOnce
9

10
  resources:
11
    requests:
12
      storage: 10Gi
13

14
  storageClassName: nfs-storage

4.3 PVC绑定规则#

K8s如何选择PV？

1
匹配条件（全部满足）：
2
1. accessModes 匹配
3
2. storage大小满足（PV >= PVC）
4
3. storageClassName 匹配
5

6
优先级：
7
1. 大小精确匹配
8
2. 最小满足（PV略大于PVC）

4.4 Pod使用PVC#

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: mysql-pod
5
spec:
6
  containers:
7
  - name: mysql
8
    image: mysql:8.0
9
    volumeMounts:
10
    - name: mysql-data
11
      mountPath: /var/lib/mysql
12

13
  volumes:
14
  - name: mysql-data
15
    persistentVolumeClaim:
16
      claimName: mysql-pvc

5. StorageClass：自动化存储供应#

5.1 StorageClass是什么#

StorageClass 是存储的”自动售货机”，用户申请存储时自动创建PV。

功能：

定义存储类型和参数
自动创建PV（动态供给）
不同性能等级（SSD/HDD）

5.2 StorageClass配置#

1
apiVersion: storage.k8s.io/v1
2
kind: StorageClass
3
metadata:
4
  name: nfs-storage
5
provisioner: nfs-provisioner
6
parameters:
7
  archiveOnDelete: "false"
8
reclaimPolicy: Delete
9
volumeBindingMode: Immediate

关键字段：

字段	说明
provisioner	存储供应器（如nfs-provisioner）
parameters	供应器特定参数
reclaimPolicy	PV回收策略
volumeBindingMode	绑定模式（Immediate/WaitForFirstConsumer）

5.3 设置默认StorageClass#

1
apiVersion: storage.k8s.io/v1
2
kind: StorageClass
3
metadata:
4
  name: nfs-storage
5
  annotations:
6
    storageclass.kubernetes.io/is-default-class: "true"
7
provisioner: nfs-provisioner

1
# 查看默认StorageClass
2
kubectl get storageclass
3
# NAME                    PROVISIONER         AGE
4
# nfs-storage (default)   nfs-provisioner     1d

6. 主流后端存储对比#

后端存储是PV真正存储数据的地方，选择合适的存储方案至关重要。

6.1 存储方案对比#

存储类型	性能	可靠性	复杂度	成本	访问模式	适用场景
hostPath	⭐⭐⭐	⭐	⭐	免费	RWO	开发测试
NFS	⭐⭐	⭐⭐	⭐⭐	低	RWO/ROX/RWX	开发环境、小规模生产
Ceph/Rook	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	中	RWO/ROX/RWX	企业级生产环境
云盘（EBS）	⭐⭐⭐	⭐⭐⭐	⭐	高	RWO	云环境生产
对象存储（S3）	⭐⭐	⭐⭐⭐	⭐	中	ROX	静态资源、备份

6.2 详细分析#

1. hostPath（宿主机目录）

1
优点：
2
✅ 简单直接，无需额外配置
3
✅ 性能最好（本地磁盘）
4
✅ 零成本
5

6
缺点：
7
❌ 数据绑定节点，Pod漂移会丢失数据
8
❌ 无法多节点共享
9
❌ 安全风险高
10

11
适用场景：
12
- 开发测试
13
- 单节点集群
14
- DaemonSet日志收集

2. NFS（网络文件系统）

1
优点：
2
✅ 支持RWX多节点读写
3
✅ 配置简单
4
✅ 成本低
5

6
缺点：
7
❌ 性能一般（网络IO）
8
❌ 单点故障风险（NFS Server挂了全挂）
9
❌ 不适合高并发
10

11
适用场景：
12
- 开发环境
13
- 小规模生产（非核心业务）
14
- 共享配置文件

3. Ceph/Rook（分布式存储）

1
优点：
2
✅ 高可用（数据多副本）
3
✅ 可扩展（横向扩展）
4
✅ 性能好
5
✅ 支持RWX
6

7
缺点：
8
❌ 部署复杂
9
❌ 需要专业运维
10
❌ 资源消耗大（至少3节点）
11

12
适用场景：
13
- 企业级生产环境
14
- 大规模集群
15
- 对数据可靠性要求高

4. 云盘（EBS/GCE Disk）

1
优点：
2
✅ 高可用（云厂商保障）
3
✅ 易用（云平台集成）
4
✅ 性能可选（SSD/HDD）
5
✅ 快照备份方便
6

7
缺点：
8
❌ 只支持RWO
9
❌ 成本较高
10
❌ 绑定云厂商
11

12
适用场景：
13
- 云环境生产
14
- 数据库存储
15
- 单实例应用

5. 对象存储（S3/OSS）

1
优点：
2
✅ 无限容量
3
✅ 高可用
4
✅ 成本低（按量付费）
5

6
缺点：
7
❌ 不支持POSIX文件系统
8
❌ 只适合读多写少场景
9

10
适用场景：
11
- 静态资源（图片、视频）
12
- 备份归档
13
- 大数据存储

6.3 选择建议#

graph TD Start[选择存储方案] --> Q1{生产环境?} Q1 -->|否| Dev[开发测试环境] Q1 -->|是| Q2{云环境?} Dev --> hostPath[hostPath 快速简单] Dev --> NFS1[NFS 共享文件] Q2 -->|是| Cloud[云盘 EBS/GCE Disk] Q2 -->|否| Q3{需要RWX?} Q3 -->|是| Q4{规模大?} Q3 -->|否| Local[本地盘 或云盘RWO] Q4 -->|是| Ceph[Ceph/Rook 企业级] Q4 -->|否| NFS2[NFS 小规模]

⚠️ 生产环境建议：

1
1. 能用云存储就用云存储（省心）
2
2. 自建存储需要专业运维团队
3
3. 数据库等核心应用使用高可用存储
4
4. 定期备份，备份，备份！

7. 实战1：使用hostPath实现持久化#

7.1 实战目标#

使用hostPath验证数据持久化，理解存储的基本原理。

场景： 创建Nginx Pod，使用hostPath存储网页，验证Pod删除后数据是否保留。

7.2 准备工作#

1
# 在node1节点创建目录
2
ssh root@192.168.100.21
3
mkdir -p /data/nginx-html
4
echo "<h1>Hello from hostPath - v1</h1>" > /data/nginx-html/index.html

7.3 创建使用hostPath的Pod#

hostpath-nginx.yaml：

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-hostpath
5
  labels:
6
    app: nginx
7
spec:
8
  # 指定调度到node1（hostPath绑定节点）
9
  nodeSelector:
10
    kubernetes.io/hostname: k8s-node1
11

12
  containers:
13
  - name: nginx
14
    image: nginx:1.20
15
    ports:
16
    - containerPort: 80
17
    volumeMounts:
18
    - name: html-data
19
      mountPath: /usr/share/nginx/html
20

21
  volumes:
22
  - name: html-data
23
    hostPath:
24
      path: /data/nginx-html
25
      type: Directory
26
---
27
apiVersion: v1
28
kind: Service
29
metadata:
30
  name: nginx-hostpath
31
spec:
32
  selector:
33
    app: nginx
34
  ports:
35
  - port: 80
36
    nodePort: 30090
37
  type: NodePort

1
kubectl apply -f hostpath-nginx.yaml

7.4 测试数据持久化#

1
# 1. 访问Nginx
2
curl http://192.168.100.21:30090
3
# 输出：<h1>Hello from hostPath - v1</h1>
4

5
# 2. 在容器内修改文件
6
kubectl exec nginx-hostpath -- sh -c 'echo "<h1>Modified in container - v2</h1>" > /usr/share/nginx/html/index.html'
7

8
# 3. 再次访问，看到更新
9
curl http://192.168.100.21:30090
10
# 输出：<h1>Modified in container - v2</h1>
11

12
# 4. 删除Pod
13
kubectl delete pod nginx-hostpath
14

15
# 5. 重新创建Pod
16
kubectl apply -f hostpath-nginx.yaml
17

18
# 6. 数据还在！
19
curl http://192.168.100.21:30090
20
# 输出：<h1>Modified in container - v2</h1>
21

22
# 7. 在宿主机上验证
23
ssh root@192.168.100.21 "cat /data/nginx-html/index.html"
24
# 输出：<h1>Modified in container - v2</h1>

⚠️ 测试Pod漂移问题：

1
# 删除nodeSelector，让Pod可以调度到任意节点
2
kubectl delete -f hostpath-nginx.yaml
3

4
# 修改YAML，去掉nodeSelector
5
# 重新创建
6

7
# 如果Pod调度到node2，会发现访问失败
8
# 因为node2的/data/nginx-html目录不存在或为空

结论：

✅ 数据持久化成功
❌ 但数据绑定节点，不适合生产环境

8. 实战2：使用NFS实现动态供给#

8.1 实战目标#

部署NFS服务器和NFS Provisioner，实现PVC自动创建PV的动态供给。

8.2 部署NFS服务器#

在harbor机器（192.168.100.14）上安装NFS：

1
# 安装NFS服务
2
yum install -y nfs-utils rpcbind
3

4
# 创建共享目录
5
mkdir -p /data/nfs-storage
6
chmod 777 /data/nfs-storage
7

8
# 配置NFS共享
9
cat >> /etc/exports << EOF
10
/data/nfs-storage *(rw,sync,no_root_squash,no_all_squash)
11
EOF
12

13
# 启动NFS服务
14
systemctl start rpcbind
15
systemctl start nfs-server
16
systemctl enable rpcbind
17
systemctl enable nfs-server
18

19
# 刷新NFS配置
20
exportfs -r
21

22
# 查看共享目录
23
showmount -e localhost
24
# 输出：/data/nfs-storage *

在所有K8s节点安装NFS客户端：

1
# 在master、node1、node2上执行
2
yum install -y nfs-utils
3

4
# 测试挂载
5
mount -t nfs 192.168.100.14:/data/nfs-storage /mnt
6
ls /mnt
7
umount /mnt

8.3 部署NFS Provisioner#

创建nfs-provisioner.yaml：

1
# RBAC权限
2
apiVersion: v1
3
kind: ServiceAccount
4
metadata:
5
  name: nfs-provisioner
6
  namespace: kube-system
7
---
8
apiVersion: rbac.authorization.k8s.io/v1
9
kind: ClusterRole
10
metadata:
11
  name: nfs-provisioner
12
rules:
13
- apiGroups: [""]
14
  resources: ["persistentvolumes"]
15
  verbs: ["get", "list", "watch", "create", "delete"]
16
- apiGroups: [""]
17
  resources: ["persistentvolumeclaims"]
18
  verbs: ["get", "list", "watch", "update"]
19
- apiGroups: ["storage.k8s.io"]
20
  resources: ["storageclasses"]
21
  verbs: ["get", "list", "watch"]
22
- apiGroups: [""]
23
  resources: ["events"]
24
  verbs: ["create", "update", "patch"]
25
---
26
apiVersion: rbac.authorization.k8s.io/v1
27
kind: ClusterRoleBinding
28
metadata:
29
  name: nfs-provisioner
30
roleRef:
31
  apiGroup: rbac.authorization.k8s.io
32
  kind: ClusterRole
33
  name: nfs-provisioner
34
subjects:
35
- kind: ServiceAccount
36
  name: nfs-provisioner
37
  namespace: kube-system
38
---
39
# Deployment
40
apiVersion: apps/v1
41
kind: Deployment
42
metadata:
43
  name: nfs-provisioner
44
  namespace: kube-system
45
spec:
46
  replicas: 1
47
  selector:
48
    matchLabels:
49
      app: nfs-provisioner
50
  template:
51
    metadata:
52
      labels:
53
        app: nfs-provisioner
54
    spec:
55
      serviceAccountName: nfs-provisioner
56
      containers:
57
      - name: nfs-provisioner
58
        image: registry.cn-hangzhou.aliyuncs.com/open-ali/nfs-client-provisioner:latest
59
        volumeMounts:
60
        - name: nfs-client-root
61
          mountPath: /persistentvolumes
62
        env:
63
        - name: PROVISIONER_NAME
64
          value: nfs-provisioner        # Provisioner名称
65
        - name: NFS_SERVER
66
          value: 192.168.100.14         # NFS服务器地址
67
        - name: NFS_PATH
68
          value: /data/nfs-storage      # NFS共享路径
69
      volumes:
70
      - name: nfs-client-root
71
        nfs:
72
          server: 192.168.100.14
73
          path: /data/nfs-storage
74
---
75
# StorageClass
76
apiVersion: storage.k8s.io/v1
77
kind: StorageClass
78
metadata:
79
  name: nfs-storage
80
  annotations:
81
    storageclass.kubernetes.io/is-default-class: "true"  # 设为默认
82
provisioner: nfs-provisioner
83
parameters:
84
  archiveOnDelete: "false"    # 删除PVC时不归档数据
85
reclaimPolicy: Delete
86
volumeBindingMode: Immediate

1
kubectl apply -f nfs-provisioner.yaml
2

3
# 查看Provisioner状态
4
kubectl get pods -n kube-system -l app=nfs-provisioner
5

6
# 查看StorageClass
7
kubectl get storageclass
8
# NAME                     PROVISIONER         RECLAIMPOLICY
9
# nfs-storage (default)    nfs-provisioner     Delete

8.4 测试动态供给#

创建test-pvc.yaml：

1
apiVersion: v1
2
kind: PersistentVolumeClaim
3
metadata:
4
  name: test-pvc
5
spec:
6
  accessModes:
7
  - ReadWriteMany
8
  resources:
9
    requests:
10
      storage: 1Gi
11
  storageClassName: nfs-storage

1
kubectl apply -f test-pvc.yaml
2

3
# 查看PVC（自动绑定）
4
kubectl get pvc test-pvc
5
# NAME       STATUS   VOLUME                                     CAPACITY
6
# test-pvc   Bound    pvc-abc123-...                             1Gi
7

8
# 查看自动创建的PV
9
kubectl get pv
10
# NAME                                       CAPACITY   ACCESS MODES   STATUS
11
# pvc-abc123-...                             1Gi        RWX            Bound
12

13
# 在NFS服务器上查看自动创建的目录
14
ssh root@192.168.100.14 "ls -l /data/nfs-storage/"
15
# drwxrwxrwx 2 root root 6 Jan 15 10:30 default-test-pvc-pvc-abc123...

创建Pod使用PVC：

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: test-nfs-pod
5
spec:
6
  containers:
7
  - name: app
8
    image: nginx:1.20
9
    volumeMounts:
10
    - name: data
11
      mountPath: /usr/share/nginx/html
12
  volumes:
13
  - name: data
14
    persistentVolumeClaim:
15
      claimName: test-pvc

1
kubectl apply -f test-nfs-pod.yaml
2

3
# 写入测试数据
4
kubectl exec test-nfs-pod -- sh -c 'echo "<h1>NFS Dynamic Provisioning Works!</h1>" > /usr/share/nginx/html/index.html'
5

6
# 在NFS服务器验证
7
ssh root@192.168.100.14 "cat /data/nfs-storage/default-test-pvc-*/index.html"
8
# 输出：<h1>NFS Dynamic Provisioning Works!</h1>
9

10
# 删除Pod，数据保留
11
kubectl delete pod test-nfs-pod
12

13
# 重新创建，数据还在
14
kubectl apply -f test-nfs-pod.yaml
15
kubectl exec test-nfs-pod -- cat /usr/share/nginx/html/index.html

8.5 测试回收策略#

1
# 删除PVC
2
kubectl delete pvc test-pvc
3

4
# PV自动删除（reclaimPolicy: Delete）
5
kubectl get pv
6
# 无输出（PV已删除）
7

8
# NFS服务器上的数据也被删除
9
ssh root@192.168.100.14 "ls /data/nfs-storage/"
10
# 空目录（数据已删除）

9. 实战3：StatefulSet持久化MySQL#

9.1 实战目标#

使用StatefulSet部署MySQL集群，每个实例拥有独立的PVC，验证扩缩容时数据独立性。

9.2 创建StatefulSet MySQL#

mysql-statefulset.yaml：

1
apiVersion: v1
2
kind: Service
3
metadata:
4
  name: mysql-headless
5
spec:
6
  clusterIP: None  # Headless Service
7
  selector:
8
    app: mysql
9
  ports:
10
  - port: 3306
11
---
12
apiVersion: apps/v1
13
kind: StatefulSet
14
metadata:
15
  name: mysql
16
spec:
17
  serviceName: mysql-headless
18
  replicas: 3
19
  selector:
20
    matchLabels:
21
      app: mysql
22
  template:
23
    metadata:
24
      labels:
25
        app: mysql
26
    spec:
27
      containers:
28
      - name: mysql
29
        image: mysql:8.0
30
        ports:
31
        - containerPort: 3306
32
        env:
33
        - name: MYSQL_ROOT_PASSWORD
34
          value: "MyPass123"
35
        volumeMounts:
36
        - name: data
37
          mountPath: /var/lib/mysql
38

39
  # VolumeClaimTemplate（每个Pod独立PVC）
40
  volumeClaimTemplates:
41
  - metadata:
42
      name: data
43
    spec:
44
      accessModes: ["ReadWriteOnce"]
45
      storageClassName: nfs-storage
46
      resources:
47
        requests:
48
          storage: 5Gi

1
kubectl apply -f mysql-statefulset.yaml

9.3 验证独立存储#

1
# 查看Pod
2
kubectl get pods -l app=mysql
3
# NAME      READY   STATUS    RESTARTS   AGE
4
# mysql-0   1/1     Running   0          1m
5
# mysql-1   1/1     Running   0          50s
6
# mysql-2   1/1     Running   0          40s
7

8
# 查看PVC（每个Pod独立PVC）
9
kubectl get pvc
10
# NAME           STATUS   VOLUME                  CAPACITY
11
# data-mysql-0   Bound    pvc-abc...              5Gi
12
# data-mysql-1   Bound    pvc-def...              5Gi
13
# data-mysql-2   Bound    pvc-ghi...              5Gi
14

15
# 在mysql-0中创建数据库
16
kubectl exec mysql-0 -- mysql -uroot -pMyPass123 -e "CREATE DATABASE db0;"
17

18
# 在mysql-1中创建不同的数据库
19
kubectl exec mysql-1 -- mysql -uroot -pMyPass123 -e "CREATE DATABASE db1;"
20

21
# 验证数据独立
22
kubectl exec mysql-0 -- mysql -uroot -pMyPass123 -e "SHOW DATABASES;" | grep db
23
# db0
24

25
kubectl exec mysql-1 -- mysql -uroot -pMyPass123 -e "SHOW DATABASES;" | grep db
26
# db1
27

28
# 数据完全独立！

9.4 测试扩缩容#

1
# 缩容到1个副本
2
kubectl scale statefulset mysql --replicas=1
3

4
# 查看Pod（mysql-1和mysql-2被删除）
5
kubectl get pods -l app=mysql
6
# NAME      READY   STATUS    RESTARTS   AGE
7
# mysql-0   1/1     Running   0          5m
8

9
# PVC不会被删除（数据保护）
10
kubectl get pvc
11
# NAME           STATUS   VOLUME                  CAPACITY
12
# data-mysql-0   Bound    pvc-abc...              5Gi
13
# data-mysql-1   Bound    pvc-def...              5Gi    <- 保留
14
# data-mysql-2   Bound    pvc-ghi...              5Gi    <- 保留
15

16
# 扩容回3个副本
17
kubectl scale statefulset mysql --replicas=3
18

19
# 新Pod自动绑定原来的PVC，数据恢复！
20
kubectl exec mysql-1 -- mysql -uroot -pMyPass123 -e "SHOW DATABASES;" | grep db
21
# db1    <- 数据还在！

总结#

本章学习了：

存储架构
- Volume/PV/PVC/StorageClass关系
- 静态供给 vs 动态供给
存储类型
- Volume：emptyDir、hostPath
- PV：访问模式、回收策略
- PVC：绑定规则
- StorageClass：自动化供给
后端存储选择
- hostPath：开发测试
- NFS：小规模生产
- Ceph：企业级
- 云盘：云环境
实战经验
- hostPath持久化（单节点）
- NFS动态供给（多节点共享）
- StatefulSet独立存储

生产建议：

⚠️ 存储是有状态应用的生命线

1
1. 能用云存储就用云存储（省心）
2
2. 自建存储需要专业团队运维
3
3. 生产环境必须：
4
   - 定期备份
5
   - 测试恢复流程
6
   - 监控存储容量和性能
7
4. 核心数据使用高可用存储（Ceph/云盘）
8
5. 非核心数据可用NFS

风险提示：

1
⚠️ 自建存储意味着对数据负全责
2
⚠️ 存储故障 = 数据丢失 = 业务灾难
3
⚠️ 优先考虑云存储或托管存储服务

十、K8s调度：让Pod去该去的地方#

1. 调度基础概念#

1.1 什么是K8s调度#

调度（Scheduling） 是Kubernetes的核心功能之一，决定Pod应该运行在哪个节点上。

用生活化的比喻来理解：

1
想象一个物流调度中心：
2

3
Pod = 货物（需要运送到某个仓库）
4
Node = 仓库（存放货物的地方）
5
Scheduler = 调度员（决定货物放到哪个仓库）
6

7
调度员需要考虑：
8
- 仓库剩余空间（节点资源）
9
- 货物特殊要求（需要冷藏？易碎？）
10
- 距离和效率（网络延迟、亲和性）
11
- 仓库限制（某些仓库不收危险品）

调度的重要性：

1
为什么调度如此重要？
2

3
1. 资源利用率
4
   - 合理分配Pod，避免某些节点过载
5
   - 提高集群整体资源使用效率
6

7
2. 高可用性
8
   - 将Pod分散到不同节点/机房
9
   - 避免单点故障
10

11
3. 性能优化
12
   - 将相关Pod调度到一起（减少网络延迟）
13
   - 将Pod调度到合适的硬件（GPU、SSD）
14

15
4. 合规要求
16
   - 某些数据必须存储在特定区域
17
   - 敏感服务只能运行在特定节点

1.2 调度器工作原理#

Scheduler的调度流程：

flowchart TD A["监听未调度的 Pod（Watch API Server）"] --> B["读取 Pod 需求（requests / affinity / tolerations）"] B --> C["预选 Filtering：剔除不满足条件的节点"] C --> D["优选 Scoring：对候选节点打分排序"] D --> E["绑定 Binding：选择最高分节点并绑定 Pod"] E --> F["Kubelet 创建容器：在目标节点拉镜像并启动容器"]

详细流程解析：

1
┌─────────────────────────────────────────────────────────────┐
2
│  用户创建Pod：kubectl apply -f pod.yaml                      │
3
└─────────────────────────────────────────────────────────────┘
4
                              ↓
5
┌─────────────────────────────────────────────────────────────┐
6
│  API Server接收请求                                          │
7
│  - Pod状态：Pending                                         │
8
│  - nodeName：空（未分配节点）                                │
9
└─────────────────────────────────────────────────────────────┘
10
                              ↓
11
┌─────────────────────────────────────────────────────────────┐
12
│  Scheduler监听到新Pod                                        │
13
│  开始调度流程                                                │
14
└─────────────────────────────────────────────────────────────┘
15
                              ↓
16
┌─────────────────────────────────────────────────────────────┐
17
│  预选阶段（Filtering）                                       │
18
│                                                             │
19
│  检查每个节点是否满足Pod的硬性要求：                          │
20
│  ✓ 资源充足？（CPU、内存）                                   │
21
│  ✓ 端口可用？                                               │
22
│  ✓ 节点选择器匹配？（nodeSelector）                          │
23
│  ✓ 节点亲和性满足？（nodeAffinity required）                 │
24
│  ✓ 污点能容忍？（Tolerations）                              │
25
│  ✓ 其他约束满足？                                           │
26
│                                                             │
27
│  结果：从10个节点中筛选出5个候选节点                          │
28
└─────────────────────────────────────────────────────────────┘
29
                              ↓
30
┌─────────────────────────────────────────────────────────────┐
31
│  优选阶段（Scoring）                                         │
32
│                                                             │
33
│  对候选节点打分（0-100分）：                                  │
34
│  - 资源均衡度（LeastRequestedPriority）                      │
35
│  - 节点亲和性偏好（NodeAffinityPriority）                    │
36
│  - Pod亲和性偏好（InterPodAffinityPriority）                 │
37
│  - 镜像已存在（ImageLocalityPriority）                       │
38
│  - ...                                                      │
39
│                                                             │
40
│  Node1: 85分 | Node2: 92分 | Node3: 78分 | ...               │
41
└─────────────────────────────────────────────────────────────┘
42
                              ↓
43
┌─────────────────────────────────────────────────────────────┐
44
│  选择最高分节点：Node2（92分）                                │
45
│  绑定Pod到Node2                                              │
46
└─────────────────────────────────────────────────────────────┘
47
                              ↓
48
┌─────────────────────────────────────────────────────────────┐
49
│  Node2上的Kubelet                                           │
50
│  - 监听到分配给自己的Pod                                     │
51
│  - 拉取镜像                                                 │
52
│  - 创建容器                                                 │
53
│  - Pod状态：Running                                         │
54
└─────────────────────────────────────────────────────────────┘

1.3 调度策略全景图#

K8s提供了多种调度策略，按照约束强度可以分为：

1
┌─────────────────────────────────────────────────────────────┐
2
│                    K8s调度策略全景图                         │
3
├─────────────────────────────────────────────────────────────┤
4
│                                                             │
5
│  【硬性约束】必须满足，否则Pod无法调度                        │
6
│  ┌─────────────────────────────────────────────────────┐   │
7
│  │ • nodeSelector          - 节点标签选择器              │   │
8
│  │ • nodeName              - 指定节点名称                │   │
9
│  │ • nodeAffinity.required - 节点亲和性（硬性）          │   │
10
│  │ • podAffinity.required  - Pod亲和性（硬性）           │   │
11
│  │ • Taints & Tolerations  - 污点与容忍                  │   │
12
│  │ • 资源请求              - CPU/内存必须满足            │   │
13
│  └─────────────────────────────────────────────────────┘   │
14
│                                                             │
15
│  【软性偏好】尽量满足，不满足也能调度                         │
16
│  ┌─────────────────────────────────────────────────────┐   │
17
│  │ • nodeAffinity.preferred  - 节点亲和性（软性）        │   │
18
│  │ • podAffinity.preferred   - Pod亲和性（软性）         │   │
19
│  │ • podAntiAffinity         - Pod反亲和性               │   │
20
│  └─────────────────────────────────────────────────────┘   │
21
│                                                             │
22
│  【优先级调度】资源不足时的抢占机制                           │
23
│  ┌─────────────────────────────────────────────────────┐   │
24
│  │ • PriorityClass          - Pod优先级                  │   │
25
│  │ • Preemption             - 抢占低优先级Pod            │   │
26
│  └─────────────────────────────────────────────────────┘   │
27
│                                                             │
28
└─────────────────────────────────────────────────────────────┘

策略优先级关系：

1
调度决策顺序（从高到低）：
2

3
1. nodeName（最高优先级）
4
   ↓ 直接指定节点，绕过Scheduler
5
2. Taints & Tolerations
6
   ↓ 节点排斥机制
7
3. nodeSelector / nodeAffinity.required
8
   ↓ 硬性节点选择
9
4. podAffinity/podAntiAffinity.required
10
   ↓ 硬性Pod亲和/反亲和
11
5. nodeAffinity.preferred
12
   ↓ 软性节点偏好
13
6. podAffinity/podAntiAffinity.preferred
14
   ↓ 软性Pod亲和/反亲和
15
7. 资源均衡、镜像本地化等其他因素

2. 节点选择机制#

2.1 nodeSelector：最简单的节点选择#

nodeSelector 是最简单的节点选择方式，通过标签匹配将Pod调度到特定节点。

使用场景：

1
场景1：将Pod调度到SSD节点
2
  节点标签：disk-type=ssd
3
  Pod配置：nodeSelector: disk-type: ssd
4

5
场景2：将Pod调度到GPU节点
6
  节点标签：gpu=nvidia
7
  Pod配置：nodeSelector: gpu: nvidia
8

9
场景3：将Pod调度到特定机房
10
  节点标签：zone=beijing
11
  Pod配置：nodeSelector: zone: beijing

配置示例：

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-ssd
5
spec:
6
  nodeSelector:           # 节点选择器
7
    disk-type: ssd        # 只调度到标签为disk-type=ssd的节点
8
  containers:
9
  - name: nginx
10
    image: nginx:1.20

节点标签管理：

1
# 查看节点标签
2
kubectl get nodes --show-labels
3

4
# 为节点添加标签
5
kubectl label nodes k8s-node1 disk-type=ssd
6

7
# 修改节点标签
8
kubectl label nodes k8s-node1 disk-type=hdd --overwrite
9

10
# 删除节点标签
11
kubectl label nodes k8s-node1 disk-type-
12

13
# 根据标签筛选节点
14
kubectl get nodes -l disk-type=ssd

nodeSelector的局限性：

1
✗ 只支持精确匹配（key=value）
2
✗ 不支持"或"逻辑（disk-type=ssd 或 disk-type=nvme）
3
✗ 不支持"非"逻辑（不要disk-type=hdd）
4
✗ 不支持软性偏好（尽量选择，但不强制）
5

6
解决方案：使用nodeAffinity（节点亲和性）

2.2 nodeAffinity：高级节点亲和性#

nodeAffinity 是nodeSelector的增强版，提供更灵活的节点选择能力。

两种亲和性类型：

类型	说明	效果
requiredDuringSchedulingIgnoredDuringExecution	硬性要求	必须满足，否则不调度
preferredDuringSchedulingIgnoredDuringExecution	软性偏好	尽量满足，不满足也可调度

名称解析：

1
requiredDuringScheduling  = 调度时必须满足
2
preferred DuringScheduling = 调度时尽量满足
3
IgnoredDuringExecution   = 运行时忽略（Pod已运行后，即使条件不满足也不驱逐）

支持的操作符：

操作符	说明	示例
In	值在列表中	key In [v1, v2]
NotIn	值不在列表中	key NotIn [v1, v2]
Exists	标签存在	key Exists
DoesNotExist	标签不存在	key DoesNotExist
Gt	大于（数值）	key Gt 5
Lt	小于（数值）	key Lt 10

配置示例1：硬性要求

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-affinity-required
5
spec:
6
  affinity:
7
    nodeAffinity:
8
      requiredDuringSchedulingIgnoredDuringExecution:  # 硬性要求
9
        nodeSelectorTerms:
10
        - matchExpressions:
11
          - key: disk-type
12
            operator: In
13
            values:
14
            - ssd
15
            - nvme          # disk-type=ssd 或 disk-type=nvme
16
          - key: zone
17
            operator: In
18
            values:
19
            - beijing       # 同时 zone=beijing
20
  containers:
21
  - name: nginx
22
    image: nginx:1.20

配置示例2：软性偏好

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-affinity-preferred
5
spec:
6
  affinity:
7
    nodeAffinity:
8
      preferredDuringSchedulingIgnoredDuringExecution:  # 软性偏好
9
      - weight: 80          # 权重1-100，越高越优先
10
        preference:
11
          matchExpressions:
12
          - key: disk-type
13
            operator: In
14
            values:
15
            - ssd
16
      - weight: 20          # 权重较低
17
        preference:
18
          matchExpressions:
19
          - key: zone
20
            operator: In
21
            values:
22
            - beijing
23
  containers:
24
  - name: nginx
25
    image: nginx:1.20

配置示例3：硬性+软性组合

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-affinity-combo
5
spec:
6
  affinity:
7
    nodeAffinity:
8
      # 硬性要求：必须在beijing或shanghai
9
      requiredDuringSchedulingIgnoredDuringExecution:
10
        nodeSelectorTerms:
11
        - matchExpressions:
12
          - key: zone
13
            operator: In
14
            values:
15
            - beijing
16
            - shanghai
17
      # 软性偏好：尽量选择SSD节点
18
      preferredDuringSchedulingIgnoredDuringExecution:
19
      - weight: 100
20
        preference:
21
          matchExpressions:
22
          - key: disk-type
23
            operator: In
24
            values:
25
            - ssd
26
  containers:
27
  - name: nginx
28
    image: nginx:1.20

2.3 nodeName：直接指定节点#

nodeName 直接指定Pod运行的节点名称，绕过Scheduler。

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-specific-node
5
spec:
6
  nodeName: k8s-node1      # 直接指定节点名称
7
  containers:
8
  - name: nginx
9
    image: nginx:1.20

⚠️ 使用nodeName的风险：

1
✗ 绕过Scheduler，不检查资源是否充足
2
✗ 绕过Taints检查，可能调度到不应该去的节点
3
✗ 节点不存在或不可用时，Pod一直Pending
4
✗ 不推荐在生产环境使用
5

6
适用场景：
7
✓ 调试和测试
8
✓ DaemonSet（每个节点运行一个Pod）
9
✓ 静态Pod

3. 污点与容忍（Taints & Tolerations）#

3.1 什么是污点和容忍#

污点（Taint） 是节点的属性，用于排斥Pod。 容忍（Toleration） 是Pod的属性，用于容忍节点的污点。

生活化比喻：

1
想象一个公寓楼的租房场景：
2

3
节点（Node） = 公寓房间
4
污点（Taint） = 房间的"缺点标签"（如：靠马路吵、没有电梯、只租给程序员）
5
Pod          = 租客
6
容忍（Toleration） = 租客能接受的"缺点"
7

8
场景1：房间标签"靠马路=吵:NoSchedule"
9
  → 普通租客不愿意住（Pod不会调度）
10
  → 能忍受噪音的租客可以住（Pod配置了对应Toleration）
11

12
场景2：Master节点的污点"node-role.kubernetes.io/control-plane:NoSchedule"
13
  → 普通Pod不会调度到Master
14
  → 系统组件（如CoreDNS）配置了容忍，可以运行在Master上

工作原理图：

1
┌─────────────────────────────────────────────────────────────┐
2
│  节点有污点 + Pod没有对应容忍 = Pod不会调度到该节点           │
3
│  节点有污点 + Pod有对应容忍   = Pod可以调度到该节点           │
4
│  节点没有污点               = Pod可以调度到该节点            │
5
└─────────────────────────────────────────────────────────────┘
6

7
示例：
8
┌─────────────┐                    ┌─────────────┐
9
│   Node1     │                    │   Node2     │
10
│  无污点     │                    │ Taint: gpu  │
11
└─────────────┘                    └─────────────┘
12
      ↑                                  ↑
13
      │ ✓ 可以调度                        │ ✗ 不能调度
14
      │                                  │
15
┌─────────────┐                    ┌─────────────┐
16
│   Pod A     │                    │   Pod A     │
17
│  无容忍     │                    │  无容忍     │
18
└─────────────┘                    └─────────────┘
19

20
┌─────────────┐                    ┌─────────────┐
21
│   Node1     │                    │   Node2     │
22
│  无污点     │                    │ Taint: gpu  │
23
└─────────────┘                    └─────────────┘
24
      ↑                                  ↑
25
      │ ✓ 可以调度                        │ ✓ 可以调度
26
      │                                  │
27
┌─────────────┐                    ┌─────────────┐
28
│   Pod B     │                    │   Pod B     │
29
│ Toleration: │                    │ Toleration: │
30
│   gpu       │                    │   gpu       │
31
└─────────────┘                    └─────────────┘

3.2 污点的类型与效果#

污点格式： key=value:effect

三种Effect（效果）：

Effect	说明	已运行的Pod
NoSchedule	不调度新Pod	不影响（继续运行）
PreferNoSchedule	尽量不调度新Pod（软性）	不影响
NoExecute	不调度新Pod + 驱逐已运行的Pod	驱逐！

详细对比：

1
NoSchedule（不调度）：
2
┌──────────────────────────────────────────────┐
3
│ 效果：新Pod不会调度到该节点                    │
4
│ 已有Pod：不受影响，继续运行                    │
5
│                                              │
6
│ 使用场景：                                    │
7
│ - Master节点（不运行业务Pod）                 │
8
│ - 专用节点（GPU节点只给特定应用）             │
9
└──────────────────────────────────────────────┘
10

11
PreferNoSchedule（尽量不调度）：
12
┌──────────────────────────────────────────────┐
13
│ 效果：尽量不调度，但如果没有其他节点可以调度    │
14
│ 已有Pod：不受影响，继续运行                    │
15
│                                              │
16
│ 使用场景：                                    │
17
│ - 资源紧张的节点（希望新Pod去其他节点）        │
18
│ - 维护预备节点（准备下线，但不紧急）           │
19
└──────────────────────────────────────────────┘
20

21
NoExecute（不调度+驱逐）：
22
┌──────────────────────────────────────────────┐
23
│ 效果：新Pod不调度 + 驱逐已有Pod                │
24
│ 已有Pod：被驱逐！（除非有容忍）                │
25
│                                              │
26
│ 使用场景：                                    │
27
│ - 节点维护（需要清空节点）                    │
28
│ - 节点故障（自动添加，触发Pod迁移）           │
29
│ - 节点隔离（安全原因需要清空）                │
30
└──────────────────────────────────────────────┘

污点管理命令：

1
# 添加污点
2
kubectl taint nodes k8s-node1 key=value:NoSchedule
3

4
# 查看节点污点
5
kubectl describe node k8s-node1 | grep Taints
6

7
# 删除污点（key后加减号）
8
kubectl taint nodes k8s-node1 key=value:NoSchedule-
9

10
# 删除某个key的所有污点
11
kubectl taint nodes k8s-node1 key-
12

13
# 示例：添加GPU专用节点污点
14
kubectl taint nodes k8s-node1 gpu=nvidia:NoSchedule
15

16
# 示例：添加维护污点（会驱逐Pod）
17
kubectl taint nodes k8s-node1 maintenance=true:NoExecute

3.3 容忍的配置方式#

容忍配置格式：

1
tolerations:
2
- key: "key"              # 污点的key
3
  operator: "Equal"       # 操作符：Equal或Exists
4
  value: "value"          # 污点的value（Exists时不需要）
5
  effect: "NoSchedule"    # 污点的effect（可选，不填则匹配所有effect）
6
  tolerationSeconds: 3600 # 容忍时间（仅NoExecute有效）

操作符说明：

Operator	说明	示例
Equal	key和value都必须匹配	key=value
Exists	只需要key存在	任意value都匹配

配置示例1：精确匹配

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-toleration
5
spec:
6
  tolerations:
7
  - key: "gpu"
8
    operator: "Equal"
9
    value: "nvidia"
10
    effect: "NoSchedule"
11
  containers:
12
  - name: nginx
13
    image: nginx:1.20

配置示例2：只匹配key

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-toleration-exists
5
spec:
6
  tolerations:
7
  - key: "gpu"
8
    operator: "Exists"      # 只要有gpu这个key就容忍
9
    effect: "NoSchedule"
10
  containers:
11
  - name: nginx
12
    image: nginx:1.20

配置示例3：容忍所有污点

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-tolerate-all
5
spec:
6
  tolerations:
7
  - operator: "Exists"      # 容忍所有污点（危险！）
8
  containers:
9
  - name: nginx
10
    image: nginx:1.20

配置示例4：NoExecute + tolerationSeconds

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: nginx-toleration-seconds
5
spec:
6
  tolerations:
7
  - key: "maintenance"
8
    operator: "Equal"
9
    value: "true"
10
    effect: "NoExecute"
11
    tolerationSeconds: 3600   # 容忍3600秒后被驱逐
12
  containers:
13
  - name: nginx
14
    image: nginx:1.20

tolerationSeconds说明：

1
当节点添加NoExecute污点后：
2
- Pod没有对应容忍 → 立即驱逐
3
- Pod有容忍，无tolerationSeconds → 永不驱逐
4
- Pod有容忍，tolerationSeconds=3600 → 3600秒后驱逐
5

6
使用场景：
7
- 节点维护时，给应用一定时间优雅退出
8
- 节点故障时，等待一段时间再迁移Pod

3.4 内置污点#

K8s会自动为节点添加一些内置污点：

污点Key	说明	何时添加
`node.kubernetes.io/not-ready`	节点未就绪	节点状态NotReady
`node.kubernetes.io/unreachable`	节点不可达	节点失联
`node.kubernetes.io/memory-pressure`	内存压力	节点内存不足
`node.kubernetes.io/disk-pressure`	磁盘压力	节点磁盘不足
`node.kubernetes.io/pid-pressure`	PID压力	节点PID不足
`node.kubernetes.io/network-unavailable`	网络不可用	节点网络故障
`node.kubernetes.io/unschedulable`	节点不可调度	kubectl cordon

默认容忍：

1
# Kubernetes默认为所有Pod添加以下容忍（300秒后驱逐）
2
tolerations:
3
- key: "node.kubernetes.io/not-ready"
4
  operator: "Exists"
5
  effect: "NoExecute"
6
  tolerationSeconds: 300
7
- key: "node.kubernetes.io/unreachable"
8
  operator: "Exists"
9
  effect: "NoExecute"
10
  tolerationSeconds: 300

4. Pod亲和性与反亲和性#

4.1 什么是Pod亲和性#

Pod亲和性（podAffinity） 根据已运行Pod的标签，决定新Pod调度到哪个节点。

使用场景：

1
场景1：将前端和后端调度到同一节点（减少网络延迟）
2
  → 前端Pod亲和后端Pod
3

4
场景2：将同一服务的多个副本分散到不同节点（高可用）
5
  → Pod反亲和（podAntiAffinity）
6

7
场景3：将日志收集器调度到有应用Pod的节点
8
  → 日志收集Pod亲和应用Pod

关键概念 - topologyKey：

1
topologyKey定义"同一位置"的范围：
2

3
topologyKey: kubernetes.io/hostname
4
  → 同一节点（最常用）
5

6
topologyKey: topology.kubernetes.io/zone
7
  → 同一可用区
8

9
topologyKey: topology.kubernetes.io/region
10
  → 同一区域
11

12
示例：
13
┌──────────────────────────────────────────────────────────┐
14
│  Region: asia-east                                       │
15
│  ┌─────────────────────┐  ┌─────────────────────┐       │
16
│  │  Zone: zone-a       │  │  Zone: zone-b       │       │
17
│  │  ┌─────┐ ┌─────┐   │  │  ┌─────┐ ┌─────┐   │       │
18
│  │  │Node1│ │Node2│   │  │  │Node3│ │Node4│   │       │
19
│  │  └─────┘ └─────┘   │  │  └─────┘ └─────┘   │       │
20
│  └─────────────────────┘  └─────────────────────┘       │
21
└──────────────────────────────────────────────────────────┘
22

23
topologyKey=hostname → Node1和Node2是不同位置
24
topologyKey=zone     → Node1和Node2是同一位置（zone-a）
25
topologyKey=region   → 所有节点是同一位置（asia-east）

4.2 Pod亲和性配置#

配置示例：将缓存Pod调度到Web Pod所在节点

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: cache-pod
5
spec:
6
  affinity:
7
    podAffinity:
8
      requiredDuringSchedulingIgnoredDuringExecution:  # 硬性要求
9
      - labelSelector:
10
          matchExpressions:
11
          - key: app
12
            operator: In
13
            values:
14
            - web           # 选择标签app=web的Pod
15
        topologyKey: kubernetes.io/hostname  # 同一节点
16
  containers:
17
  - name: redis
18
    image: redis:6.0

软性偏好示例：

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: cache-pod-preferred
5
spec:
6
  affinity:
7
    podAffinity:
8
      preferredDuringSchedulingIgnoredDuringExecution:  # 软性偏好
9
      - weight: 100
10
        podAffinityTerm:
11
          labelSelector:
12
            matchExpressions:
13
            - key: app
14
              operator: In
15
              values:
16
              - web
17
          topologyKey: kubernetes.io/hostname
18
  containers:
19
  - name: redis
20
    image: redis:6.0

4.3 Pod反亲和性配置#

反亲和性（podAntiAffinity） 确保Pod不会调度到同一位置。

使用场景：高可用部署

1
apiVersion: apps/v1
2
kind: Deployment
3
metadata:
4
  name: nginx-ha
5
spec:
6
  replicas: 3
7
  selector:
8
    matchLabels:
9
      app: nginx
10
  template:
11
    metadata:
12
      labels:
13
        app: nginx
14
    spec:
15
      affinity:
16
        podAntiAffinity:
17
          requiredDuringSchedulingIgnoredDuringExecution:  # 硬性要求
18
          - labelSelector:
19
              matchExpressions:
20
              - key: app
21
                operator: In
22
                values:
23
                - nginx       # 反亲和自己（相同标签的Pod）
24
            topologyKey: kubernetes.io/hostname  # 不在同一节点
25
      containers:
26
      - name: nginx
27
        image: nginx:1.20

效果：

1
┌──────────────────────────────────────────────────────┐
2
│  3个nginx副本分散到3个不同节点：                      │
3
│                                                      │
4
│  ┌─────────┐    ┌─────────┐    ┌─────────┐          │
5
│  │  Node1  │    │  Node2  │    │  Node3  │          │
6
│  │ nginx-1 │    │ nginx-2 │    │ nginx-3 │          │
7
│  └─────────┘    └─────────┘    └─────────┘          │
8
│                                                      │
9
│  如果只有2个节点，第3个Pod会Pending！                │
10
└──────────────────────────────────────────────────────┘

软性反亲和（推荐生产使用）：

1
apiVersion: apps/v1
2
kind: Deployment
3
metadata:
4
  name: nginx-ha-soft
5
spec:
6
  replicas: 3
7
  selector:
8
    matchLabels:
9
      app: nginx
10
  template:
11
    metadata:
12
      labels:
13
        app: nginx
14
    spec:
15
      affinity:
16
        podAntiAffinity:
17
          preferredDuringSchedulingIgnoredDuringExecution:  # 软性偏好
18
          - weight: 100
19
            podAffinityTerm:
20
              labelSelector:
21
                matchExpressions:
22
                - key: app
23
                  operator: In
24
                  values:
25
                  - nginx
26
              topologyKey: kubernetes.io/hostname
27
      containers:
28
      - name: nginx
29
        image: nginx:1.20

5. 优先级与抢占#

5.1 PriorityClass#

当集群资源不足时，高优先级Pod可以抢占低优先级Pod。

创建PriorityClass：

1
apiVersion: scheduling.k8s.io/v1
2
kind: PriorityClass
3
metadata:
4
  name: high-priority
5
value: 1000000           # 优先级值，越大越优先
6
globalDefault: false      # 是否为默认优先级
7
preemptionPolicy: PreemptLowerPriority  # 可以抢占低优先级Pod
8
description: "用于关键业务Pod"
9

10
---
11
apiVersion: scheduling.k8s.io/v1
12
kind: PriorityClass
13
metadata:
14
  name: low-priority
15
value: 1000
16
globalDefault: false
17
preemptionPolicy: Never   # 不抢占其他Pod
18
description: "用于非关键业务Pod"

使用PriorityClass：

1
apiVersion: v1
2
kind: Pod
3
metadata:
4
  name: critical-pod
5
spec:
6
  priorityClassName: high-priority    # 使用高优先级
7
  containers:
8
  - name: app
9
    image: nginx:1.20

抢占流程：

1
资源不足时：
2
1. 高优先级Pod进入Pending
3
2. Scheduler检查是否可以通过抢占低优先级Pod来调度
4
3. 选择被抢占的Pod（尽量选择影响最小的）
5
4. 驱逐被抢占的Pod（优雅终止）
6
5. 调度高优先级Pod

6. 实战演练#

6.1 实验准备#

1
# 创建实验目录
2
mkdir -p /root/k8s-yaml/scheduling
3
cd /root/k8s-yaml/scheduling
4

5
# 查看当前节点和标签
6
kubectl get nodes --show-labels

6.2 实验1：nodeSelector基础调度#

目标： 将Pod调度到特定标签的节点

步骤1：为节点添加标签

1
# 为node1添加标签
2
kubectl label nodes k8s-node1 disk-type=ssd env=production
3

4
# 为node2添加标签
5
kubectl label nodes k8s-node2 disk-type=hdd env=testing
6

7
# 验证标签
8
kubectl get nodes -L disk-type,env

步骤2：创建使用nodeSelector的Pod

1
cat > nodeselector-pod.yaml <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: nginx-ssd
6
spec:
7
  nodeSelector:
8
    disk-type: ssd
9
  containers:
10
  - name: nginx
11
    image: nginx:1.20
12
EOF
13

14
kubectl apply -f nodeselector-pod.yaml
15

16
# 查看Pod调度到哪个节点
17
kubectl get pod nginx-ssd -o wide
18
# 应该调度到k8s-node1（disk-type=ssd）

步骤3：验证调度限制

1
# 创建一个不存在标签的Pod
2
cat > nodeselector-notexist.yaml <<EOF
3
apiVersion: v1
4
kind: Pod
5
metadata:
6
  name: nginx-notexist
7
spec:
8
  nodeSelector:
9
    disk-type: nvme    # 没有节点有这个标签
10
  containers:
11
  - name: nginx
12
    image: nginx:1.20
13
EOF
14

15
kubectl apply -f nodeselector-notexist.yaml
16

17
# 查看Pod状态（应该是Pending）
18
kubectl get pod nginx-notexist
19
kubectl describe pod nginx-notexist | grep -A5 Events
20
# Warning  FailedScheduling  ...  0/3 nodes are available: 3 node(s) didn't match Pod's node affinity/selector

清理：

1
kubectl delete pod nginx-ssd nginx-notexist

6.3 实验2：nodeAffinity高级调度#

目标： 使用nodeAffinity实现复杂的节点选择逻辑

步骤1：创建硬性要求的Pod

1
cat > nodeaffinity-required.yaml <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: nginx-affinity-required
6
spec:
7
  affinity:
8
    nodeAffinity:
9
      requiredDuringSchedulingIgnoredDuringExecution:
10
        nodeSelectorTerms:
11
        - matchExpressions:
12
          - key: disk-type
13
            operator: In
14
            values:
15
            - ssd
16
            - nvme        # disk-type=ssd 或 disk-type=nvme
17
  containers:
18
  - name: nginx
19
    image: nginx:1.20
20
EOF
21

22
kubectl apply -f nodeaffinity-required.yaml
23

24
# 查看调度结果
25
kubectl get pod nginx-affinity-required -o wide

步骤2：创建软性偏好的Pod

1
cat > nodeaffinity-preferred.yaml <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: nginx-affinity-preferred
6
spec:
7
  affinity:
8
    nodeAffinity:
9
      preferredDuringSchedulingIgnoredDuringExecution:
10
      - weight: 80
11
        preference:
12
          matchExpressions:
13
          - key: disk-type
14
            operator: In
15
            values:
16
            - ssd
17
      - weight: 20
18
        preference:
19
          matchExpressions:
20
          - key: env
21
            operator: In
22
            values:
23
            - production
24
  containers:
25
  - name: nginx
26
    image: nginx:1.20
27
EOF
28

29
kubectl apply -f nodeaffinity-preferred.yaml
30

31
# 查看调度结果（应该优先选择ssd节点）
32
kubectl get pod nginx-affinity-preferred -o wide

步骤3：测试NotIn操作符（排除）

1
cat > nodeaffinity-notin.yaml <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: nginx-not-hdd
6
spec:
7
  affinity:
8
    nodeAffinity:
9
      requiredDuringSchedulingIgnoredDuringExecution:
10
        nodeSelectorTerms:
11
        - matchExpressions:
12
          - key: disk-type
13
            operator: NotIn
14
            values:
15
            - hdd           # 不调度到hdd节点
16
  containers:
17
  - name: nginx
18
    image: nginx:1.20
19
EOF
20

21
kubectl apply -f nodeaffinity-notin.yaml
22

23
# 应该调度到node1（ssd），不会调度到node2（hdd）
24
kubectl get pod nginx-not-hdd -o wide

清理：

1
kubectl delete pod nginx-affinity-required nginx-affinity-preferred nginx-not-hdd

6.4 实验3：污点与容忍#

目标： 使用Taint和Toleration实现节点隔离

步骤1：为节点添加污点

1
# 为node2添加污点（GPU专用节点）
2
kubectl taint nodes k8s-node2 gpu=nvidia:NoSchedule
3

4
# 查看污点
5
kubectl describe node k8s-node2 | grep Taints
6
# Taints:  gpu=nvidia:NoSchedule

步骤2：创建普通Pod（无法调度到node2）

1
cat > pod-no-toleration.yaml <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: nginx-no-toleration
6
spec:
7
  containers:
8
  - name: nginx
9
    image: nginx:1.20
10
EOF
11

12
kubectl apply -f pod-no-toleration.yaml
13

14
# 多次创建，观察调度情况（都不会调度到node2）
15
kubectl get pod nginx-no-toleration -o wide

步骤3：创建带容忍的Pod（可以调度到node2）

1
cat > pod-with-toleration.yaml <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: nginx-with-toleration
6
spec:
7
  tolerations:
8
  - key: "gpu"
9
    operator: "Equal"
10
    value: "nvidia"
11
    effect: "NoSchedule"
12
  containers:
13
  - name: nginx
14
    image: nginx:1.20
15
EOF
16

17
kubectl apply -f pod-with-toleration.yaml
18

19
# 可以调度到任意节点（包括node2）
20
kubectl get pod nginx-with-toleration -o wide

步骤4：强制调度到污点节点

1
cat > pod-force-tainted-node.yaml <<EOF
2
apiVersion: v1
3
kind: Pod
4
metadata:
5
  name: nginx-force-node2
6
spec:
7
  nodeSelector:
8
    kubernetes.io/hostname: k8s-node2    # 指定node2
9
  tolerations:
10
  - key: "gpu"
11
    operator: "Equal"
12
    value: "nvidia"
13
    effect: "NoSchedule"
14
  containers:
15
  - name: nginx
16
    image: nginx:1.20
17
EOF
18

19
kubectl apply -f pod-force-tainted-node.yaml
20

21
# 必定调度到node2
22
kubectl get pod nginx-force-node2 -o wide

步骤5：测试NoExecute驱逐

1
# 先创建一个Pod在node2上运行
2
cat > pod-on-node2.yaml <<EOF
3
apiVersion: v1
4
kind: Pod
5
metadata:
6
  name: nginx-on-node2
7
spec:
8
  nodeSelector:
9
    kubernetes.io/hostname: k8s-node2
10
  tolerations:
11
  - key: "gpu"
12
    operator: "Equal"
13
    value: "nvidia"
14
    effect: "NoSchedule"
15
  containers:
16
  - name: nginx
17
    image: nginx:1.20
18
EOF
19

20
kubectl apply -f pod-on-node2.yaml
21
kubectl get pod nginx-on-node2 -o wide
22

23
# 添加NoExecute污点（会驱逐不容忍的Pod）
24
kubectl taint nodes k8s-node2 maintenance=true:NoExecute
25

26
# 查看Pod状态（被驱逐，变成Pending或Terminating）
27
kubectl get pods -o wide
28

29
# 删除污点
30
kubectl taint nodes k8s-node2 maintenance=true:NoExecute-
31
kubectl taint nodes k8s-node2 gpu=nvidia:NoSchedule-

清理：

1
kubectl delete pod nginx-no-toleration nginx-with-toleration nginx-force-node2 nginx-on-node2

6.5 实验4：Pod反亲和实现高可用#

目标： 将Deployment的多个副本分散到不同节点

步骤1：创建带反亲和的Deployment

1
cat > nginx-ha-deployment.yaml <<EOF
2
apiVersion: apps/v1
3
kind: Deployment
4
metadata:
5
  name: nginx-ha
6
spec:
7
  replicas: 3
8
  selector:
9
    matchLabels:
10
      app: nginx-ha
11
  template:
12
    metadata:
13
      labels:
14
        app: nginx-ha
15
    spec:
16
      affinity:
17
        podAntiAffinity:
18
          preferredDuringSchedulingIgnoredDuringExecution:
19
          - weight: 100
20
            podAffinityTerm:
21
              labelSelector:
22
                matchExpressions:
23
                - key: app
24
                  operator: In
25
                  values:
26
                  - nginx-ha
27
              topologyKey: kubernetes.io/hostname
28
      containers:
29
      - name: nginx
30
        image: nginx:1.20
31
        ports:
32
        - containerPort: 80
33
EOF
34

35
kubectl apply -f nginx-ha-deployment.yaml
36

37
# 查看Pod分布（应该分散在不同节点）
38
kubectl get pods -l app=nginx-ha -o wide

预期结果：

1
NAME                       READY   STATUS    NODE
2
nginx-ha-xxx-aaa           1/1     Running   k8s-node1
3
nginx-ha-xxx-bbb           1/1     Running   k8s-node2
4
nginx-ha-xxx-ccc           1/1     Running   k8s-master（如果master允许调度）

步骤2：测试硬性反亲和（可能导致Pending）

1
cat > nginx-ha-strict.yaml <<EOF
2
apiVersion: apps/v1
3
kind: Deployment
4
metadata:
5
  name: nginx-ha-strict
6
spec:
7
  replicas: 5              # 5个副本，但只有2-3个节点
8
  selector:
9
    matchLabels:
10
      app: nginx-ha-strict
11
  template:
12
    metadata:
13
      labels:
14
        app: nginx-ha-strict
15
    spec:
16
      affinity:
17
        podAntiAffinity:
18
          requiredDuringSchedulingIgnoredDuringExecution:  # 硬性要求
19
          - labelSelector:
20
              matchExpressions:
21
              - key: app
22
                operator: In
23
                values:
24
                - nginx-ha-strict
25
            topologyKey: kubernetes.io/hostname
26
      containers:
27
      - name: nginx
28
        image: nginx:1.20
29
EOF
30

31
kubectl apply -f nginx-ha-strict.yaml
32

33
# 查看Pod状态（部分会Pending）
34
kubectl get pods -l app=nginx-ha-strict -o wide
35
kubectl describe pod -l app=nginx-ha-strict | grep -A3 Events

清理：

1
kubectl delete deployment nginx-ha nginx-ha-strict
2
kubectl label nodes k8s-node1 disk-type- env-
3
kubectl label nodes k8s-node2 disk-type- env-

7. 总结#

7.1 调度策略选择指南#

1
┌─────────────────────────────────────────────────────────────┐
2
│                    调度策略选择决策树                        │
3
├─────────────────────────────────────────────────────────────┤
4
│                                                             │
5
│  需求：Pod必须运行在特定节点                                 │
6
│  ┌─────────────────────────────────────────────────────┐   │
7
│  │ 简单场景 → nodeSelector                              │   │
8
│  │ 复杂场景 → nodeAffinity.required                     │   │
9
│  │ 调试/紧急 → nodeName（不推荐生产）                   │   │
10
│  └─────────────────────────────────────────────────────┘   │
11
│                                                             │
12
│  需求：Pod尽量运行在特定节点（不强制）                       │
13
│  ┌─────────────────────────────────────────────────────┐   │
14
│  │ → nodeAffinity.preferred                             │   │
15
│  └─────────────────────────────────────────────────────┘   │
16
│                                                             │
17
│  需求：某些节点不允许普通Pod调度                             │
18
│  ┌─────────────────────────────────────────────────────┐   │
19
│  │ → Taint (NoSchedule)                                 │   │
20
│  │   + 特定Pod配置Toleration                            │   │
21
│  └─────────────────────────────────────────────────────┘   │
22
│                                                             │
23
│  需求：多副本Pod分散到不同节点（高可用）                     │
24
│  ┌─────────────────────────────────────────────────────┐   │
25
│  │ → podAntiAffinity.preferred（推荐）                  │   │
26
│  │ → podAntiAffinity.required（节点充足时）             │   │
27
│  └─────────────────────────────────────────────────────┘   │
28
│                                                             │
29
│  需求：相关Pod调度到一起（减少延迟）                         │
30
│  ┌─────────────────────────────────────────────────────┐   │
31
│  │ → podAffinity                                        │   │
32
│  └─────────────────────────────────────────────────────┘   │
33
│                                                             │
34
└─────────────────────────────────────────────────────────────┘

7.2 生产最佳实践#

1
# 生产环境Deployment推荐配置
2
apiVersion: apps/v1
3
kind: Deployment
4
metadata:
5
  name: production-app
6
spec:
7
  replicas: 3
8
  selector:
9
    matchLabels:
10
      app: production-app
11
  template:
12
    metadata:
13
      labels:
14
        app: production-app
15
    spec:
16
      # 1. 软性反亲和：尽量分散到不同节点
17
      affinity:
18
        podAntiAffinity:
19
          preferredDuringSchedulingIgnoredDuringExecution:
20
          - weight: 100
21
            podAffinityTerm:
22
              labelSelector:
23
                matchLabels:
24
                  app: production-app
25
              topologyKey: kubernetes.io/hostname
26

27
      # 2. 容忍节点临时故障（默认300秒）
28
      tolerations:
29
      - key: "node.kubernetes.io/not-ready"
30
        operator: "Exists"
31
        effect: "NoExecute"
32
        tolerationSeconds: 300
33
      - key: "node.kubernetes.io/unreachable"
34
        operator: "Exists"
35
        effect: "NoExecute"
36
        tolerationSeconds: 300
37

38
      containers:
39
      - name: app
40
        image: myapp:v1
41
        resources:
42
          requests:
43
            cpu: 100m
44
            memory: 128Mi
45
          limits:
46
            cpu: 500m
47
            memory: 512Mi

7.3 常用命令总结#

1
# === 节点标签管理 ===
2
kubectl get nodes --show-labels
3
kubectl label nodes <node> key=value
4
kubectl label nodes <node> key-
5

6
# === 污点管理 ===
7
kubectl taint nodes <node> key=value:effect
8
kubectl taint nodes <node> key:effect-
9
kubectl describe node <node> | grep Taints
10

11
# === 查看调度结果 ===
12
kubectl get pods -o wide
13
kubectl describe pod <pod> | grep -A10 Events
14

15
# === 调试调度问题 ===
16
kubectl get events --field-selector reason=FailedScheduling
17
kubectl describe pod <pending-pod>

Simple Blog

九、存储管理：数据持久化的艺术#

1. 为什么Kubernetes需要存储管理#

1.1 容器数据的”短命”问题#

1.2 存储架构总览#

2. Volume：最基础的存储#

2.1 emptyDir：临时共享存储#

2.2 hostPath：挂载宿主机目录#

3. PersistentVolume（PV）：持久化存储资源#

3.1 PV核心概念#

3.2 PV配置详解#

3.3 访问模式（AccessModes）#

3.4 回收策略（ReclaimPolicy）#

4. PersistentVolumeClaim（PVC）：存储申请#

4.1 PVC核心概念#

4.2 PVC配置#

4.3 PVC绑定规则#

4.4 Pod使用PVC#

5. StorageClass：自动化存储供应#

5.1 StorageClass是什么#

5.2 StorageClass配置#

5.3 设置默认StorageClass#

6. 主流后端存储对比#

6.1 存储方案对比#

6.2 详细分析#

6.3 选择建议#

7. 实战1：使用hostPath实现持久化#

7.1 实战目标#

7.2 准备工作#

7.3 创建使用hostPath的Pod#

7.4 测试数据持久化#

8. 实战2：使用NFS实现动态供给#

8.1 实战目标#

8.2 部署NFS服务器#

8.3 部署NFS Provisioner#

8.4 测试动态供给#

8.5 测试回收策略#

9. 实战3：StatefulSet持久化MySQL#

9.1 实战目标#

9.2 创建StatefulSet MySQL#

9.3 验证独立存储#

9.4 测试扩缩容#

总结#

十、K8s调度：让Pod去该去的地方#

1. 调度基础概念#

1.1 什么是K8s调度#

1.2 调度器工作原理#

1.3 调度策略全景图#

2. 节点选择机制#

2.1 nodeSelector：最简单的节点选择#

2.2 nodeAffinity：高级节点亲和性#

2.3 nodeName：直接指定节点#

3. 污点与容忍（Taints & Tolerations）#

3.1 什么是污点和容忍#

3.2 污点的类型与效果#

3.3 容忍的配置方式#

3.4 内置污点#

4. Pod亲和性与反亲和性#

4.1 什么是Pod亲和性#

4.2 Pod亲和性配置#

4.3 Pod反亲和性配置#

5. 优先级与抢占#

5.1 PriorityClass#

6. 实战演练#

6.1 实验准备#

6.2 实验1：nodeSelector基础调度#

6.3 实验2：nodeAffinity高级调度#

6.4 实验3：污点与容忍#

6.5 实验4：Pod反亲和实现高可用#

7. 总结#

7.1 调度策略选择指南#

7.2 生产最佳实践#

7.3 常用命令总结#