Node Hang
背景
在我的 Homelab, 出现过数次这样的情况:在升级 OS 并重启 Node 时,Node Hang 住。这时我不在现场,应该如何快速恢复?
解决方案
智能家具远程重启插座+WOL唤醒
- 关闭集群
- 先关闭 worker node
- 再关闭 master node
- 验证集群已经全部关闭
- 通过智能家具远程关闭插座(我这里是通过米家关闭"homelab-插排"). 这一步的目的是为了关闭 hang 住的节点
- 等个几分钟
- 通过智能家具远程开启插座(我这里是通过米家开启"homelab-插排"). 这一步的目的是确保所有 node 上电。
- 通过 WOL 唤醒所有 node (我这里是通过软路由 openwrt 的 "服务" -> "WOL" 唤醒所有 node)
- 验证是否修复成功
限制
当前,由于现实情况,我的"homelab-插排"除了 4 个 Node 外,还插有其他设备:
- 交换机 - XikeStor
SKS3200M-8GPY1XFswitch - NAS 的外置硬盘 -
WD My Book
原因是这些设备都是大头插头,没有其他插座可以插入。
突然断电对交换机影响较小,但是可能对 NAS 的外置硬盘影响较大。所以还是要谨慎处置。
方案优化
- 4 台 node 分别接到 4 个单独的智能插座上(需要购买智能插座). 实现精细化管理。
- 为 4 台 node 购置 外界的 kvm(需要购买 kvm), 实现带外管理。