Skip to content

Node Hang

背景

在我的 Homelab, 出现过数次这样的情况:在升级 OS 并重启 Node 时,Node Hang 住。这时我不在现场,应该如何快速恢复?

解决方案

智能家具远程重启插座+WOL唤醒

  1. 关闭集群
  2. 先关闭 worker node
  3. 再关闭 master node
  4. 验证集群已经全部关闭
  5. 通过智能家具远程关闭插座(我这里是通过米家关闭"homelab-插排"). 这一步的目的是为了关闭 hang 住的节点
  6. 等个几分钟
  7. 通过智能家具远程开启插座(我这里是通过米家开启"homelab-插排"). 这一步的目的是确保所有 node 上电。
  8. 通过 WOL 唤醒所有 node (我这里是通过软路由 openwrt 的 "服务" -> "WOL" 唤醒所有 node)
  9. 验证是否修复成功

限制

当前,由于现实情况,我的"homelab-插排"除了 4 个 Node 外,还插有其他设备:

  • 交换机 - XikeStor SKS3200M-8GPY1XF switch
  • NAS 的外置硬盘 - WD My Book

原因是这些设备都是大头插头,没有其他插座可以插入。

突然断电对交换机影响较小,但是可能对 NAS 的外置硬盘影响较大。所以还是要谨慎处置。

方案优化

  1. 4 台 node 分别接到 4 个单独的智能插座上(需要购买智能插座). 实现精细化管理。
  2. 为 4 台 node 购置 外界的 kvm(需要购买 kvm), 实现带外管理。