现象:
详请
🚨 触发中告警 [1]
告警名称 : TargetDown
告警级别 : WARNING
实例 : “
告警状态 : 🚨 FIRING
开始时间 : 2023-12-29T10:36:46Z
结束时间 : Not End
告警描述 : 33.33% of the kube-scheduler/prometheus-kube-prometheus-kube-scheduler targets in kube-system namespace are down.
登录master服务器检查端口监听正常。但登录Prometheus发现target处于DOWN的状态。并报错server returned HTTP status 401 Unauthor
检查apiserver日志发现有很多Unable to authenticate the request” err=”[x509: certificate has expired or is not yet 。
初步怀疑组件出问题,多次重启组建仍无法解决问题。
分析:
是因为集群证书更新了,然而使用kubectl delete pods方式 去重启组件是没生效的,需要通过docker restart 方式重启组件服务才行。
解决办法:
通过 docker ps -a|egrep “scheduler|kube-controller” 查看没有重启的次数,需要执行docker restart 容器id 。检查发现target恢复正常。