记录一次promehteus问题:组件运行正常,TargetDown。

现象:

详请

🚨 触发中告警 [1]

告警名称 : TargetDown
告警级别 : WARNING
实例 : “
告警状态 : 🚨 FIRING
开始时间 : 2023-12-29T10:36:46Z
结束时间 : Not End
告警描述 : 33.33% of the kube-scheduler/prometheus-kube-prometheus-kube-scheduler targets in kube-system namespace are down.

登录master服务器检查端口监听正常。但登录Prometheus发现target处于DOWN的状态。并报错server returned HTTP status 401 Unauthor

检查apiserver日志发现有很多Unable to authenticate the request” err=”[x509: certificate has expired or is not yet 。

初步怀疑组件出问题,多次重启组建仍无法解决问题。

分析:

是因为集群证书更新了,然而使用kubectl delete pods方式 去重启组件是没生效的,需要通过docker restart 方式重启组件服务才行。

解决办法:

通过  docker ps  -a|egrep  “scheduler|kube-controller” 查看没有重启的次数,需要执行docker restart  容器id  。检查发现target恢复正常。

Posted in k8s

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注