tencent cloud

容器服务

动态与公告
产品动态
公告
产品发布记录
产品简介
产品概述
产品优势
产品架构
应用场景
产品功能
基本概念
原生 Kubernetes 名词对照
容器服务高危操作
地域和可用区
开源组件
购买指南
购买指引
购买 TKE 标准集群
购买原生节点
购买超级节点
快速入门
新手指引
快速创建一个标准集群
入门示例
容器应用部署 Check List
集群配置
标准集群概述
集群管理
网络管理
存储管理
节点管理
GPU 资源管理
远程终端
应用配置
工作负载管理
服务和配置管理
组件和应用管理
弹性伸缩
容器登录方式
可观测配置
运维可观测性
成本洞察和优化
调度配置
调度组件概述
资源利用率优化调度
业务优先级保障调度
Qos 感知调度
安全和稳定性
容器服务安全组设置
身份验证和授权
应用安全
多集群管理
计划升级
备份中心
云原生服务指南
云原生 etcd
Prometheus 监控服务
TKE Serverless 集群指南
TKE 注册集群指南
实践教程
集群
Serverless 集群
调度
安全
服务部署
网络
发布
日志
监控
运维
Terraform
DevOps
弹性伸缩
容器化
微服务
成本管理
混合云
AI
故障处理
节点磁盘爆满排障处理
节点高负载排障处理
节点内存碎片化排障处理
集群 DNS 解析异常排障处理
集群 Kube-Proxy 异常排障处理
集群 API Server 网络无法访问排障处理
Service&Ingress 网络无法访问排障处理
Service&Ingress 常见报错和处理
Nginx Ingress 偶现 Connection Refused
CLB Ingress 创建报错排障处理
Pod 网络无法访问排查处理
Pod 状态异常与处理措施
授权腾讯云售后运维排障
CLB 回环问题
API 文档
History
Introduction
API Category
Making API Requests
Elastic Cluster APIs
Resource Reserved Coupon APIs
Cluster APIs
Third-party Node APIs
Relevant APIs for Addon
Network APIs
Node APIs
Node Pool APIs
TKE Edge Cluster APIs
Cloud Native Monitoring APIs
Scaling group APIs
Super Node APIs
Other APIs
Data Types
Error Codes
TKE API 2022-05-01
常见问题
TKE 标准集群
TKE Serverless 集群
运维类
隐患处理
服务类
镜像仓库类
远程终端类
事件类
资源管理类
服务协议
TKE Service Level Agreement
TKE Serverless Service Level Agreement
联系我们
词汇表

健康检查

PDF
聚焦模式
字号
最后更新时间: 2024-12-23 15:29:48

操作场景

集群健康检查功能是腾讯云容器服务(Tencent Kubernetes Engine,TKE)为集群提供检查各个资源状态及运行情况的服务,检查报告将详细展示组件、节点、工作负载的状态和配置的检查内容。若出现异常项,可进行异常详情描述,并自动分析异常级别、异常原因、异常影响和修复建议等。
注意:
在健康检查过程中,您的集群内会自动新建 namespace tke-cluster-inspection,并安装一个 Daemonset 进行节点信息采集,检查结束后均会被自动删除。

主要检查项目

检查类别
检查项
检查内容
仅独立集群
资源状态
kube-apiserver 的状态
检测组件是否正在运行,如果组件以 Pod 形式运行,则检测其24小时内是否重启过。
kube-scheduler 的状态
kube-controller-manager 的状态
etcd 的状态
kubelet 的状态
kube-proxy 的状态
dockerd 的状态
master 节点的状态
检测节点状态是否 Ready 且无其他异常情况,如内存不足,磁盘不足等。
worker 节点的状态
检测节点状态是否 Ready 且无其他异常情况,如内存不足,磁盘不足等。
各个工作负载的状态
检测工作负载当前可用 Pod 数是否符合其期望目标 Pod 数。
运行情况
kube-apiserver 的参数配置
根据 master 节点配置检测以下参数:
max-requests-inflight:给定时间内运行的非变更类请求的最大值。
max-mutating-requests-inflight:给定时间内运行的变更类请求的最大值。
kube-scheduler 的参数配置
根据 master 节点配置检测以下参数:
kube-api-qps:请求 kube-apiserver 使用的 QPS。
kube-api-burst:和 kube-apiserver 通信的时候最大 burst 值。
kube-controller-manager 的参数配置
根据 master 节点配置检测以下参数:
kube-api-qps:请求 kube-apiserver 使用的 QPS。
kube-api-burst:和 kube-apiserver 通信的时候最大 burst 值。
etcd 的参数配置
根据 master 节点配置检测以下参数:quota-backend-bytes:存储大小。
master 节点的配置合理性
检测当前 master 节点配置是否足以支撑当前的集群规模。
node 高可用
检测目前集群是否是单节点集群;检测当前集群节点是否支持多可用区容灾。即当一个可用区不可用后,其他可用区的资源总和是否足以支撑当前集群业务规模。
工作负载的 Request 和 Limit 配置
检测工作负载是否有未设置资源限制的容器,配置资源限制有益于完善资源规划、Pod 调度、集群可用性等。
工作负载的反亲和性配置
检测工作负载是否配置了亲和性或者反亲和性,配置反亲和性有助于提高业务的高可用性。
工作负载的 PDB 配置
检测工作负载是否配置了 PDB,配置 PDB 可避免您的业务因驱逐操作而不可用。
工作负载的健康检查配置
检测工作负载是否配置了健康检查,配置健康检查有助于发现业务异常。
HPA-IP 配置
当前集群剩余的 Pod IP 数目是否满足 HPA 扩容的最大数。

操作步骤

1. 登录 容器服务控制台,选择左侧导航栏中的运维中心 > 健康检查
2. 进入健康检查页面,选择需要健康检查的集群,并为其选择合适的检查方式。 健康检查的三种方式分别为批量检查、立即检查和自动检查。
批量检查:适用于同时检查多个集群。
立即检查:适用于只检查一个集群。
自动检查:适用于需要周期性检查的集群。选择需要周期检查的集群,单击自动检查。如下图所示:


在“自动检查设置”弹窗中,可根据您的需求设置开启状态、检查周期和时刻。如下图所示:



3. 选择好检查方式之后,等待检查完成,可查看检查进度。如下图所示:


4. 检查完成后,可单击查看结果查看检查报告。如下图所示:

在检查报告页面,选择资源状态运行情况分别查看资源状态和异常情况,单击检查内容可展示具体的检查内容,单击异常可查看异常级别、异常描述、异常原因、异常影响和修复建议。如下图所示:



帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈