动态与公告
- 产品动态
- 公告
- 产品发布记录
产品简介
购买指南
- 购买指引
- 购买 TKE 标准集群
- 购买原生节点
- 购买超级节点
快速入门
- 新手指引
- 快速创建一个标准集群
- 入门示例
- 容器应用部署 Check List
集群配置
- 标准集群概述
- 集群管理
- 网络管理
- 存储管理
- 节点管理
- GPU 资源管理
- 远程终端
应用配置
- 工作负载管理
- 服务和配置管理
- 组件和应用管理
- 弹性伸缩
- 容器登录方式
可观测配置
- 运维可观测性
- 成本洞察和优化
调度配置
- 调度组件概述
- 资源利用率优化调度
- 业务优先级保障调度
- Qos 感知调度
安全和稳定性
- 容器服务安全组设置
- 身份验证和授权
- 应用安全
多集群管理
- 计划升级
- 备份中心
云原生服务指南
- 云原生 etcd
- Prometheus 监控服务
- TKE Serverless 集群指南
- TKE 注册集群指南
实践教程
- 集群
- Serverless 集群
- 调度
- 安全
- 服务部署
- 网络
- 发布
- 日志
- 监控
- 运维
- Terraform
- DevOps
- 弹性伸缩
- 容器化
- 成本管理
- 混合云
- AI
故障处理
API 文档
- History
- Introduction
- API Category
- Making API Requests
- Elastic Cluster APIs
- Resource Reserved Coupon APIs
- Cluster APIs
- Third-party Node APIs
- Relevant APIs for Addon
- Network APIs
- Node APIs
- Node Pool APIs
- TKE Edge Cluster APIs
- Cloud Native Monitoring APIs
- Scaling group APIs
- Super Node APIs
- Other APIs
- Data Types
- Error Codes
- TKE API 2022-05-01
常见问题
- TKE 标准集群
- TKE Serverless 集群
- 运维类
- 隐患处理
- 服务类
- 镜像仓库类
- 远程终端类
- 事件类
- 资源管理类
服务协议
- TKE Service Level Agreement
- TKE Serverless Service Level Agreement
联系我们
词汇表

使用集群审计排查问题

Download

聚焦模式

字号

最后更新时间： 2023-05-06 17:36:46

使用场景
当发生人为误操作、应用出现 bug、恶意程序调用 apiserver 接口，集群资源会被删除或修改。此时可通过集群审计功能记录 apiserver 的接口调用，即可根据条件检索和分析审计日志找到问题原因。本文介绍了集群审计功能的具体使用场景及使用示例，您可参考本文开始使用集群审计功能。
注意
本文仅适用于容器服务 TKE 集群。
前提条件
登录容器服务控制台，开启集群审计功能。详情请参见 开启集群审计。
使用示例
获取分析结果
1. 登录 日志服务控制台，选择左侧导航栏中的检索分析。
2. 在检索分析页面，选择待检索的日志集，日志主题以及选择时间范围。
3. 输入分析语句后单击检索分析，即可获得分析结果。
示例1：查询封锁节点的操作者
例如，需查询封锁节点的操作者，则可执行以下命令进行检索：
objectRef.resource:nodes AND requestObject:unschedulable
在检索分析页面中，版面选择默认配置，查询结果如下图所示：
﻿
﻿
示例2：查询删除工作负载的操作者
例如，需查询删除工作负载的操作者，则可执行以下命令进行检索：
objectRef.resource:deployments AND objectRef.name:"nginx" AND verb:"delete" 
您可根据检索结果获取此子账号的详细信息。
﻿
示例3：定位 apiserver 限频原因
为避免恶意程序或 bug 导致对 apiserver 请求频率过高引发的 apiserver/etcd 负载过高，影响正常请求。apiserver 具备默认请求频率限制保护。如发生限频，可通过审计找到发出大量请求的客户端。
1. 如需通过 userAgent 分析统计请求的客户端，则需在“键值索引”窗口中修改日志主题，为 userAgent 字段开启统计。如下图所示：
﻿
2. 执行以下命令，对每种客户端请求 apiserver 的 QPS 大小进行统计：
* | SELECT histogram( cast(__TIMESTAMP__ as timestamp),interval 1 minute) AS time, COUNT(1) AS qps,userAgent GROUP BY time,userAgent ORDER BY time
3. 切换到统计图表，选择时序图，可设置基本信息、坐标轴等，如下图所示：
﻿
获得数据后，可点击添加到仪表盘，放大显示。如下图所示：
﻿

由图可见，kube-state-metrics 客户端对 apiserver 请求频率远远高于其它客户端。查看日志可得，由于 RBAC 权问题导致 kube-state-metrics 不停的请求 apiserver 重试，触发了 apiserver 的限频。日志如下所示：
I1009 13:13:09.760767       1 request.go:538] Throttling request took 1.393921018s, request: GET:https://172.16.252.1:443/api/v1/endpoints?limit=500&resourceVersion=1029843735
E1009 13:13:09.766106       1 reflector.go:156] pkg/mod/k8s.io/client-go@v0.0.0-20191109102209-3c0d1af94be5/tools/cache/reflector.go:108: Failed to list *v1.Endpoints: endpoints is forbidden: User "system:serviceaccount:monitoring:kube-state-metrics" cannot list resource "endpoints" in API group "" at the cluster scope
同理，如果要使用其它字段来区分要统计的客户端，可以根据需求灵活修改 SQL，例如使用 user.username 来区分。SQL 语句可参考如下示例：
* | SELECT histogram( cast(__TIMESTAMP__ as timestamp),interval 1 minute)  AS time, COUNT(1) AS qps,user.username GROUP BY time,user.username ORDER BY time
显示效果如下图所示：
﻿
相关文档
关于容器服务 TKE 的集群审计简介与基础操作，请参见 集群审计。
集群审计的数据存储在日志服务，若需要在日志服务控制台中对审计结果进行检索和分析，检索语法请参见 日志检索语法与规则。
进行分析需提供日志服务所支持的 SQL 语句，请参见 日志分析简介。