tencent cloud

日志服务

动态与公告
产品动态
公告
新手指引
产品简介
产品概述
产品优势
地域和访问域名
规格与限制
基本概念
购买指南
计费概述
产品定价
按量计费(后付费)
欠费说明
清理日志服务资源
成本优化
常见问题
快速入门
一分钟入门指南
入门指南
使用 Demo 日志快速体验 CLS
操作指南
资源管理
权限管理
日志采集
指标采集
日志存储
指标存储
检索分析(日志主题)
检索分析(指标主题)
仪表盘
数据处理
投递与消费
监控告警
云产品中心
DataSight 独立控制台
历史文档
实践教程
日志采集
检索分析
仪表盘
监控告警
投递和消费
成本优化
开发者指南
通过 iframe 内嵌 CLS(旧方案)
通过 Grafana 使用 CLS
API 文档
History
Introduction
API Category
Making API Requests
Topic Management APIs
Log Set Management APIs
Index APIs
Topic Partition APIs
Machine Group APIs
Collection Configuration APIs
Log APIs
Metric APIs
Alarm Policy APIs
Data Processing APIs
Kafka Protocol Consumption APIs
CKafka Shipping Task APIs
Kafka Data Subscription APIs
COS Shipping Task APIs
SCF Delivery Task APIs
Scheduled SQL Analysis APIs
COS Data Import Task APIs
Data Types
Error Codes
常见问题
健康监测问题解释
采集相关
检索分析相关
其他问题
服务等级协议
CLS 政策
隐私协议
数据处理和安全协议
联系我们
词汇表

TKE 事件日志分析

PDF
聚焦模式
字号
最后更新时间: 2024-01-20 17:28:40

概述

集群内的状况层出不穷,变化莫测,如节点状态异常,Pod 重启等,如果无法第一时间感知状况,会错过最佳的问题处理时间,待问题扩大,影响到业务时才发现往往已经为时已晚。 而事件日志(Event)记录了全面的集群状态变更信息,不仅可以帮助用户第一时间发现问题,也是排查问题的最佳帮手。

什么是事件日志

Event 是 Kubernetes 中众多资源对象中的一员,通常用来记录集群内发生的状态变更,大到集群节点异常,小到 Pod 启动、调度成功等等。我们常用的kubectl describe命令就可以查看相关资源的事件信息。

事件日志字段说明

img

级别(Type): 目前仅有 “Normal” 和 “Warning”,但是如果需要,可以使用自定义类型。
资源类型/对象(Involved Object):事件所涉及的对象,例如 Pod,Deployment,Node 等。
事件源(Source):报告此事件的组件;例如 Scheduler、Kubelet等。
内容(Reason):当前发生事件的简短描述,一般为枚举值,主要在程序内部使用。
详细描述(Message):当前发生事件的详细描述信息。
出现次数(Count):事件发生的次数。

如何使用事件日志去排查问题

日志服务(Cloud Log Service,CLS)提供针对 kubernetes 事件日志的一站式服务,包含采集,存储,检索分析能力。用户仅需一键开启集群事件日志功能,即可获取开箱即用的事件日志可视化分析仪表盘。通过可视化的图表,用户可以轻松通过控制台解决大多数常见的运维问题。

前提条件

已购买容器服务(Tencent Kubernetes Engine,TKE),并开启集群事件日志,详情请参考 操作指南

场景1:一台 Node 节点出现异常,定位原因

1. 登录 TKE 控制台
2. 在左侧导航栏中,单击日志管理 > 事件日志
3. 在事件检索页面,选择事件总览页签,并在过滤项中输入异常节点名称。
查询结果显示,有一条节点磁盘空间不足的事件记录查询结果如下图:
进一步查看异常事件趋势和异常 Top 事件:
可以发现,2020-11-25号开始,节点172.16.18.13由于磁盘空间不足导致节点异常,此后 kubelet 开始尝试驱逐节点上的 pod 以回收节点磁盘空间。

场景2:节点触发扩容了,用户需要对扩容过程进行回溯,以确定具体原因

开启 节点池「弹性伸缩」的集群,CA(cluster-autoscler)组件会根据负载状况自动对集群中节点数量进行增减。如果集群中的节点发生了自动扩(缩)容,用户可通过事件检索对整个扩(缩)容过程进行回溯。
1. 登录 TKE 控制台
2. 在左侧导航栏中,单击日志管理 > 事件日志
3. 在事件检索页面,单击全局检索页签,并输入以下检索命令:
event.source.component : "cluster-autoscaler"
4. 在左侧隐藏字段中,选择event.reasonevent.messageevent.involvedObject.nameevent.involvedObject.name进行显示,将查询结果按照日志时间倒序排列。
通过上图的事件流水,可以看到节点扩容操作在2020-11-25 20:35:45左右,分别由三个 nginx Pod(nginx-5dbf784b68-tq8rd、nginx-5dbf784b68-fpvbx、nginx-5dbf784b68-v9jv5) 触发,最终扩增了3个节点,后续的扩容由于达到节点池的最大节点数没有再次触发。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈