tencent cloud

云服务器

动态与公告
产品动态
公共镜像更新动态
操作系统官方停止维护计划
产品公告
产品简介
云服务器概述
产品优势
基本概念
地域和可用区
新手指引
Service Regions and Service Providers
产品计费
计费概述
计费方式
计费项
转换计费方式
购买实例
变配费用说明
欠费说明
快速入门
通过自定义配置购买 Linux 云服务器
通过自定义配置购买 Windows 云服务器
用户指南
操作指南总览
使用限制总览
实例
竞价实例
预留实例
镜像
存储
备份与恢复
网络
安全
密码/密钥
监控与告警
运维管理
便捷功能
迁移服务器
在线迁移
迁移咨询
故障处理
无法登录云服务器问题处理思路
Windows 实例登录相关故障
Linux 实例登录相关故障
其他实例登录相关故障
实例运行故障
Linux 实例内存故障
网络故障
实践教程
云服务器选型建议
搭建环境
搭建网站
搭建应用
搭建可视化界面
本地文件上传到云服务器
网络性能测试
其他实践教程
API 文档
History
Introduction
API Category
Making API Requests
Region APIs
Instance APIs
Cloud Hosting Cluster APIs
Image APIs
Instance Launch Template APIs
Placement Group APIs
Key APIs
Security Group APIs
Network APIs
Data Types
Error Codes
安全与合规
访问管理
网络
常见问题
地域和可用区相关
计费相关
实例相关
存储相关
镜像相关
服务器迁移相关
网络相关
安全相关
操作系统相关
运维和监控相关
访问管理相关
NTP 服务相关
应用场景相关
服务协议
CVM Service Level Agreements
Red Hat Enterprise Linux 镜像服务协议
Public IP Service Level Agreement
词汇表

内核及 IO 相关故障

PDF
聚焦模式
字号
最后更新时间: 2024-01-06 17:32:18
使用实例自助检测时,可从检测报告中获取实例的异常情况。本文主要介绍实例自助检测报告中,内核及 IO 相关问题现象、引发原因及处理步骤。

内核问题定位及处理

故障现象

内核相关故障,可能导致机器无法登录或异常重启。

可能原因

内核 hung_task

hung task 机制通过内核线程 khungtaskd 实现,khungtaskd 监控 TASK_UNINTERRUPTIBLE 状态的进程。如果在 kernel.hung_task_timeout_secs(默认120秒)周期内一直处于 D 状态,则会打印 hung task 进程的堆栈信息。
如果配置 kernel.hung_task_panic=1,则会触发内核 panic 重启机器。

内核软死锁 soft lockup

soft lockup 指 CPU 被内核代码占据以至于无法执行其他进程。检测 soft lockup 的原理是给每个 CPU 分配一个定时执行的内核线程 [watchdog/x],如果该线程在一定周期内(默认为2*kernel.watchdog_thresh,3.10内核 kernel.watchdog_thresh 默认为10秒)没有得到执行,则表明发生了 soft lockup。
如果配置了 kernel.softlockup_panic=1,则会触发内核 panic 重启机器。

内核 panic

内核异常 crash 导致机器异常重启,常见的内核 panic 场景如下:
内核出现了 hung_task 且配置了 kernel.hung_task_panic=1
内核出现了软死锁 soft lockup 且配置了 kernel.softlockup_panic=1
触发了内核 bug。

处理步骤

内核相关问题排查及处理步骤较复杂,建议通过 提交工单 进一步定位及处理。

硬盘问题定位及处理

硬盘 inode 满

故障现象:创建新文件时提示 “No space left on device” 错误信息,且使用 df -i 命令查看 inode 空间使用率100%。 可能原因: 文件系统 inode 耗尽。 处理步骤:删除无需使用的文件或扩容硬盘。

硬盘空间使用率满

故障现象:创建新文件时提示 “No space left on device” 错误信息,且使用 df -h 命令查看到硬盘空间使用率100%。 可能原因: 硬盘空间耗尽。 处理步骤:删除无需使用的文件或扩容硬盘。

硬盘只读

故障现象: 文件系统只能读文件,不能创建新文件。 可能原因: 文件系统有损坏。 处理步骤
1. 创建快照以备份硬盘数据,详情请参见 创建快照
2. 根据硬盘类型,执行对应处理步骤:
系统盘
数据盘
建议直接重启实例,详情请参见 重启实例
1. 执行以下命令,查看只读盘对应的文件系统类型。
lsblk -f
2. 执行以下命令,卸载数据盘。
umount <对应盘挂载路径>
3. 对应文件系统类型,执行以下命令进行修复:
ext3/ext4 文件系统,执行以下命令:
fsck -y /dev/对应盘
xfs 文件系统,执行以下命令:
xfs_repair /dev/对应盘

硬盘 %util 高

故障现象:实例卡顿,使用 SSH 或 VNC 登录慢或无响应。 可能原因:IO 高导致硬盘 %util 达到100%。 处理步骤:查看 IO 高是否合理,且需评估是否减少 IO 读写或者置换更高性能的硬盘。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈