tencent cloud

Cloud Virtual Machine

동향 및 공지
제품 동향
공용 이미지 업데이트 동향
운영 체제 공식 지원 종료 계획
제품 공지
제품 소개
CVM 개요
제품 장점
기본 개념
리전 및 가용존
신규 사용자 가이드
Service Regions and Service Providers
제품 요금
요금 개요
과금 방식
과금 항목
과금 방식 변경 개요
인스턴스 구매
사양 변경 요금 설명
연체 설명
빠른 시작
사용자 정의 Linux 인스턴스 구매
사용자 정의 Windows 인스턴스 구매
사용자 가이드
운영 가이드 개요
사용 제한 개요
인스턴스
스팟 인스턴스
예약 인스턴스
이미지
스토리지
백업 및 복구
네트워크
보안
비밀번호/키
모니터링 및 알람
운영 관리
편리한 기능
서버 마이그레이션
온라인 마이그레이션
마이그레이션 요금
장애 처리
CVM에 로그인할 수 없는 문제 처리 방법
Windows 인스턴스 로그인 관련 장애
Linux 인스턴스 로그인 관련 장애
기타 인스턴스 로그인 관련 장애
인스턴스 실행 장애
Linux 인스턴스 메모리 장애
네트워크 장애
실습 튜토리얼
CVM 선택 제안
환경 구축
웹사이트 구축
애플리케이션 구축
시각화 페이지 구축
로컬 파일을 CVM에 업로드
네트워크 성능 테스트
기타 실습 튜토리얼
API 참조
History
Introduction
API Category
Making API Requests
Region APIs
Instance APIs
Cloud Hosting Cluster APIs
Image APIs
Instance Launch Template APIs
Placement Group APIs
Key APIs
Security Group APIs
Network APIs
Data Types
Error Codes
보안 및 컴플라이언스
Cloud Access Management(CAM)
네트워크
자주 묻는 질문
리전 및 가용존 문제
요금
인스턴스 문제
스토리지 문제
이미지 관련 문제
서버 마이그레이션 관련 문제
네트워크 관련 문제
보안 관련 문제
운영 체제 관련 문제
운영 및 모니터링 관련 문제
CAM 관련 문제
NTP 서비스 관련 문제
적용 시나리오 관련 문제
Agreements
CVM Service Level Agreements
Red Hat Enterprise Linux Image Service Agreement
Public IP Service Level Agreement
용어집

커널 및 IO 관련 장애

PDF
포커스 모드
폰트 크기
마지막 업데이트 시간: 2024-02-02 11:09:47
인스턴스 자가 점검 사용 시 점검 보고서에서 인스턴스의 오류 상황을 확인할 수 있습니다. 본문에서는 인스턴스 자가 검점 보고서 중 커널 및 IO 관련 문제 현상, 원인 및 해결 절차를 소개합니다.

커널 문제 파악 및 해결

장애 현상

커널 관련 장애로 인한 시스템 로그인 실패 또는 비정상적 재부팅

예상 원인

커넬 hung_task

hung task 메커니즘은 커널 스레드 khungtaskd에 의해 구현되고 khungtaskd는 TASK_UNINTERRUPTIBLE 상태의 프로세스를 모니터링합니다. kernel.hung_task_timeout_secs(기본값: 120초) 시간 내에 계속 D 상태라면, hung task 프로세스 스택 정보가 출력됩니다.
kernel.hung_task_panic=1을 구성하면 커널 panic이 트리거되어 기기가 재부팅됩니다.

커널 소프트 락업 soft lockup

soft lockup은 CPU가 커널 코드에 의해 점유되어 다른 프로세스를 실행할 수 없음을 의미합니다. Soft Lockup을 감지하는 원리는 각 CPU에 커널 스레드[watchdog/x] 예약 작업을 할당하고, 해당 스레드가 일정 주기(기본값: 2*kernel.watchdog_thresh, 3.10 커널 kernel.watchdog_thresh, 기본값: 10초) 내에 실행되지 않을 경우 이는 soft lockup 발생을 나타냅니다.
kernel.softlockup_panic=1이 구성된 경우 커널 panic이 트리거되어 기기가 재부팅됩니다.

커널 panic

비정상적인 커널 crash로 인해 기기가 비정상적으로 재부팅됩니다. 일반적인 커널 panic 시나리오는 다음과 같습니다.
커널에 Hung_task가 나타나고 kernel.hung_task_panic=1이 구성됨.
커널에 소프트 락업 soft lockup이 나타나고 kernel.softlockup_panic=1이 구성됨.
커널 bug를 트리거함.

해결 절차

커널 관련 문제 진단 및 해결 절차는 복잡하므로 티켓 제출을 권장합니다. ) 추가 포지셔닝 및 처리.

하드디스크 문제 파악 및 해결

하드디스크 inode 용량 없음

장애 현상: 새 파일을 만들 때 "No space left on device."라는 오류 메시지가 표시되고 df -i 명령을 통해 확인한 inode 공간 사용률이 100%임. 가능한 원인: 파일 시스템 inode 소진. 해결 방법: 불필요한 파일 삭제 또는 하드디스크 확장.

하드디스크 용량 없음

장애 현상: 새 파일을 만들 때 "No space left on device."라는 오류 메시지가 표시되고 df -h 명령을 통해 확인한 하드디스크 공간 사용률이 100%임. 가능한 원인: 하드디스크 용량 소진. 해결 방법: 불필요한 파일 삭제 또는 하드디스크 확장.

읽기 전용 하드디스크

장애 현상: 파일 읽기만 가능한 파일 시스템. 신규 파일 생성 불가. 가능한 원인: 파일 시스템 손상. 해결 절차:
1. 스냅샷 생성을 통한 하드디스크 데이터 백업. 자세한 내용은 스냅샷 생성을 참고하십시오.
2. 하드디스크 유형에 따른 해결 방법을 실행합니다.
시스템 디스크
데이터 디스크
인스턴스 재부팅을 권장합니다. 자세한 내용은 인스턴스 재부팅을 참고하십시오.
1. 다음 명령어를 실행하여 읽기 전용 디스크 파일 시스템 유형을 확인합니다.
lsblk -f
2. 다음 명령어를 실행하여 데이터 디스크를 언마운트합니다.
umount <디스크 언마운트 경로>
3. 파일 시스템 유형에 따라 다음 명령어를 실행하여 복구합니다. -ext3/ext4 파일 시스템에서 다음 명령어 실행.
fsck -y /dev/해당 디스크
-xfs 파일 시스템에서 다음 명령어 실행.
xfs_repair /dev/해당 디스크

하드디스크 %util 높음

장애 현상: 인스턴스 랙 발생. SSH 또는 VNC 로그인이 느리거나 응답 없음. 가능한 원인: 높은 IO로 인해 하드디스크 %util이 100%에 도달. 해결 방법: IO가 적절한지 확인하고 IO 읽기 및 쓰기 축소 또는 고성능 하드디스크로의 교체 고려.

도움말 및 지원

문제 해결에 도움이 되었나요?

피드백