tencent cloud

피드백

커널 및 IO 관련 문제

마지막 업데이트 시간:2024-02-02 11:09:47
    인스턴스 자가 점검 사용 시 점검 보고서에서 인스턴스의 오류 상황을 확인할 수 있습니다. 본문에서는 인스턴스 자가 검점 보고서 중 커널 및 IO 관련 문제 현상, 원인 및 해결 절차를 소개합니다.

    커널 문제 파악 및 해결

    장애 현상

    커널 관련 장애로 인한 시스템 로그인 실패 또는 비정상적 재부팅

    예상 원인

    커넬 hung_task

    hung task 메커니즘은 커널 스레드 khungtaskd에 의해 구현되고 khungtaskd는 TASK_UNINTERRUPTIBLE 상태의 프로세스를 모니터링합니다. kernel.hung_task_timeout_secs(기본값: 120초) 시간 내에 계속 D 상태라면, hung task 프로세스 스택 정보가 출력됩니다.
    kernel.hung_task_panic=1을 구성하면 커널 panic이 트리거되어 기기가 재부팅됩니다.

    커널 소프트 락업 soft lockup

    soft lockup은 CPU가 커널 코드에 의해 점유되어 다른 프로세스를 실행할 수 없음을 의미합니다. Soft Lockup을 감지하는 원리는 각 CPU에 커널 스레드[watchdog/x] 예약 작업을 할당하고, 해당 스레드가 일정 주기(기본값: 2*kernel.watchdog_thresh, 3.10 커널 kernel.watchdog_thresh, 기본값: 10초) 내에 실행되지 않을 경우 이는 soft lockup 발생을 나타냅니다.
    kernel.softlockup_panic=1이 구성된 경우 커널 panic이 트리거되어 기기가 재부팅됩니다.

    커널 panic

    비정상적인 커널 crash로 인해 기기가 비정상적으로 재부팅됩니다. 일반적인 커널 panic 시나리오는 다음과 같습니다.
    커널에 Hung_task가 나타나고 kernel.hung_task_panic=1이 구성됨.
    커널에 소프트 락업 soft lockup이 나타나고 kernel.softlockup_panic=1이 구성됨.
    커널 bug를 트리거함.

    해결 절차

    커널 관련 문제 진단 및 해결 절차는 복잡하므로 티켓 제출을 권장합니다. ) 추가 포지셔닝 및 처리.

    하드디스크 문제 파악 및 해결

    하드디스크 inode 용량 없음

    장애 현상: 새 파일을 만들 때 "No space left on device."라는 오류 메시지가 표시되고 df -i 명령을 통해 확인한 inode 공간 사용률이 100%임. 가능한 원인: 파일 시스템 inode 소진. 해결 방법: 불필요한 파일 삭제 또는 하드디스크 확장.

    하드디스크 용량 없음

    장애 현상: 새 파일을 만들 때 "No space left on device."라는 오류 메시지가 표시되고 df -h 명령을 통해 확인한 하드디스크 공간 사용률이 100%임. 가능한 원인: 하드디스크 용량 소진. 해결 방법: 불필요한 파일 삭제 또는 하드디스크 확장.

    읽기 전용 하드디스크

    장애 현상: 파일 읽기만 가능한 파일 시스템. 신규 파일 생성 불가. 가능한 원인: 파일 시스템 손상. 해결 절차:
    1. 스냅샷 생성을 통한 하드디스크 데이터 백업. 자세한 내용은 스냅샷 생성을 참고하십시오.
    2. 하드디스크 유형에 따른 해결 방법을 실행합니다.
    시스템 디스크
    데이터 디스크
    인스턴스 재부팅을 권장합니다. 자세한 내용은 인스턴스 재부팅을 참고하십시오.
    1. 다음 명령어를 실행하여 읽기 전용 디스크 파일 시스템 유형을 확인합니다.
    lsblk -f
    2. 다음 명령어를 실행하여 데이터 디스크를 언마운트합니다.
    umount <디스크 언마운트 경로>
    3. 파일 시스템 유형에 따라 다음 명령어를 실행하여 복구합니다. -ext3/ext4 파일 시스템에서 다음 명령어 실행.
    fsck -y /dev/해당 디스크
    -xfs 파일 시스템에서 다음 명령어 실행.
    xfs_repair /dev/해당 디스크

    하드디스크 %util 높음

    장애 현상: 인스턴스 랙 발생. SSH 또는 VNC 로그인이 느리거나 응답 없음. 가능한 원인: 높은 IO로 인해 하드디스크 %util이 100%에 도달. 해결 방법: IO가 적절한지 확인하고 IO 읽기 및 쓰기 축소 또는 고성능 하드디스크로의 교체 고려.
    문의하기

    고객의 업무에 전용 서비스를 제공해드립니다.

    기술 지원

    더 많은 도움이 필요하시면, 티켓을 통해 연락 바랍니다. 티켓 서비스는 연중무휴 24시간 제공됩니다.

    연중무휴 24시간 전화 지원