tencent cloud

HDFS 监控指标
最后更新时间:2023-12-27 14:48:32
HDFS 监控指标
最后更新时间: 2023-12-27 14:48:32

HDFS-概览

标题
指标名称
指标单位
指标含义
集群存储容量
CapacityTotal
GB
集群存储总容量
CapacityUsed
GB
集群存储已使用容量
CapacityRemaining
GB
集群存储剩余容量
CapacityUsedNonDFS
GB
集群非 HDFS 使用容量
集群负载
TotalLoad
1
当前连接数
集群文件总数量
FilesTotal
总文件数量
BLOCKS 数量
BlocksTotal
总 BLOCK 数量
PendingReplicationBlocks
等待被备份的块数量
UnderReplicatedBlocks
副本数不够的块数量
CorruptBlocks
坏块数量
ScheduledReplicationBlocks
安排要备份的块数量
PendingDeletionBlocks
等待被删除的块数量
ExcessBlocks
多余的块数量
PostponedMisreplicatedBlocks
被推迟处理的异常块数量
BLOCK 容量
BlockCapacity
BLOCK 容量
集群数据节点
NumLiveDataNodes
活的数据节点数量
NumDeadDataNodes
已经标记为 Dead 状态的数据节点数量
NumDecomLiveDataNodes
下线且 Live 的节点数量
NumDecomDeadDataNodes
下线且 Dead 的节点数量
NumDecommissioningDataNodes
正在下线的节点数量
NumStaleDataNodes
标记为过期状态的 DataNode 数目
HDFS 存储空间使用率
CapacityUsedRate
HDFS 集群存储空间使用率
SNAPSHOT 相关
Snapshots
Snapshots 数量
磁盘故障
VolumeFailuresTotal
所有 Datanodes 的卷故障总数

HDFS-NameNode

标题
指标名称
指标单位
指标含义
数据流量
ReceivedBytes
Bytes/s
接收数据速率
SentBytes
Bytes/s
发送数据速率
QPS
RpcQueueTimeNumOps
1/s
RPC 调用速率
请求处理延迟
RpcQueueTimeAvgTime
ms
RPC 平均延迟时间
RpcProcessingTimeAvgTime
ms
RPC 请求平均处理时间
验证和授权
RpcAuthenticationFailures
1/次
RPC 验证失败次数
RpcAuthenticationSuccesses
2/次
RPC 验证成功次数
RpcAuthorizationFailures
3/次
RPC 授权失败次数
RpcAuthorizationSuccesses
4/次
RPC 授权成功次数
当前连接数
NumOpenConnections
1/个
当前连接数量
RPC 处理队列长度
CallQueueLength
1/个
当前 RPC 处理队列长度
JVM 内存
MemNonHeapUsedM
MB
JVM 当前已经使用的 NonHeapMemory 的大小
MemNonHeapCommittedM
MB
JVM 配置的 NonHeapCommittedM 的大小
MemHeapUsedM
MB
JVM 当前已经使用的 HeapMemory 的大小
MemHeapCommittedM
MB
JVM HeapMemory 提交大小
MemHeapMaxM
MB
JVM 配置的 HeapMemory 的大小
MemMaxM
MB
JVM 运行时可以使用的最大内存大小
数据块汇报延迟
BlockReportAvgTime
次/s
每秒处理 DataNode Blcok 平均延迟
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
FATAL级别日志数量
LogError
ERROR 级别日志数量
LogWarn
WARN 级别日志数量
LogInfo
INFO 级别日志数量
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
S1
%
Survivor 1区内存使用占比
E
%
Eden 区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
被标记为过期的存储的数量
NumStaleStorages
所有过期 DataNode 的存储目总数
备 NN 上挂起的与 BLOCK 相关操作的消息数量
PendingDataNodeMessageCount
个/s
DATANODE 的请求被 QUEUE 在 standby namenode 中的个数
缺失块统计
NumberOfMissingBlocks
缺失的数据块数量
NumberOfMissingBlocksWithReplicationFactorOne
缺失的数据库数量(rf = 1)
SNAPSHOT 操作
AllowSnapshotOps
次/s
每秒执行 AllowSnapshot 操作的次数
DisallowSnapshotOps
次/s
每秒执行 DisallowSnapshot 操作的次数
CreateSnapshotOps
次/s
每秒执行 CreateSnapshot 操作的次数
DeleteSnapshotOps
次/s
每秒执行 DeleteSnapshot 操作的次数
ListSnapshottableDirOps
次/s
每秒执行 ListSnapshottableDir 操作次数
SnapshotDiffReportOps
次/s
每秒执行 SnapshotDiffReportOps 的次数
RenameSnapshotOps
次/s
每秒执行 RenameSnapshotOps 的次数
文件操作
CreateFileOps
次/s
每秒执行 CreateFile 操作的次数
GetListingOps
次/s
每秒执行 GetListing 操作的次数
TotalFileOps
次/s
每秒执行 TotalFileOps 的次数
DeleteFileOps
次/s
每秒执行 DeleteFile 操作的次数
FileInfoOps
次/s
每秒执行 FileInfo 操作的次数
GetAdditionalDatanodeOps
次/s
每秒执行 GetAdditionalDatanode 操作的次数
CreateSymlinkOps
次/s
每秒执行 CreateSymlink 操作的次数
GetLinkTargetOps
次/s
每秒执行 GetLinkTarget 操作的次数
FilesInGetListingOps
次/s
每秒执行 FilesInGetListing 操作的次数
文件统计
FilesDeleted
count
文件和文件夹被删除或重命名的数量
FilesCreated
count
文件和文件夹创建数量
FilesAppended
count
Appended 文件数量
事务操作
TransactionsNumOps
次/s
每秒处理 Journal transaction 操作的次数
TransactionsBatchedInSync
次/s
每秒批量处理 Journal transaction 操作次数
镜像操作
GetEditNumOps
次/s
每秒执行 GetEditNumOps 的次数
GetImageNumOps
次/s
每秒执行 GetImageNumOps 的次数
PutImageNumOps
次/s
每秒执行 PutImageNumOps 的次数
SYNC 操作
SyncsNumOps
次/s
每秒处理 Journal syncs 操作的次数
数据块操作
BlockReceivedAndDeletedOps
次/s
每秒执行 BlockReceivedAndDeletedOps 的次数
BlockOpsQueued
次/s
处理 DataNode Block 上报操作的次数
缓存汇报
CacheReportNumOps
次/s
每秒处理 CacheReport 操作的次数
数据块汇报
BlockReportNumQps
次/s
每秒处理 DataNode Blcok 上报操作的次数
SYNCS 操作延迟
SyncsAvgTime
ms
处理 Journal syncs 操作的平均延迟
Cache 汇报延迟
CacheReportAvgTime
ms
缓存上报动作平均延迟
镜像操作延迟
GetEditAvgTime
ms
读取 Edit 文件操作平均延迟
GetImageAvgTime
ms
读取镜像文件平均延迟
PutImageAvgTime
ms
写入镜像文件平均延迟
事务操作延迟
TransactionsAvgTime
ms
处理 Journal Transaction 操作的平均延迟
启动时间
StartTime
ms
进程启动时间
主备情况
State
1
NN HA 状态
主备情况
State
1:主,0:备
NameNode 主备情况
线程数量
PeakThreadCount
峰值线程数
ThreadCount
线程数量
DaemonThreadCount
后台线程数量
上次 Checkpoint 以来事务总数
SinceLastCheckpoint
count
自上次检查点以来的总事务数
Checkpoint 时间
LastCheckpoint
time
上次 Checkpoint 以来的时间
等待文件锁的队列长度
LockQueueLength
count
LockQueueLength 等待文件锁的队列长度
RPC 平均时间(1)
CompleteAvgTime
ms
Complete 请求平均延迟时间
CreateAvgTime
ms
Create 请求平均延迟时间
RenameAvgTime
ms
Rename 请求平均延迟时间
AddBlockAvgTime
ms
AddBlock 请求平均延迟时间
GetListingAvgTime
ms
GetListing 请求平均延迟时间
GetFileInfoAvgTime
ms
GetFileInfo 请求平均延迟时间
SendHeartbeatAvgTime
ms
SendHeartbeat 请求平均延迟时间
RPC 平均时间(2)
RegisterDatanodeAvgTime
ms
RegisterDatanode 请求平均延迟时间
BlockReportAvgTime
ms
BlockReport 请求平均延迟时间
DeleteAvgTime
ms
Delete 请求平均延迟时间
RenewLeaseAvgTime
ms
RenewLease 请求平均延迟时间
BlockReceivedAndDeletedAvgTime
ms
BlockReceivedAndDeleted 请求平均延迟时间
FsyncAvgTime
ms
Fsync 请求平均延迟时间
VersionRequestAvgTime
ms
VersionRequest 请求平均延迟时间
RPC 平均时间(3)
ListEncryptionZonesAvgTime
ms
ListEncryptionZones 请求平均延迟时间
SetPermissionAvgTime
ms
SetPermission 请求平均延迟时间
SetTimesAvgTime
ms
SetTimes 请求平均延迟时间
SetSafeModeAvgTime
ms
SetSafeMode 请求平均延迟时间
MkdirsAvgTime
ms
Mkdirs 请求平均延迟时间
GetServerDefaultsAvgTime
ms
GetServerDefaults 请求平均延迟时间
GetBlockLocationsAvgTime
ms
GetBlockLocations 请求平均延迟时间
RPC 统计(1)
CompleteNumOps
次/s
每秒调用 Complete 的次数
CreateNumOps
次/s
每秒调用 Create 的次数
RenameNumOps
次/s
每秒调用 Rename 的次数
AddBlockNumOps
次/s
每秒调用 AddBlock 的次数
GetListingNumOps
次/s
每秒调用 GetListing 的次数
GetFileInfoNumOps
次/s
每秒调用 GetFileInfo 的次数
SendHeartbeatNumOps
次/s
每秒调用 SendHeartbeat 的次数
RPC 统计(2)
RegisterDatanodeNumOps
次/s
每秒调用 RegisterDatanode 的次数
BlockReportNumOps
次/s
每秒调用 BlockReport 的次数
DeleteNumOps
次/s
每秒调用 Delete 的次数
RenewLeaseNumOps
次/s
每秒调用 RenewLease 的次数
BlockReceivedAndDeletedNumOps
次/s
每秒调用 BlockReceivedAndDeleted 的次数
FsyncNumOps
次/s
每秒调用 Fsync 的次数
VersionRequestNumOps
次/s
每秒调用 VersionRequest 的次数
RPC 统计(3)
ListEncryptionZonesNumOps
次/s
每秒调用 ListEncryptionZones 的次数
SetPermissionNumOps
次/s
每秒调用 SetPermission 的次数
SetTimesNumOps
次/s
每秒调用 SetTimes 的次数
SetSafeModeNumOps
次/s
每秒调用 SetSafeMode 的次数
MkdirsNumOps
次/s
每秒调用 Mkdirs 的次数
GetServerDefaultsNumOps
次/s
每秒调用 GetServerDefaults 的次数
GetBlockLocationsNumOps
次/s
每秒调用 GetBlockLocations 的次数

HDFS-DataNode

标题
指标名称
指标单位
指标含义
XCEIVER 数量
XceiverCount
Xceiver 数量
数据读写速率
BytesWrittenMB
Bytes/s
写入 DN 的字节速率
BytesReadMB
Bytes/s
读取 DN 的字节速率
RemoteBytesReadMB
Bytes/s
远程客户端读取字节速率
RemoteBytesWrittenMB
Bytes/s
远程客户端写入字节速率
客户端连接数
WritesFromRemoteClient
来自远程客户端写操作 QPS
WritesFromLocalClient
来自本地客户端写操作 OPS
ReadsFromRemoteClient
来自远程客户端读操作 QPS
ReadsFromLocalClient
来自本地客户端读操作 QPS
Block校验失败
BlockVerificationFailures
次/s
BLOCK 校验失败数量
磁盘故障
VolumeFailures
次/s
磁盘故障次数
网络错误
DatanodeNetworkErrors
次/s
网络错误统计
心跳延迟
HeartbeatsAvgTime
ms
心跳接口平均时间
心跳 QPS
HeartbeatsNumOps
次/s
心跳接口 QPS
包传输操作RT
SendDataPacketTransferNanosAvgTime
ms
发送数据包平均时间
数据块操作
ReadBlockOpNumOps
次/s
从 DataNode 读取 Block OPS
WriteBlockOpNumOps
次/s
向 DataNode 写入 Block OPS
BlockChecksumOpNumOps
次/s
DataNode 进行 Checksum 操作的 OPS
CopyBlockOpNumOps
次/s
复制 Block 操作的 OPS
ReplaceBlockOpNumOps
次/s
Replace Block 操作的 OPS
BlockReportsNumOps
次/s
BLOCK 汇报动作的 OPS
IncrementalBlockReportsNumOps
次/s
BLOCK 增量汇报的 OPS
CacheReportsNumOps
次/s
缓存汇报的 OPS
PacketAckRoundTripTimeNanosNumOps
次/s
每秒处理 ACK ROUND TRIP 次数
FSYNC 操作
FsyncNanosNumOps
次/s
每秒处理 FSYNC 操作次数
FLUSH 操作
FlushNanosNumOps
次/s
每秒处理 Flush 操作次数
数据块操作延迟统计
ReadBlockOpAvgTime
ms
读取 Block 操作平均时间
WriteBlockOpAvgTime
ms
写 Blcok 操作平均时间
BlockChecksumOpAvgTime
ms
块校验操作平均时间
CopyBlockOpAvgTime
ms
复制块操作平均时间
ReplaceBlockOpAvgTime
ms
Replace Block 操作平均时间
BlockReportsAvgTime
ms
块汇报平均时间
IncrementalBlockReportsAvgTime
ms
增量块汇报平均时间
CacheReportsAvgTime
ms
缓存汇报平均时间
PacketAckRoundTripTimeNanosAvgTime
ms
处理 ACK ROUND TRIP 平均时间
FLUSH 延迟
FlushNanosAvgTime
ms
Flush 操作平均时间
FSYNC 延迟
FsyncNanosAvgTime
ms
Fsync 操作平均时间
RAMDISK Blocks
RamDiskBlocksWrite
块/s
写入内存的块的总数
RamDiskBlocksWriteFallback
块/s
写入内存但未成功的块总数(故障转移到磁盘)
RamDiskBlocksDeletedBeforeLazyPersisted
块/s
应用程序在被保存到磁盘之前被删除的块的总数
RamDiskBlocksReadHits
块/s
内存中的块被读取的总次数
RamDiskBlocksEvicted
块/s
内存中被清除的块总数
RamDiskBlocksEvictedWithoutRead
块/s
从内存中取出的内存块总数
RamDiskBlocksLazyPersisted
块/s
惰性写入器写入磁盘的总数
RamDiskBytesLazyPersisted
Bytes/s
由惰性写入器写入磁盘的总字节数
RAMDISK 写入速度
RamDiskBytesWrite
Bytes/s
写入内存的总字节数
JVM 内存
MemNonHeapUsedM
MB
JVM 当前已经使用的 NonHeapMemory 的大小
MemNonHeapCommittedM
MB
JVM 配置的 NonHeapCommittedM 的大小
MemHeapUsedM
MB
JVM 当前已经使用的 HeapMemory 的大小
MemHeapCommittedM
MB
JVM HeapMemory 提交大小
MemHeapMaxM
MB
JVM 配置的 HeapMemory 的大小
MemMaxM
MB
JVM 运行时可以使用的最大内存大小
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
Fatal 日志数量
LogError
Error 日志数量
LogWarn
Warn 日志数量
LogInfo
Info 日志数量
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
数据流量
ReceivedBytes
Bytes/s
接收数据速率
SentBytes
Bytes/s
发送数据速率
QPS
RpcQueueTimeNumOps
次/s
RPC 调用速率
请求处理延迟
RpcQueueTimeAvgTime
ms
RPC 平均延迟时间
RpcProcessingTimeAvgTime
次/s
RPC 请求平均处理时间
验证和授权
RpcAuthenticationFailures
次/s
RPC 验证失败次数
RpcAuthenticationSuccesses
次/s
RPC 验证成功次数
RpcAuthorizationFailures
次/s
RPC 授权失败次数
RpcAuthorizationSuccesses
次/s
RPC 授权成功次数
当前连接数
NumOpenConnections
当前链接数量
RPC 处理队列长度
CallQueueLength
1
当前 RPC 处理队列长度
CPU 时间
CurrentThreadSystemTime
ms
系统时间
CurrentThreadUserTime
ms
用户时间
启动时间
StartTime
s
进程启动时间
线程数量
PeckThreadCount
峰值线程数量
DaemonThreadCount
后台线程数量
读写延迟
write
ms
写操作耗时
read
ms
读操作耗时
包传输操作 QPS
DataPacketOps
次/s
包传输操作 QPS
Block 数量
跟盘信息相关例如:/data/qcloud/data/hdfs
Block 数量
使用磁盘容量
跟盘信息相关例如:/data/qcloud/data/hdfs
GB
使用磁盘容量
空闲磁盘容量
跟盘信息相关例如:/data/qcloud/data/hdfs
GB
空闲磁盘容量
预留磁盘容量
跟盘信息相关例如:/data/qcloud/data/hdfs
GB
预留磁盘容量

HDFS-JournalNode

标题
指标名称
指标单位
指标含义
JVM 内存
MemNonHeapUsedM
MB
JVM 当前已经使用的 NonHeapMemory 的大小
MemNonHeapCommittedM
MB
JVM 配置的 NonHeapCommittedM 的大小
MemHeapUsedM
MB
JVM 当前已经使用的 HeapMemory 的大小
MemHeapCommittedM
MB
JVM HeapMemory 提交大小
MemHeapMaxM
MB
JVM 配置的 HeapMemory 的大小
MemMaxM
MB
JVM 运行时可以使用的最大内存大小
JVM 线程数量
ThreadsNew
处于 NEW 状态的线程数量
ThreadsRunnable
处于 RUNNABLE 状态的线程数量
ThreadsBlocked
处于 BLOCKED 状态的线程数量
ThreadsWaiting
处于 WAITING 状态的线程数量
ThreadsTimedWaiting
处于 TIMED WAITING 状态的线程数量
ThreadsTerminated
处于 Terminated 状态的线程数量
JVM 日志数量
LogFatal
FATAL 级别日志数量
LogError
ERROR 级别日志数量
LogWarn
WARN 级别日志数量
LogInfo
INFO 级别日志数量
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比
数据流量
ReceivedBytes
Bytes/s
接收数据速率
SentBytes
Bytes/s
发送数据速率
请求处理延迟
RpcQueueTimeAvgTime
ms
RPC 平均延迟时间
验证和授权
RpcAuthenticationFailures
次/s
RPC 验证失败次数
RpcAuthenticationSuccesses
次/s
RPC 验证成功次数
RpcAuthorizationFailures
次/s
RPC 授权失败次数
RpcAuthorizationSuccesses
次/s
RPC 授权成功次数
当前连接数
NumOpenConnections
当前链接数量
RPC处理队列长度
CallQueueLength
1
当前 RPC 处理队列长度
CPU 时间
CurrentThreadSystemTime
ms
系统时间
CurrentThreadUserTime
ms
用户时间
启动时间
StartTime
s
进程启动时间
线程数量
PeckThreadCount
峰值线程数量
DaemonThreadCount
后台线程数量

HDFS-ZKFC

标题
指标名称
指标单位
指标含义
GC 次数
YGC
Young GC 次数
FGC
Full GC 次数
GC 时间
FGCT
s
Full GC 消耗时间
GCT
s
垃圾回收时间消耗
YGCT
s
Young GC 消耗时间
内存区域占比
S0
%
Survivor 0区内存使用占比
E
%
Eden 区内存使用占比
CCS
%
Compressed class space 区内存使用占比
S1
%
Survivor 1区内存使用占比
O
%
Old 区内存使用占比
M
%
Metaspace 区内存使用占比

HDFS-Router

标题
指标名称
指标单位
指标含义
alter table 请求时间
HIVE.HMS.API_ALTER_TABLE
ms
alter table 请求平均时间
alter table with env context 请求时间
HIVE.HMS.API_ALTER_TABLE_WITH_ENV_CONTEXT
ms
alter table with env context 请求平均时间
create table 请求时间
HIVE.HMS.API_CREATE_TABLE
ms
create table 请求平均时间
create table with env context 请求时间
HIVE.HMS.API_CREATE_TABLE_WITH_ENV_CONTEXT
ms
create table with env context 请求平均时间
drop table 请求时间
HIVE.HMS.API_DROP_TABLE
ms
drop table 平均请求时间
drop table with env context 请求时间
HIVE.HMS.API_DROP_TABLE_WITH_ENV_CONTEXT
ms
drop table with env context 平均请求时间
get table 请求时间
HIVE.HMS.API_GET_TABLE
ms
get table 平均请求时间
get tables 请求时间
HIVE.HMS.API_GET_TABLES
ms
get tables 平均请求时间
get multi table 请求时间
HIVE.HMS.API_GET_MULTI_TABLE
ms
get multi table 平均请求时间
get table req 请求时间
HIVE.HMS.API_GET_TABLE_REQ
ms
get table req 平均请求时间
get database 请求时间
HIVE.HMS.API_GET_DATABASE
ms
get database 平均请求时间
get databases 请求时间
HIVE.HMS.API_GET_DATABASES
ms
get databases 平均请求时间
get all database 请求时间
HIVE.HMS.API_GET_ALL_DATABASES
ms
get all databases 平均请求时间
get all functions 请求时间
HIVE.HMS.API_GET_ALL_FUNCTIONS
ms
get all functions 平均请求时间
当前活跃 create table 请求数
HIVE.HMS.ACTIVE_CALLS_API_CREATE_TABLE
当前活跃 create table 请求数
当前活跃 drop table 请求数
HIVE.HMS.ACTIVE_CALLS_API_DROP_TABLE
当前活跃 drop table 请求数
当前活跃 alter table 请求数
HIVE.HMS.ACTIVE_CALLS_API_ALTER_TABLE
当前活跃 alter table 请求数

本页内容是否解决了您的问题?
您也可以 联系销售 提交工单 以寻求帮助。

文档反馈