tencent cloud

内容分发网络 CDN

动态与公告
产品动态
公告
新手指引
产品简介
产品概述
产品优势
应用场景
基本概念
使用限制
CDN性能说明(抽样)
购买指南
CDN 购买指南
ECDN 购买指南
快速入门
从零开始配置 CDN
接入域名
配置 CNAME
域名归属权验证
域名接入常见问题
配置指南
域名管理
域名配置
统计分析
刷新预热
日志服务
安全加速
服务查询
离线缓存
权限管理
权限配置
控制台权限说明
子账号或协作者开通实时日志的方法
场景教学
CDN 加速 COS 资源
实践教程
CDN 迁移至 EdgeOne 工具使用指南
CDN - CVM
CDN - COS
DNSPod 一键配置 CNAME
CDN日志定时存储
API 文档
History
Introduction
API Category
Content Management APIs
Real-time Log APIs
Service Query APIs
Data Query APIs
Making API Requests
Log Query APIs
StopCdnDomain
Configuration Management APIs
Obsoleted APIs
Other APIs
Data Types
Error Codes
常见问题
功能特性问题
计费相关问题
域名接入问题
缓存配置问题
刷新预热问题
统计分析问题
HTTPS 相关问题
访问相关问题
故障相关问题
故障处理
状态码说明及处理建议
不同节点缓存内容不一致
接入 CDN 后,网页访问速度慢
流量命中率偏低
CDN 域名突然出现404状态
页面展示异常-访问跨域报错
资源缓存未生效
CDN Service Level Agreement
词汇表

抽样数据统计说明

PDF
聚焦模式
字号
最后更新时间: 2026-01-14 17:00:18
CDN 的数据分析功能通过深入分析海量日志数据,帮助用户分析流量特征。为了优化用户体验,数据分析中引入了抽样数据统计技术,以确保即使在处理大量数据时,也能保持查询的准确性和及时性。

什么是抽样数据统计

数据分析中,抽样是指从全部数据中选取一个代表性的子集进行分析,以便从中提取有价值的信息。例如,进行社会调查时,研究者无法对每个人进行调查,因此他们会挑选一部分人群作为代表样本,用这些样本的回答来反映整个人群的倾向。

什么指标会抽样统计

CDN运用动态抽样技术来适应不同用户的日志数据量级,确保数据分析的准确性和效率。数据分析 查询的 TOP URL、TOP 100 客户端IP、TOP 100 Referer、TOP UA ,当域名的QPS达到以下条件时,会采用抽样数据进行统计:
QPS 在 [1w, 10w),抽样比例为 10%
QPS 在 [10w, 100w),抽样比例为 1%
QPS 在 [100w, +∞),抽样比例为 0.1%
抽样策略按每5分钟粒度的数据判断QPS,若QPS达到上述条件,则触发抽样,否则不抽样。示例如下:
域名在00:01~00:05的5分钟日志数据QPS达到1万,则抽样10%,即从5分钟的样本抽取10%的日志条数计算。
域名在00:06~00:10采集的5分钟日志数据QPS达到10万,则抽样1%,即从5分钟的样本抽取1%的日志条数计算。
域名在00:11~00:15采集的5分钟日志数据QPS为5000,则不抽样,按全量请求日志计算。
说明:
CDN 会根据平台日志数据的规模和用户的实际需求,不断优化和调整抽样策略。如果您对数据分析查询结果有任何疑问,欢迎随时 联系我们

如何使用全量统计

如果您的业务需求需要对全量日志数据进行深入分析,我们推荐您使用 CDN 的 实时日志 功能。实时日志推送可以将详尽的完整日志数据转存到您指定的日志分析系统中(例如腾讯云 CLS),您可以通过获取全量数据来进行精细的数据处理。通过实时日志功能,您可以确保在需要更高数据精度的场景中,获得更加准确的数据分析结果,从而为您的业务决策提供更加准确的数据支持。

数据代表性说明

CDN 会为您的每条请求日志提供唯一标识(Request ID),抽样系统会基于该唯一标识对您的数据进行抽样分析,以保证抽样因子的随机性。经过我们的测试,当您需要分析的特征在整体数据中占比较高时,采用抽样分析可以为您提供快速且准确的结果。但我们也需要指出,当您需要分析的特征在整体数据中占比较小时,由于样本数较少,抽样分析的结果可能会偏大或偏小。
举例说明,您有日志量级为 10000 的数据集,该数据集包含 3 个 URL Path A、B、C,其数量分布分别为 7000(70%)、2900(29%)、100(1%),在最理想的情况下,经过 10% 的抽样后,URL Path A、B、C 的样本数分别为 700、290、10,其中,由于 URL C 对应的样本数太少,基于样本估算总体的准确性将大幅降低,此时您对 URL C 进行下钻分析时的结果可能不符合预期。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈