tencent cloud

边缘安全加速平台 EO

动态与公告
产品动态
安全公告
产品公告
产品简介
产品概述
产品优势
应用场景
EdgeOne 与 CDN 等产品功能对比
使用限制
购买指南
试用套餐体验权益说明
免费版套餐使用说明
计费概述
计费项目
购买指引
续费指引
欠费与退款说明
套餐选型对比
关于“干净流量”计费说明
DDoS 防护容量说明
快速入门
选择业务场景
快速接入网站安全加速
通过 Pages 快速部署网站
域名服务与源站配置
域名服务
HTTPS 证书
源站配置
站点加速
概述
访问控制
智能加速
缓存配置
文件优化
网络优化
URL 重写
修改头部
修改应答内容
规则引擎
图片与视频处理
单连接下载限速
DDoS 与 Web 防护
概述
DDoS 防护
Web 防护
Bot 管理
API 资产识别(Beta)
边缘函数
概述
快速指引
操作指引
Runtime APIs
示例函数
实践教程
Pages
四层代理
概述
新建四层代理实例
修改四层代理实例配置
停用/删除四层代理实例
批量配置转发规则
获取客户端真实IP
数据分析与日志服务
日志服务
数据分析
告警服务
站点与计费管理
计费管理
站点管理
版本管理
通用策略
通用参考
配置语法
请求与响应行为
国家/地区及对应代码枚举
Terraform
Terraform 简介
安装和配置 Terraform
实践教程
自动预热/清除缓存
防盗刷/盗链实践
HTTPS 相关实践
加速优化
流量调度
数据分析与告警
第三方日志平台集成实践
对象存储类源站(例如:COS)配置实践
跨域响应配置
API 文档
History
Introduction
API Category
Making API Requests
Site APIs
Acceleration Domain Management APIs
Site Acceleration Configuration APIs
Edge Function APIs
Alias Domain APIs
Security Configuration APIs
Layer 4 Application Proxy APIs
Content Management APIs
Data Analysis APIs
Log Service APIs
Billing APIs
Certificate APIs
Origin Protection APIs
Load Balancing APIs
Diagnostic Tool APIs
Custom Response Page APIs
API Security APIs
DNS Record APIs
Content Identifier APIs
Legacy APIs
Ownership APIs
Image and Video Processing APIs
Multi-Channel Security Gateway APIs
Version Management APIs
Data Types
Error Codes
常见问题
产品特性相关问题
DNS 记录相关问题
域名配置相关问题
站点加速相关问题
数据与日志相关问题
安全防护相关问题
源站配置相关问题
排障指南
异常状态码参考
EdgeOne 4XX/5XX 状态码排障指南
520/524状态码排障指南
521/522 状态码排障指南
工具指南
相关协议
Service Level Agreement
源站防护启用特别约定
TEO 政策
隐私协议
数据处理和安全协议
联系我们
词汇表

抽样数据统计

PDF
聚焦模式
字号
最后更新时间: 2025-01-15 10:56:48
EdgeOne 数据分析模块通过深入分析 EdgeOne 产品持续记录的海量日志数据,帮助用户分析流量特征。为了优化用户体验,EdgeOne 数据分析中引入了抽样数据统计技术,以确保即使在处理大量数据时,也能保持查询的准确性和及时性。

什么是抽样数据统计

数据分析中,抽样是指从全部数据中选取一个代表性的子集进行分析,以便从中提取有价值的信息。例如,进行社会调查时,研究者无法对每个人进行调查,因此他们会挑选一部分人群作为代表样本,用这些样本的回答来反映整个人群的倾向。

什么时候 EdgeOne 会应用抽样数据统计

EdgeOne 运用动态抽样技术来适应不同用户的日志数据量级,确保数据分析的准确性和效率。在以下数据查询场景中,EdgeOne 相关页面所展示的数据可能会经过抽样处理。
指标分析页面 查询 L7 访问相关指标,且添加如下筛选条件时:状态码、运营商、省份、TLS 版本、URL Path、Referer、资源类型、设备类型、浏览器类型、系统类型、IP 版本、客户端 IP、User-Agent。这是因为当用户在查询整体流量时,我们会为用户提供提前聚合好的统计表,帮助用户快速得到精确的统计结果。但是当用户需要按照某些特定维度进行下钻分析时,查询就会切换到体量庞大的多维统计表,此时便需要通过抽样机制来减少底层数据扫描量,为用户提供快速的查询体验。
指标分析页面 查询 L7 防护相关指标或在 Web 安全分析页面进行统计分析或查看样本日志时,如果查询的时间范围内发生了大规模的 CC 攻击,您看到的数据也可能是抽样结果。在这种情况下,可能会存在无法检索到特定请求 ID 对应日志的情况。
说明:
请注意,EdgeOne 会根据平台日志数据的规模和用户的实际需求,不断优化和调整抽样策略。如果您对 EdgeOne 提供的数据分析查询结果有任何疑问,欢迎随时 联系我们 的支持团队。

对使用 EdgeOne 是否有影响

抽样统计技术仅应用于数据分析模块,不会对站点加速、四层代理或安全防护等其他服务配置产生任何影响。通过抽样数据统计技术,EdgeOne 能够更快速地为您提供统计分析结果,协助您在页面内能够获得查询结果的同时提升查询效率。这确保了即使面对海量数据,EdgeOne 也能保持查询的响应速度和准确性。

如何查询全量数据

如果您的业务需求需要对全量日志数据进行深入分析,我们推荐您使用 EdgeOne 的 实时日志推送 功能。实时日志推送可以将详尽的完整日志数据转存到您指定的日志分析系统中(如腾讯云 CLS、第三方日志解决方案或自建的 ELK 栈),您可以通过获取全量数据来进行精细的数据处理。通过实时日志功能,您可以确保在需要更高数据精度的场景中,获得更加准确的数据分析结果,从而为您的业务决策提供更加准确的数据支持。

了解更多

抽样数据统计的工作原理

抽样策略

EdgeOne 采用动态分级策略。该策略会周期性分析您的域名请求量级与对应的查询性能,来判定您的域名是否符合抽样条件。当抽样系统判定您的域名符合抽样条件时,会根据判定周期内的请求量级大小从 10%、1%、0.1%、0.01% 这 4 种抽样比例为您选取合适的抽样等级,各抽样比例的触发规则如下:
10%:日均请求量级达 1000 万次以上;
1%:日均请求量级达 1 亿次以上;
0.1%:日均请求量级达 10 亿次以上;
0.01%:日均请求量级达 100 亿次以上。
在触发抽样后,您的抽样等级并非是一成不变的。若您的域名请求量级持续上升,EdgeOne 会相应地升级您的抽样等级,采取更低的抽样比例;若您的域名请求量级持续下降,EdgeOne 会相应地下降您的抽样等级,采取更高的抽样比例,甚至为您取消抽样机制。

数据代表性

EdgeOne 会为您的每条请求日志提供唯一标识(Request ID),抽样系统会基于该唯一标识对您的数据进行抽样分析,以保证抽样因子的随机性。经过我们的测试,当您需要分析的特征在整体数据中占比较高时,采用抽样分析可以为您提供快速且准确的结果。但我们也需要指出,当您需要分析的特征在整体数据中占比较小时,由于样本数较少,抽样分析的结果可能会偏大或偏小。
举例说明,您有量级为 10000 的数据集,该数据集包含 3 个 URL Path A、B、C,其数量分布分别为 7000(70%)、2900(29%)、100(1%),在最理想的情况下,经过 10% 的抽样后,URL Path A、B、C 的样本数分别为 700、290、10,其中,由于 URL C 对应的样本数太少,基于样本估算总体的准确性将大幅降低,此时您对 URL C 进行下钻分析时的结果可能不符合预期。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈