tencent cloud

数据开发治理平台 WeData

产品动态
动态发布记录(2026年)
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
购买指南
计费概述
产品版本购买说明
执行资源购买说明
购买方式
欠费说明
退费说明
准备工作
账号和权限管理概述
添加白名单/安全组(可选)
通过 Microsoft Entra ID(Azure AD)单点登录(SSO)WeData
操作指南
管理控制台
项目管理
数据集成
Studio
数据开发
数据分析
数据科学
数据治理(with Unity Semantics)
API 文档
History
Introduction
API Category
Making API Requests
Smart Ops Related Interfaces
Project Management APIs
Resource Group APIs
Data Development APIs
Data Asset - Data Dictionary APIs
Data Development APIs
Ops Center APIs
Data Operations Related Interfaces
Data Exploration APIs
Asset APIs
Metadata Related Interfaces
Task Operations APIs
Data Security APIs
Instance Operation and Maintenance Related Interfaces
Data Map and Data Dictionary APIs
Data Quality Related Interfaces
DataInLong APIs
Platform Management APIs
Data Source Management APIs
Data Quality APIs
Platform Management APIs
Asset Data APIs
Data Source Management APIs
Data Types
Error Codes
WeData API 2025-08-06
服务等级协议
相关协议
隐私协议
数据处理和安全协议
联系我们
词汇表

AutoML 实验

PDF
聚焦模式
字号
最后更新时间: 2026-01-15 17:31:36

功能概述

AutoML(自动化机器学习,Automated Machine Learning)是一种自动化机器学习流程的技术,旨在让用户无需深入掌握机器学习算法和调参细节,也能高效地完成数据预处理、特征工程、模型选择、超参数优化、模型评估等一系列机器学习任务。AutoML 平台通常会自动尝试多种算法和参数组合,帮助用户快速找到最佳的机器学习模型。
简而言之:
AutoML 让机器学习变得更简单、更高效,适合没有深厚算法背景的业务人员,也能帮助专业数据科学家提升建模效率。AutoML 会自动为这些任务准备数据、尝试多种主流算法,并生成包含完整训练流程的 Python notebook,便于您复查、复用和修改代码。
注意:
当前 AutoML 类型实验仅重庆地域可用,未来会逐步覆盖全量地区。

应用场景

任务类型​
适用场景​
核心目标​
AutoML - 分类​
预测类别(如客户风险等级、商品分类)​
输出类别标签(如 “高风险”、“中风险”、低风险)​
AutoML - 回归
预测连续数值(如销售额、库存数量)​
输出具体数值(如 “500 件”)​
AutoML - 时序预测​
基于历史时间序列预测未来趋势(如销量预测)​
输出未来时间段的数值序列​(未来7天的销量)

操作步骤

AutoML实验新建入口

1. 登录 WeData 平台,在左侧导航栏找到“模型实验”模块,单击进入 “实验列表” 页面。
2. 页面顶部将显示 3 个 AutoML 实验入口:新建 AutoML - 分类实验、新建 AutoML - 回归实验、新建 AutoML - 时序预测实验,根据业务需求选择对应入口。

支持创建分类场景的 AutoML 实验,帮助您自动化搜索最优模型和参数。

创建实验,自动生成 AutoML 实验代码。
根据配置发起 AutoML 训练,并自动化搜索模型和参数。
进入实验管理,监控模型训练过程,对比模型训练结果。
单击后进入创建表单。

新建 AutoML 实验

分类实验



步骤 1:基础配置​

实验名称:输入不超过 50 个字符的名称(如 “2025Q4 客户风险分类实验”)。
实验描述:可选,输入不超过 100 个字符的说明(如 “基于客户消费数据预测风险等级”)。


步骤 2:引擎和数据配置​

1. 引擎选择:仅支持 “DLC 引擎”,下拉选择对应资源组(提示:资源组需与数据所在网络一致)。
高级参数:可选,如需配置内核参数(如内存、CPU),单击 “编辑” 填写,填写后单击确定保存。

2. 训练数据选择:​
单击 “浏览数据”,在弹窗中选择数据所在的 “数据目录→数据库→数据表”(仅显示 DLC 引擎下的数据)。

注意:
数据限制:仅支持 DLC 引擎下的数据库 / 数据表,非 DLC 数据需先迁移至 DLC。
数据预览:选择后右侧将显示数据表结构(Schema),默认全选所有列。

缺失值补全:下拉选择补全方式(auto / 平均值 / 中位数 / 众数)。
选择标签列:单选 “目标类别列”。
选择丢弃列:多选无需作为特征的列(如 “客户 ID”,丢弃后不参与训练)。


步骤 3:训练配置​

评估指标:单选(默认 “log_loss”,可选 “f1”“precision”“accuracy”“roc_auc”)。
搜索空间:多选需自动测试的模型框架(默认全选,可选 “sklearn”“xgboost”“lightgbm”)。
最大运行时间:默认 60 分钟(可调整,超时将停止实验)。
最大运行次数:默认 100 次(可调整,即自动测试的模型参数组合数量)。
最大运行并发:默认 1(可调整,实际并发取决于 DLC 资源情况)。


步骤 4:创建实验与查看结果​

1. 单击页面底部 “创建并运行”,系统将自动生成 AutoML 实验代码并发起训练。

2. 回到 “实验列表”,找到目标实验,可查看 “实验状态”(绿色 = 成功,红色 = 失败,失败时鼠标悬停显示原因)。
3. 查看详情:单击实验名称进入 “任务详情”,其中 “最佳运行” 字段显示最优模型,单击可查看该模型的参数、评估分数、生成的 Notebook 代码。

代码复用:
实验成功后,可在 “最佳运行” 详情中下载 Notebook 代码,用于后续手动调整模型。

回归实验​

步骤 1-3:与 “分类实验” 基本一致,仅以下配置不同​

步骤 3 评估指标:默认 “deviance”,可选 “RMSE”“MAE”“R2”“MSE”。

其他配置(引擎、数据、搜索空间等)与分类实验完全一致。​

步骤 4:提交与查看结果​

同 “分类实验” 步骤 4(实验状态、最佳运行、部署流程一致)。​

时序预测实验​

步骤 1:基础配置​

与 “分类实验” 一致(实验名称、描述)。​

步骤 2:引擎和数据配置(核心差异点)​

1. 引擎选择:同分类实验(仅 DLC 引擎 + 资源组)。
2. 训练数据选择:​
数据选择逻辑同分类实验(仅 DLC 表)​。
选择时间列:单选 “时间列”(如 “日期”,需为 date/time 类型,选择后不可丢弃)。

时间间隔:下拉选择数据的时间频率(如 “天”“小时”“月”,需与实际数据频率一致)。

预测时间序列长度:输入数字(如 “30”,表示预测未来 30 个时间间隔的数值)。

选择预测列:单选 “预测列”(如 “销量”);​

预测结果保存:​
单击 “选择数据路径”,选择结果存储的 DLC 数据库;​
填写表名(限制 128 字符,支持字母、数字、下划线),系统将自动创建该表存储预测结果。​


步骤 3:训练配置(差异点)​

评估指标:默认 “smape”,可选 “mse”“rmse”“mae”“mdape”;​

搜索空间:默认全选,可选 “Facebook Prophet”“ARIMA”“SARIMAX”“Deep-AR”“XGBoost” “LightGBM”“Holt-Winters”等

其他配置(运行时间、次数、并发)与分类实验一致。​

步骤 4:提交与查看结果​

1. 提交实验后,在 “实验列表” 中查看状态;​
2. 单击 “最佳运行” 查看最优预测模型。


AutoML实验对比

1. 相同类型的实验可以横向进行对比,在实验列表勾选相同类型的实验,单击对比实验按钮。

2. 勾选不同实验中的任务,单击对比任务。

任务对比详情与单个实验中的任务对比页面相同。


常见问题​

1. 预测表中的 “标签列”“预测列” 代表什么?​
即 “目标列”,不同任务类型下含义不同:​
分类实验:代表 “真实类别标签”(如 “高风险”“低风险”),用于与模型预测的 “prediction” 列对比,评估准确性;​
回归实验:代表 “真实连续数值”(如 “实际销售额 500 万”),用于计算预测值与真实值的误差;​
时序预测实验:部分场景下 “预测列” 即 “历史真实值”,与 “预测值” 列共同构成时间序列,便于观察预测趋势。​
2. 如何计算预测准确性?​
准确性通过 “训练配置” 中选择的 “评估指标” 计算,不同任务对应指标及逻辑如下:​
任务类型​
常用指标​
计算逻辑​
分类
accuracy(准确率)​
(预测正确的样本数 / 总样本数)× 100%​
分类​
f1 分数​
综合 “精确率” 和 “召回率” 的调和平均数,取值 0-1(越接近 1 越好)​
回归​
R2(决定系数)​
衡量模型解释数据变异的能力,取值 0-1(越接近 1 说明预测越准)​
回归​
MAE(平均绝对误差)​
所有样本 “真实值 - 预测值” 的绝对值的平均值(越小越好)​
时序预测​
smape(对称平均绝对百分比误差)​
衡量预测值与真实值的百分比误差,取值 0-100%(越小越好)​







帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈