tencent cloud

数据开发治理平台 WeData

产品动态
动态发布记录(2026年)
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
购买指南
计费概述
产品版本购买说明
执行资源购买说明
购买方式
欠费说明
退费说明
准备工作
账号和权限管理概述
添加白名单/安全组(可选)
通过 Microsoft Entra ID(Azure AD)单点登录(SSO)WeData
操作指南
管理控制台
项目管理
数据集成
Studio
数据开发
数据分析
数据科学
数据治理(with Unity Semantics)
API 文档
History
Introduction
API Category
Making API Requests
Smart Ops Related Interfaces
Project Management APIs
Resource Group APIs
Data Development APIs
Data Asset - Data Dictionary APIs
Data Development APIs
Ops Center APIs
Data Operations Related Interfaces
Data Exploration APIs
Asset APIs
Metadata Related Interfaces
Task Operations APIs
Data Security APIs
Instance Operation and Maintenance Related Interfaces
Data Map and Data Dictionary APIs
Data Quality Related Interfaces
DataInLong APIs
Platform Management APIs
Data Source Management APIs
Data Quality APIs
Platform Management APIs
Asset Data APIs
Data Source Management APIs
Data Types
Error Codes
WeData API 2025-08-06
服务等级协议
相关协议
隐私协议
数据处理和安全协议
联系我们
词汇表

数据科学概述

PDF
聚焦模式
字号
最后更新时间: 2026-01-15 17:31:35

产品设计理念

数据开发治理平台 WeData(以下简称 WeData)基于 MLOps 的产品设计理念,建设了数据科学模块。

MLOps 理念和价值

MLOps(Machine Learning Operations)是一套工程化方法,连接模型构建团队和业务及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织可稳定可靠、规模化、高质效地持续生产机器学习模型,为业务赋能。核心是通过解决如下问题,实现企业大规模 AI 开发的降本增效:
模型全生命周期缺乏统一管理
代码、数据、算法、模型等资产缺乏统一的版本管理及可追溯能力;
企业在ML生产至应用过程中缺乏相应的规范;
模型开发部署迭代周期长
Algorithmia 2020:64%的企业部署一个新模型花费超过一个月的时间,其中18%的公司需要90天以上上线;
模型服务不可持续
模型迭代并部署上线的速度无法及时响应业务需求的快速变更;
上线那一刻开始模型存在降级退化风险(数据漂移、效果漂移);
自动化程度较低
存在较多手动流程,效率较低,人力成本大;
缺乏完善的监控和告警机制,无法在损害发生之前捕捉到错误,并及时修正;
跨团队协作困难
不同团队的工具和工作流程差异大;
业务团队、运维团队和AI团队间的孤岛效应、沟通鸿沟无法逾越;
潜在风险高
技术风险:不稳定的模型效果,脆弱的基础设施;
合规风险:违反政府监管规定和公司政策。

我们的洞察和优势

在 WeData 这样的数据平台上建设数据科学能力,本身具备了强大的数据集成、数据开发、数据治理的能力,天然可以解决传统数据平台和AI开发平台割裂的问题:
数据开发和 AI 开发分离
大数据和 AI 为两套独立系统,很难实现端到端的流程的样本清洗、存储、分析、训练、推理;
存储、计算成本高
数据需要在两套系统间来回流动;
大数据和 AI 的 CPU、GPU 算力无法复用。

我们的核心理念

1. 始终以业务目标为牵引,来推进AI项目研发;
2. 以数据为中心,来实现AI的研发;
3. 以模块化平台的方式实现全生命周期的驱动:如数据探索, 特征工程, 模型训练, 在线服务等;
4. 使用自动化流程实现持续训练、持续集成、持续交付。

功能概述

WeData 数据科学模块建设了实验管理、特征管理、模型管理和模型服务四个核心功能模块,与周边的关联产品 Studio、工作流、数据质量、引擎等密切协同,从而实现 MLOps 能力的构建,实现“数据--模型--推理”的全生命周期的端到端能力。

核心模块

模块
核心功能
实验管理
在 Studio 中启用 MLflow 服务,可以在实验中通过调用 MLflow 的相关函数来记录每一次实验的参数、指标和结果,并在实验管理中进行查看,从而实现实验的追踪和可复现性。
并且提供了 AutoML 能力,支持进行无代码开发。
特征管理
在 Studio 中使用 WeData 所提供的特征处理API,可以创建、写入、读取、查找、同步、消费特征表,并在特征管理中进行查看、管理特征,实现特征统一管理、统一消费。
模型管理
在 Studio 中启用 MLflow 服务,可以在实验中通过调用MLflow的相关函数来注册模型,或者在实验管理中执行可视化的模型注册。支持查看模型的关键信息,以及与实验/运行、服务等关联关系。
模型服务
支持从模型管理中的模型创建API服务,并进行服务监控等功能,并可查看与模型的关联关系,方便进行信息回溯。

周边模块

模块
核心功能
Studio
AI 开发最主要的工作区,用户可在 Studio 中编辑、调试、运行代码,并且调用MLflow和特征管理工具包,实现特征表增删改查、模型训练、模型注册等操作。
工作流
自动化流程主要的工作区,用户可在 Studio 中调试好代码后,提交至工作流设置周期性调度,实现模型的自动化、周期性生产。
数据质量
模型服务推理表、特征表、训练数据表都可以通过发起数据质量任务,查看相应的字段分析、漂移分析、模型指标等质量信息。
引擎
数据科学对接了 DLC 和 EMR 两种引擎,作为 AI 开发的数据来源、离线特征存储和训练资源。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈