tencent cloud

腾讯云 TI 平台

产品简介
产品概述
产品定价
客户价值
应用场景
购买指南
计费概述
购买方式
续费说明
欠费说明
安全合规
数据安全保护机制
监控、审计与日志
安全合规资质
快速入门
平台使用准备
操作指南
大模型广场
任务式建模
开发机
模型管理
模型评测
在线服务
资源组管理
数据源管理
Tikit
GPU 虚拟化
实践教程
LLM 部署及推理
LLM 训练及评测
内置训练镜像列表
自定义训练镜像规范
Angel 训练加速功能介绍
基于标签实现子用户间资源隔离
相关协议
TI Platform 隐私协议
TI Platform 数据处理和安全协议
开源软件信息
联系我们

在线服务部署

PDF
聚焦模式
字号
最后更新时间: 2025-05-12 12:03:31
在完成模型的训练或自定义镜像的开发后,可以使用模型服务模块部署为在线服务。

前提条件

将自定义的镜像上传至腾讯云容器镜像服务 TCR。

操作步骤

1. 登录 TI-ONE 控制台,在左侧导航栏中选择模型服务 > 在线服务,进入在线服务列表页面。
2. 在服务列表页面单击新建服务,进入服务启动页面。
3. 在服务启动页面,配置在线服务的相关参数。

3.1 服务基础信息
参数
说明
服务名称
服务的名称,按照界面提示的规则填写即可
服务版本
版本号系统自动生成
服务描述
可按需为服务配置描述信息
地域
同账号下的服务按地域进行隔离,地域字段取值根据您在服务列表页面所选择的地域自动带入
部署方式
可选择标准部署或多机分布式部署。
(A)标准部署模式下,单副本下有1个节点运行,适用于大多数标准场景
(B)多机分布式部署模式下,单副本下有多个节点协调运行,适用于模型需要多机并行的场景
注意:服务新建后,更新服务、新增版本均无法修改部署方式,请新建的时候谨慎选择
机器来源
可选择“从 CVM 机器中选择”或“从 TIONE 平台购买”:
(A)“从 CVM 机器中选择”模式下,可使用在资源组管理模块已购买的 CVM 机器的资源组部署服务,算力费用在购买资源组时已支付,启动服务时无需扣费。
(B)“从 TIONE 平台购买”模式下,用户无需预先购买资源组,根据服务依赖的算力规格,启动服务时冻结两小时费用,之后每小时根据运行中的实例数量按量扣费。
资源组
若选择“从 CVM 机器中选择”模式,可选择资源组管理模块的资源组。
3.2 实例容器信息

参数
说明
模型来源
可选择启动服务是否需要使用模型文件。
(A)选择 CFS 适用于,部署服务所需的模型文件已放在 CFS 文件系统里的场景,选择模型所在的 CFS 实例,路径输入到模型所在路径的层级(如模型为精调出来的 checkpoint500,则路径输入到/a/b/checkpoint500这一层级)。Turbo CFS 仅支持包年包月模式使用。
(B)选择 COS 适用于,部署服务所需的模型文件已放在 COS 文件系统里的场景,选择模型所在存储桶实例和所在路径的层级。COS 仅支持包年包月模式使用。
(C)选择镜像适用于,部署服务所需的自定义镜像已封装模型文件,不需要再进行模型文件挂载,且自定义镜像已上传至容器镜像服务 TCR 的场景;或者内置大模型的场景。
运行环境
(A)若从 CFS 选择模型,则运行环境需要根据模型文件选择对应的内置镜像。
(B)若从 COS 选择模型,则运行环境需要根据 COS 里的模型文件选择对应的内置镜像。
(C)若从镜像选择模型,则运行环境可以选择已上传至容器镜像服务 TCR 的自定义镜像、输入镜像地址或者内置大模型镜像。
存储挂载
按量付费模式下本地磁盘默认支持的模型包总大小约45G,包年包月(资源组)模式下模型包会存储在资源组节点挂载的磁盘上(资源组单节点磁盘总大小约50G),当您的模型包大小超过限制时,需要另外配置 CFS 文件系统,平台会自动使用 CFS 文件系统存储模型;当服务停止或者服务更新时,平台会默认帮用户清理该 CFS 源路径下的文件,请确保该路径下无其他数据;Turbo CFS 仅支持包年包月模式使用。
模型热更新
当配置了模型自动热更新后,模型服务会自动同步模型文件至服务本地磁盘,按量付费模式下本地磁盘默认支持的模型包总大小约45G,包年包月(资源组)模式下模型包会存储在资源组节点挂载的磁盘上(资源组单节点磁盘总大小约110G)请合理配置模型清理周期。当前版本仅支持推理镜像为 tfserving 的模型进行热更新;此外,由于模型热更新会持续下载模型到服务本地盘,因此需要该模型包配置了模型自动清理策略,或者模型服务外挂了 CFS 文件系统,才可以启动模型热更新。
资源申请/算力规格
(A)包年包月(资源组)模式下,可设置从所选资源组中申请多少资源用于启动当前服务。
(B)按量付费模式下,可按需选择启动当前服务所需的算力规格。
启动命令
支持配置容器的启动命令,选填。
环境变量
支持配置容器的环境变量,选填。
3.3 服务高级配置


参数
说明
请求限流
支持配置服务限流值:
1. 该限流值为单个副本的限流,当服务进行扩缩容时,服务整体限流值将按照设置的值 * 副本数进行更新;
2. 单个服务组最大的 QPS 为500,当服务组下设置的服务总限流值大于500时,按照500进行限流。
副本调节
(A)手动调节模式下,可以自定义设置服务的实例数量,实例数量最小为1。
(B)自动调节模式下,可以选择基于时间或者基于 HPA 的调节策略,该部分详细说明请查看 在线服务运营
是否生成鉴权
若开启,则服务调用时会进行签名认证,已启动的服务可在服务调用页面查看签名密钥及签名计算指引。
CLS 日志投递
平台为用户提供免费的近15日服务日志存储,若需要持久化日志存储以及更灵活的日志检索能力、日志监控告警能力 ,可开启 CLS 日志投递,开启后服务日志会根据日志集与日志主题投递至腾讯云日志服务 CLS。
重试策略
配置服务部署失败时采用的重试逻辑,支持“有限次重试”或“无限次重试”。只有在新部署服务时才会使用该逻辑;更新服务或启动已停止服务时,系统将采用“无限次重试”。
健康检测
Kubernetes的健康检查机制,支持自动检测并恢复失败的容器,确保流量分发到健康的实例上。
请求限流
支持配置服务限流值:
1. 该限流值为单个副本的限流,当服务进行扩缩容时,服务整体限流值将按照设置的值 * 副本数进行更新;
2. 单个服务组最大的 QPS 为500,当服务组下设置的服务总限流值大于500时,按照500进行限流。
自动停止
平台支持自动停止模型服务,当开启该开关后,在线服务将在指定的停止时间自动停止,同时停止服务算力计费。
标签
支持为服务添加标签,用于按照标签进行授权或出账。
4. 确认服务配置信息无误后,单击启动服务进行服务部署。服务部署过程中将为您创建网关并调度计算资源,需要等待一段时间,待服务成功完成部署时,服务状态将变为运行中

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈