tencent cloud

腾讯云 TI 平台

产品简介
产品概述
产品定价
客户价值
应用场景
购买指南
计费概述
购买方式
续费说明
欠费说明
安全合规
数据安全保护机制
监控、审计与日志
安全合规资质
快速入门
平台使用准备
操作指南
大模型广场
任务式建模
开发机
模型管理
模型评测
在线服务
资源组管理
数据源管理
Tikit
GPU 虚拟化
实践教程
LLM 部署及推理
LLM 训练及评测
内置训练镜像列表
自定义训练镜像规范
Angel 训练加速功能介绍
基于标签实现子用户间资源隔离
相关协议
TI Platform 隐私协议
TI Platform 数据处理和安全协议
开源软件信息
联系我们

在线服务运营

PDF
聚焦模式
字号
最后更新时间: 2025-05-09 17:53:44

自动扩缩容

如果您的业务负载有显著的峰谷特征,为了提升推理算力资源的利用效率,您可以使用在线服务模块的自动扩缩容能力。该功能支持在线服务的实例数量根据您配置的扩缩容策略自动调整,从而实现在业务负载高峰时实例数量自动扩容,在业务负载低谷时实例数量自动缩容。 自动扩缩容支持两种类型的调节策略:基于时间调节、基于 HPA 调节,下文将详细介绍两种调节策略的使用方法。

基于时间调节

如果您的业务负载有显著的时间特征,则可以根据时间进行自动扩缩容策略的配置。
1. 如何开启定时扩缩容
1.1 登录 TI-ONE 控制台,在左侧导航栏中选择模型服务 > 在线服务,进入在线服务列表页面;
1.2 在服务列表中找到需要开启定时扩缩容策略的服务,单击服务名称,进入版本列表页面,单击更新进入服务详细配置更新页面,或者单击扩缩容进入实例调节弹窗;


1.3 服务详细配置中,将“实例调节”字段的选项设置为“自动调节”,调节策略类型选择“基于时间”,即可进行时间调节策略的规则配置;
1.4 您可以根据实际业务负载的时间特征自行配置多条定时策略规则,例如若8:00至20:00为业务高峰时段,20:00至8:00为业务低谷时段,则可以配置如下图的定时策略,每日8:00将实例数扩容至2,每日20:00将实例数缩容为1(默认策略为服务启动后的初始实例数量);


1.5 若您配置了多条定时策略规则,且多条规则之间存在时间冲突,则会以优先级级别较高(即优先级排序靠前)的策略为准;
1.6 完成扩缩容策略的内容配置后,单击更新服务即可进行配置信息保存,待服务完成更新后,您所配置的自动扩缩容策略即会生效。
2. 例外时间配置规则
2.1 若某个定时策略希望在特定的时间不执行,则可以为该定时策略规则配置例外时间,支持添加多个;
2.2 例外时间需通过 Cron 表达式进行配置,Cron 表达式共包含6位,分别代表“秒”“分”“时”“日”“月”“星期”,若特定位的取值为任意值则使用星号(*)即可,若特定位取值需包含连续多个数值则可以使用连字符(-),若特定位取值需包含多个离散数值则可以使用逗号(,);
2.3 例外时间的最小配置粒度是日,因此 Cron 表达式的前三位取值需要使用“*”(前三位配置其他值不会生效),后三位取值可按需配置,第4位“日”的可用值范围为1-31,第5位“月”的可用值范围为1-12或 JAN-DEC,第6位“星期”的可用值范围为0-6或 SUN-SAT;
2.4 例如:每年10月1日至10月7日的 Cron 表达式为“*** 1-7 10 *”。



基于 HPA 调节

如果定时调节不适合于您的业务模式,您也可以选择“基于 HPA” 的自动扩缩容调节策略,在该策略下,服务实例数量可根据您所配置的策略指标与指标阈值,在实例数的最小值与最大值之间自动进行调节。策略指标支持 CPU 使用率、内存使用率、GPU 使用率、单实例 QPS、最大并发数使用率 等。 其中策略指标需要配置“最大并发数使用率”时,请先在请求限流处配置“单实例最大并发数”。




流量分配

为了满足灰度验证或者A/B测试类的服务使用诉求,平台支持用户为单个服务添加多个版本,并进行流量分配。
1. 登录 TI-ONE 控制台,在左侧导航栏中选择模型服务 > 在线服务,进入在线服务列表页面。
2. 找到需要测试的服务,单击服务的新增版本操作,打开服务版本创建页,按需配置当前服务版本的容器信息及实例调节信息。


3. 单击启动服务,若为后付费模式则需进行费用冻结确认,即可完成新版本创建。
4. 创建新的服务版本后,系统将为您创建网关后端并调度计算资源,需要等待一段时间,待服务版本成功完成部署时,状态将变为运行中
5. 此时可单击服务版本列表上方的流量分配操作,进行多版本流量比例的设置。



服务监控

为了满足服务运行情况追踪的诉求,平台提供服务数据监控、调用数据监控、事件与日志查看能力。
1. 在线服务列表页面,单击服务名称进入版本列表页后,单击服务调用>调用监控,可查看服务调用情况的统计信息,包括接收请求数、成功请求数、失败请求数、被限制请求数、平均响应时间。


2. 在线服务监控页面,可跳转到腾讯云可观测平台告警管理里,为服务添加告警策略。


3. 在线服务列表页面,单击服务名称进入版本列表页后,单击服务版本名称进入版本详情页面,可查看服务监控(实例数量、运行中实例数量、CPU使用率、MEM使用率、GPU使用率、显存使用率、网络流量、QPS和QPS限流)、事件监控、运行日志。







服务更新

已部署的服务支持更新实例调节信息用于调整扩缩容策略,支持更新实例容器信息用于更新迭代模型,且在多实例的情况下更新服务时,后台会对多实例进行分批滚动更新,不影响生产业务对模型服务的调用。
1. 在线服务列表页面,单击服务名称进入版本列表页后,单击服务版本更新操作进入服务更新页面。支持编辑修改实例容器、实例调节模块的相关信息。


2. 若需进行服务扩缩容操作,可直接单击扩缩容进行快捷实例更新操作,当扩容的实例状态为运行中,流量分配至扩容实例。
3. 若需更新模型信息,可在实例容器模块修改模型文件或运行环境。
4. 配置信息确认无误后,单击启动服务完成服务参数配置的更新操作。
5. 在服务版本列表页单击服务版本名称,进入更新记录模块,可查看当前服务版本历史的更新记录信息。


说明:
当您更新 COS、CFS 里的内容时,可通过以下方式触发服务更新:
重建实例,您可单击名称进入服务管理,再单击服务名称进入实例列表。


更新服务时,填写一个环境变量,内容随意。




帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈