tencent cloud

腾讯云 TI 平台

产品简介
产品概述
产品定价
客户价值
应用场景
购买指南
计费概述
购买方式
续费说明
欠费说明
安全合规
数据安全保护机制
监控、审计与日志
安全合规资质
快速入门
平台使用准备
操作指南
大模型广场
任务式建模
开发机
模型管理
模型评测
在线服务
资源组管理
数据源管理
Tikit
GPU 虚拟化
实践教程
LLM 部署及推理
LLM 训练及评测
内置训练镜像列表
自定义训练镜像规范
Angel 训练加速功能介绍
基于标签实现子用户间资源隔离
相关协议
TI Platform 隐私协议
TI Platform 数据处理和安全协议
开源软件信息
联系我们

模型评测简介

PDF
聚焦模式
字号
最后更新时间: 2026-01-23 16:58:59
「模型评测」提供通过向导式的评测任务提交方式进行 LLM 模型评测。腾讯云 TI 平台支持两种评测方式,分别为人工评测和自动评测。
人工评测:提供待评测模型推理后人工打分的功能,基于人工来评判模型效果;
自动评测:全程无需人工参与,TI 平台将基于内置的开源评测集以及自动指标(如 pass@1、ROUGE、F1 等)或者用户自定义上传的开源评测集以及用户自定义指标,进行自动评测。自动评测也支持在训练过程中对训出的模型效果进行轻量体验,对 checkpoint 模型进行服务部署,用户可在对话框内和大模型进行问答,查看模型效果。
说明:
通常,在进行最佳实践时,人工评测和自动评测可以结合起来。例如,其中一个场景可以是先在模型开发过程中,基于开源数据集(可以扩展至企业内部沉淀的标准化自有数据集)先进行自动评测获得一个较为不错的结果后,在模型发布前的最后阶段,使用人工评测再次进行效果验证,或模型已上线后的随时效果评测。
针对人工评测和自动评测后的模型,支持可视化对比模型效果。可基于多个模型多个指标通过雷达图进行横向对比,为用户提供直观的效果对比展示。





帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈