tencent cloud

腾讯云 TI 平台

产品简介
产品概述
产品定价
客户价值
应用场景
购买指南
计费概述
购买方式
续费说明
欠费说明
安全合规
数据安全保护机制
监控、审计与日志
安全合规资质
快速入门
平台使用准备
操作指南
大模型广场
任务式建模
开发机
模型管理
模型评测
在线服务
资源组管理
数据源管理
Tikit
GPU 虚拟化
实践教程
LLM 部署及推理
LLM 训练及评测
内置训练镜像列表
自定义训练镜像规范
Angel 训练加速功能介绍
基于标签实现子用户间资源隔离
相关协议
TI Platform 隐私协议
TI Platform 数据处理和安全协议
开源软件信息
联系我们
文档腾讯云 TI 平台操作指南模型评测自动评测:指标快捷配置文件规范

自动评测:指标快捷配置文件规范

PDF
聚焦模式
字号
最后更新时间: 2026-01-23 17:02:21
用户在自动评测页面配置指标时,可通过上传文件进行指标的快捷配置。文件中需包含评测集、评测集对应的指标名称、每个指标名称对应的详细配置信息(如裁判模型信息、打分 Prompt、前后处理脚本等)。用户单击快捷配置按钮,上传自定义 YAML 配置文件以及需引用的文件,上传完毕后单击应用按钮,平台将自动根据用户填写的评测集名称对应在 YAML 配置文件中的指标、以及指标的配置信息在页面进行自动填充。


YAML 配置文件结构要求

YAML 文件需明确定义评测集的评测规则,核心字段示例如下:
- data_name: your_dataset_name # 数据集名称,依本字段和在评测集配置页面所填写的名称进行关联
metrics: # 接下来配置的是该数据集所包含的一个或多个指标
# name 指标名
- name: 裁判模型打分
# pipeline 字段用于定义打分过程,本数组每个成员依次对应一个处理节点
pipeline:
# type 为 PREPROCESS 代表本节点是前处理节点
- type: PREPROCESS
# filename 用于指定前处理/后处理依赖的 Python 脚本名
# 本字段填写相应文件相对于压缩包内根目录的相对路径
filename: scripts/preprocessor.py
# file_content 前处理/后处理步骤也可以直接将脚本内容填入本字段
file_content: |-
def preprocess(data, resp, **kwargs) -> bool | int | str | float | None:
pass
# type 为 JUDGE_MODEL 代表本节点是裁判模型打分节点
- type: JUDGE_MODEL
# 通过配置 judge_model 字段来配置裁判模型的信息
judge_model:
name: DeepSeek-R1 # 裁判模型名称
# 裁判模型调用方式:
# 填写 MS 代表使用 TI 平台在线服务
# 填写 URL 代表使用第三方URL
source: MS
# ti_model_service_api 如果使用 TI 平台在线服务则需要填写本字段
ti_model_service_api:
# service_group_id 在线服务ID,例如 ms-45mrs4rv
service_group_id: ms-xxxx
# service_group_name 在线服务名称
service_group_name: "DeepSeek-R1裁判模型"
# service_id 在线服务ID,对应在线服务详情-服务管理中的某个版本的ID,例如 ms-45mrs4rv-1
# 如果不填,则默认填写为 service_group_id 加后缀 -1
service_id: ms-xxxx-1
# url_prefix 在线服务详情-“服务调用”页面所展示的“常规服务调用”地址
url_prefix: http://ms-xxxx-uuuu-sw.gw.ap-region.ti.tencentcs.com/ms-xxxx
# path_suffix 在线服务暴露的调用对话接口的 path
path_suffix: /v1/chat/completions
# auth_token 鉴权 Token,可通过在线服务详情-“服务鉴权”页面查看
auth_token: "aaaaaaaa"
# third_party_api 如果填写URL进行调用,请填写本字段
third_party_api:
# url 调用 URL
url: http://ms-xxxx-uuuu-sw.gw.ap-region.ti.tencentcs.com/ms-xxxx/v1/chat/completions
# authorization_header 鉴权HTTP Header
authorization_header:
# key HTTP Header Key
key: authorization
# value HTTP Header 内容
value: your_token
# generation_params 调用裁判模型的参数
# 请特别注意:因为腾讯云API规范的限制,本字段是一个字符串
# 即,请在本字段后添加 `|-` 以限制字段类型为字符串
# 我们会在后续解析时,将本字段转换为裁判模型请求体中的参数
generation_params: |-
temperature: 0.8
top_p: 0.85
# judge_template_filename 裁判模型打分模板文件
judge_template_filename: template.jinja
# judge_template_content 如果不指定文件,也可以通过本字段指定裁判模型打分模板内容
judge_template_content: |-
你是一个裁判员,请对回答进行打分。最高分为 5 分,最低分为 1 分。
[问题]
{{ data.question }}
[待评测模型的回答]
{{ response.content }}
[参考答案]
{{ data.ref_answer }}
现在请给出你的打分。
# type 为 POSTPROCESS 代表本节点是后处理节点
- type: POSTPROCESS
filename: scripts/postprocessor.py
- data_name: another_dataset_name # 用户可以在一个YAML配置文件中对多个数据集进行配置
metrics:
- name: 裁判模型打分
pipeline:
- type: PREPROCESS
filename: preprocessor-at-root.py
- type: JUDGE_MODEL
filename: judge.yaml # 裁判模型也可以单独通过 YAML 文件配置
- type: POSTPROCESS
filename: postprocessor-at-root.py

文件上传规范

YAML 配置文件中引用的其他文件,可通过前端上传;文件仅支持打包成 ZIP 或单选文件上传。
示例文件下载如下:


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈