产品概述
产品定价
客户价值
应用场景
参数名称 | 是否必填 | 参数解释 |
messages | 必填 | 评测对话主体内容,包含 system(系统设定)、role(assistant 或 user),content(内容) |
ref_answer | 选填 | 模型参考答案 |
其他字段 | 选填 | 用户自定义字段 |
{"messages": [{"role": "system","content": "智能助理是一款由xxx自研的大语言模型。xxx是一家中国科技公司,一直致力于进行大模型相关的研究。"},{"role": "user","content": "你好"},{"role": "assistant","content": "你好,有什么可以帮助你"},{"role": "user","content": "1+1等于几"}],"ref_answer": "答案等于2","max_tokens": 4096,"extra_content": "用户自定义,可在裁判模型中引用"}
{"messages": [{"role": "system","content": "ht是一款由xxx自研的大语言模型。xxx是一家中国科技公司,一直致力于进行大模型相关的研究。"},{"role": "user","content": "你好"},{"role": "assistant","content": "你好,有什么可以帮助你"},{"role": "user","content": "1+1等于几"},{"role": "assistant","content": "2"}],"ref_answer": "答案等于2","extra_content": "用户自定义,可在裁判模型中引用"}
{"messages": [{"role": "user","content": "1+1等于几"}],"ref_answer": "答案等于2","extra_content": "用户自定义,可在裁判模型中引用"}
{"system": "You are helpful.", "conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
{"conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
参数名称 | 是否必填 | 参数解释 |
messages | 必填 | 评测对话主体内容,包含 system(系统设定)、role(assistant 或 user),content(内容) |
model_outputs | 必填 | 模型的推理结果 |
ref_answer | 选填 | 模型参考答案 |
其他字段 | 选填 | 用户自定义字段 |
{"messages":[{"role": "user","content": "你好"},{"role": "assistant","content": "你好,有什么可以帮助你"},{"role": "user","content": "16+16等于几"}],"ref_answer": "答案等于32","id": "141234314","max_tokens": 1024,"temperature": 0.7,"top_p": 0.9,"top_k": 50,"model_outputs": // 上方是原有数据集的字段// 本字段用于记录各模型的输出,类型为列表,列表每个对象都包含// model_name: 模型名// responses: 该模型的输出[{"model_name": "llama3","responses":[{"content": "The answer is 32."},{"content": "32 is the answer."},]},{"model_name": "qwen3","responses":[{"content": "The answer is 32.","reasoning_content": "Wait..."},{"content": "The answer is 32.","reasoning_content": "Thinking..."}]}]}
键名(Key) | 类型(Type) | 是否必须 | 描述 |
model_name | String | 是 | 待测模型的唯一标识符,例如 "llama3-8b"。注意: 在整个数据集中,请对同一模型使用完全相同的名称,以便报告能正确汇总该模型的所有表现。 |
responses | Array | 是 | 一个数组,包含该模型的一次或多次推理结果。支持 n > 1 的场景,即对同一个输入提示运行多次推理。 |
键名(Key) | 类型(Type) | 是否必须 | 描述 |
content | String | 是 | 待测模型生成的最终结果,并在裁判模型进行打分引用。 |
reasoning_content | String | 否 | 用于存放待测模型在生成最终 content 之前的“思考过程”、“思维链”(Chain of Thought)或任何中间草稿。提供此内容有助于进行更深入的分析。如果模型没有该部分输出,则可以省略此键。 |
// 第一行: 包含两个模型的推理结果,其中 qwen2 有 reasoning_content{"messages": [{"role": "user", "content": "16+16等于几"}], "ref_answer": "答案等于32", "id": "141234314", "model_outputs": [{"model_name": "llama3", "responses": [{"content": "The answer is 32."}]}, {"model_name": "qwen2", "responses": [{"content": "The answer is 32.", "reasoning_content": "The user is asking a simple math question. 16 + 16 equals 32."}]}]}// 第二行: 包含一个模型的两次不同推理结果 (n=2){"messages": [{"role": "user", "content": "写一句赞美程序员的诗"}], "ref_answer": "代码如诗,逻辑之美,指尖之下,创造世界。", "id": "141234315", "model_outputs": [{"model_name": "llama3", "responses": [{"content": "十行代码,改变世界。"}, {"content": "指尖飞舞,代码如歌。"}]}]}
文档反馈