Eval Rubric 是什么

一句话定义：Rubric 是一份结构化的"评分标准说明书"，告诉评估者（无论是人还是 LLM-Judge）"什么算好、什么算差、怎么打分"。

它不是"分数"本身，而是分数背后的"判断标准"。没有 Rubric 的评估 = 凭感觉打分 = 不可复现、不可改进。

Rubric 在 AI 产品中的位置

1用户输入

→

2AI 生成输出

→

3Rubric 定义标准

→

4Judge 按标准打分

→

5分数驱动改进

Rubric 是第 3 步——它不做评判，但它决定了评判的标准。

Rubric vs Harness 的关系

Rubric = 评分标准（What to evaluate）：一份文档/prompt，定义维度+等级+示例

Harness = 执行引擎（How to run evaluation）：一套代码/平台，负责加载数据→调用模型→按 Rubric 打分→汇总结果

Rubric 是 Harness 的"灵魂"——Harness 是一台机器，Rubric 决定这台机器用什么标准打分。

Rubric vs 传统评分标准的区别

维度	传统评分标准	AI Eval Rubric
评估者	人（固定数人）	LLM-Judge（可规模化）+ 人校准
可解释性	打分后无需解释	Judge 必须输出 rationale（判断理由）
迭代性	定下后很少改	根据 alignment 指标持续迭代
表达方式	描述性文字	结构化 prompt + 级别定义 + 示例
规模	几十到几百条	可自动评测数万条
校准机制	人与人的标注一致性（IRR）	AI-Human alignment rate

Rubric 的核心组成

1. 评估维度 (Criteria)

你在衡量"哪几个方面"？如：准确性、完整性、语气、安全性。

2. 分数等级 (Scale)

打分的尺度：二元（通过/失败）或 5 级量表（1-5）。

3. 等级定义 (Descriptors)

每个分数具体代表什么？如"5 分 = 完全满足 + 无改进余地"。

4. 锚定示例 (Anchors)

每个等级对应的真实案例，消除理解歧义。

行业参考案例

1. Hamel Husain 方法论（AI Eval 领域最具影响力的实践指南）

核心主张"Start with error analysis, not infrastructure."

二元评估优先：坚持 Pass/Fail，避免 1-5 量表。"Binary evaluations force clearer thinking and more consistent labeling."
领域专家 = 仁慈的独裁者：单人作为质量唯一裁决者，避免多人标注标准漂移
开放编码 → 主轴编码：先观察真实失败，再归纳分类体系
手动审查 100+ 条真实轨迹 → 归纳失败类型 → 仅对顽固问题建自动评估器

来源: hamel.dev/blog/posts/evals-faq/ — Hamel Husain, ML 工程师（25年经验）

2. Galtea 完整评估指南（2026）

核心主张"Criteria don't emerge from rubric design. They emerge from grading."

让单一业务负责人对 30-50 个样本独立判定，避免多人协作的标准漂移
摒弃模糊量表，用二元通过/失败 + 失败批注
四维独立追踪：事实准确性 / 上下文忠实度 / 用户意图相关性 / 安全拒绝
裁判模型 vs 领域专家：皮尔逊相关系数 > 0.7 才算校准达标
"Start with failures you've already seen, not failures you've imagined."

来源: galtea.ai/blog/llm-evaluation-complete-guide

3. Microsoft Copilot Studio Rubric 参考框架

最完整的工业级 Rubric 规范

标准 5 级量表：

分数	标签	定义
5	Exemplary	完全满足预期，专业、精炼、无需改进、可直接使用
4	Strong	满足所有主要要求，有细微改进空间，整体高质量
3	Acceptable	满足最低预期但缺乏深度或精炼，功能上可用
2	Weak	质量、结构或相关性有明显缺陷，需显著改进
1	Needs Improvement	不满足预期，准确性/相关性/语气/完整性有重大问题

11 个通用评估维度：Accuracy / Groundedness / Completeness / Relevance / Consistency / Clarity / Terminology / Citation / Formatting / Context Awareness / Hallucination-free

对齐度计算：alignment = 100% * (1 - |AI - Human| / 4)。目标：80-90%+ 对齐率。

来源: learn.microsoft.com/copilot-studio/guidance/kit-rubrics-reference (2026-03)

4. Anthropic: Agent 评测方法论

核心观点An evaluation ("eval") is a test for an AI system.

明确区分离线评估（部署前）vs 在线评估（生产环境）
Claude 官方推荐的评估类型：binary / scale / categorical 三种
强调 success criteria 先于一切：先定义"好"是什么，再构建评估

来源: anthropic.com/engineering/demystifying-evals-for-ai-agents

5. UX Content Design 评估实践

UX 视角"Content design is key in LLM evaluation – almost all activities are led by or involve content designers."

评估维度分两层：通用底线（安全/语法/事实）+ 项目专属（人称/语调/可读性/文化包容）
设计时降低评审认知负担：避免"是否合适"→ 改为"是否用了第一人称单数"
使用前需双人交叉评审小样本，消除个体偏差并统一打分尺度
设计师核心价值：将 UX 视角转化为可量化指标

来源: uxcontent.com/ai-evaluation-content-design/

从 0 到 1 设计 Eval Rubric 的实践路径

整体流程（6 步）

1观察失败

→

2归纳维度

→

3定义等级

→

4锚定示例

→

5校准测试

→

6迭代优化

Step 1: 观察失败（最重要的一步）

输入：30-100 条真实 AI 输出样本（含好的和差的）

做法：

逐条阅读，对每条标注"通过/失败"
对失败的写一句话理由："语气太冷淡" "忽略了用户情绪" "答非所问"
不要先设计框架再看数据——让数据告诉你维度是什么

产出：一份带标注的样本表 + 失败理由清单

"Criteria don't emerge from rubric design. They emerge from grading." — Galtea

Step 2: 归纳评估维度

输入：Step 1 的失败理由清单

做法：

将失败理由聚类归纳为 3-5 个维度（不要超过 7 个）
区分"底线维度"（必须达标）和"体验维度"（决定好坏程度）
每个维度必须是单一、可独立判断的

产出：维度列表 + 每个维度的一句话定义

情绪评估场景示例：

维度	定义	类型
情绪识别准确性	AI 是否正确识别了用户话语中的情绪倾向	底线
情绪强度判断	AI 判定的强度等级是否与人感知一致	体验
中性判断能力	对无明显情绪的指令性文本，是否正确标记为中性	底线
语境理解	是否能理解特定称谓/口头禅在业务场景中的真实含义	体验
分类一致性	相似表述是否获得一致的分类结果	底线

Step 3: 定义分数等级

选择评分尺度：

尺度	适用场景	优劣
二元（Pass/Fail）	底线判断：对/错、安全/不安全	最清晰、最一致，推荐起步用
3 级	好/可以/差	中庸，适合快速分流
5 级量表	需要细粒度比较（如模型 A vs B）	信息更丰富，但标注一致性下降

每级必须有明确定义（示例）：

5 = 完全正确且体现了对业务语境的深度理解
4 = 正确，但在细微处有改进空间
3 = 基本正确，但存在一处可辨识的偏差
2 = 有明显错误，需要重大修正
1 = 完全错误或方向性偏差

Step 4: 锚定示例

每个分数等级配 2-3 个真实案例（含输入、输出、分数、理由），使标准具体化。

情绪评估场景示例：

输入	期望标注	Judge 输出	分数	理由
"千文宝宝帮我点盒马外卖"	亲昵/撒娇·中等	亲昵/撒娇·中等	5	正确识别"宝宝"暗示亲昵语气
"千问帮我买个高压锅"	中性/平和	悲伤·弱	1	纯指令无情绪，模型强制归类错误
"给老子点个山禾面包"	中性/平和（口头禅）	愤怒·弱	2	"老子"为口头禅非怒气，但模型判为愤怒

Step 5: 校准测试

用 Rubric 让 LLM-Judge 评估 30-50 条样本
同时自己做人工评估（作为 gold standard）
计算 AI-Human alignment rate（目标：≥ 80%）
分析 misalignment 方向：AI 太宽松 or 太严格？
标注 6-10 个 good/bad example 用于下一轮优化

Step 6: 迭代优化（永不停止）

迭代循环：Run → Review → Grade → Refine → Save → Re-run

每次迭代聚焦 misalignment 最集中的维度
补充更多锚定示例（尤其是边界 case）
将生产中发现的新失败模式补入测试集
注意不要过拟合：定期用新样本验证泛化性

设计师 / UXR 在 Rubric 设计中的独特价值

"Content design is key in LLM evaluation – almost all activities are led by or involve content designers." — UX Content Collective

在 AI 产品评测中，设计师不是"旁观者"，而是定义"好"的那个人。算法工程师只能确保模型跑得通，而"什么算好的体验"只有设计师/UXR 能定义。

设计师能做什么（4 层价值）

层级	角色	具体工作
L1 定义标准	Rubric 设计者	定义评估维度、等级描述、锚定示例
L2 校准裁判	质量锚点	做人工评估 gold standard，校准 LLM-Judge 对齐率
L3 洞察挖掘	模式发现者	从评估结果中发现系统性问题，输出改进建议
L4 体验翻译	用户代言人	将用户的主观感受转译为可量化指标

设计师的独特优势

用户同理心

能从用户视角判断"这个回答让人舒服吗"，而不仅仅是"准确吗"。这在情绪类评估中是核心。

体验标准的隐性知识

知道"好的对话体验"应该是什么样的——这类知识无法从数据中直接学到，只有做过大量用研的人有。

模糊边界的决策能力

"给老子点个面包"是愤怒还是随意？这类判断需要对用户群体的深度理解。

可操作的改进方向

不仅发现问题，还能给出"应该改成什么样"——连接评测结果与产品改进。

所需能力清单

能力	说明	优先级
结构化思维	将模糊的"体验好不好"拆解为可独立判断的维度	必须
标注/编码经验	开放编码 → 主轴编码的质性研究方法	必须
业务语境理解	理解你的用户群体说话方式和真实意图	必须
Prompt 工程	将 Rubric 转化为 LLM-Judge 可执行的 prompt	重要
数据分析（基础）	计算对齐率、分析 misalignment 分布	重要
迭代思维	Rubric 不是一次设计好的，要持续根据数据优化	加分

Applied AI Designer：Rubric 是核心交付物

在 Cursor / Notion / Vercel 等 AI-native 公司，Applied AI Designer 这个角色的核心工作之一就是设计和维护 Eval Rubric。

你的情绪评估 v3 体系（8类 + 5级强度）本身就是一份 Rubric 的雏形——只需要为每类情绪的每个强度等级补上明确的文字定义和锚定示例，它就是一份完整的 Eval Rubric。

好的 Rubric 长什么样 / 常见陷阱

好 Rubric 的 7 条标准

#	标准	检验方法
1	单一性：每个维度只测一件事	"情感表达质量"应拆为"情绪识别"+"强度判断"+"语气适配"
2	可判断性：不同人看到同一条会打同样的分	找 2 个人独立打 20 条，一致率 ≥ 80%
3	区分度：好的和差的能被分开	所有样本不应集中在 3-4 分，应有 1 和 5 的样本
4	锚定性：有真实案例支撑每个等级	每个分数至少 2 个锚定示例
5	可迭代性：发现新问题能被快速补入	生产中的新失败模式 72h 内能加入评测集
6	对齐性：LLM-Judge 和人打分高度一致	AI-Human alignment ≥ 80%（Microsoft 标准）
7	业务相关：衡量的是用户真正关心的东西	能反推出具体产品改进方向

常见陷阱（避坑清单）

陷阱 1：先设计框架再看数据

应该先看 50 条真实输出的好坏，让失败模式自己浮现，而不是在白板上空想维度。

陷阱 2：维度过多（>7 个）

维度越多，标注一致性越差，Judge 也越难精确打分。3-5 个最佳。

陷阱 3：等级描述模糊

"3 分 = 还行" 是废话。必须写明"3 分 = 基本正确但存在一处可辨识的偏差"。

陷阱 4：多人标注无校准

多人标注前必须做校准会议 + 试标注。否则每个人标准不同，数据质量灾难。

陷阱 5：追求 100% 通过率

如果所有样本都通过，说明标准太低或测试集太简单。好的 eval 应该能暴露问题。

陷阱 6：不迭代

Rubric 不是设计一次就完的文档，而是活的。生产中每次发现新 failure mode 都要补入。

快速自检清单

□ 每个维度能独立判断？（不互相依赖）
□ 每个等级有 ≥2 个锚定示例？
□ 2 个人独立打分一致率 ≥ 80%？
□ LLM-Judge 和人的 alignment ≥ 80%？
□ 好样本和差样本都有覆盖？
□ 能从评估结果直接推导出改进方向？
□ 包含了"中性/不适用"选项（避免强制归类）？

信息源汇总

#	来源	核心价值	链接	质量
1	Hamel Husain · LLM Evals FAQ	从零建 eval 系统的实战方法论	hamel.dev	A
2	Microsoft Copilot Studio · Rubrics Reference	最完整的工业级 Rubric 规范	microsoft.com	A
3	Galtea · LLM Evaluation Complete Guide	"标准从打分中涌现"方法论	galtea.ai	A
4	Anthropic · Demystifying Evals for AI Agents	Agent 评测分类体系	anthropic.com	A
5	UX Content Collective · AI Evaluation for Content Designers	设计师在 AI 评估中的角色定义	uxcontent.com	B+
6	Braintrust · How to Eval	实战 eval 平台的设计理念	braintrust.dev	B+
7	arXiv · Learning to Judge: LLMs Designing Evaluation Rubrics	BSM 框架，LLM 自动生成 Rubric	arxiv.org	B+
8	Anthropic · A Statistical Approach to Model Evals	评估的统计学方法论	anthropic.com	B+

延伸方向

1. 将 v3 体系升级为完整 Rubric

为每个类别的每个强度等级补上明确的文字定义和 2-3 个锚定示例。

2. 建立 AI-Human 对齐率监控

定期抽样 30-50 条做人工复核，计算一致率，持续校准 prompt。

3. 将 Rubric 作为设计师影响力载体

输出"AI 情感表达质量评估标准 v1.0"文档，跨团队共识工具。

Eval Rubric 设计调研报告