面向体验设计师的 AI 评测标准设计方法论 | 2026-06-08
一句话定义:Rubric 是一份结构化的"评分标准说明书",告诉评估者(无论是人还是 LLM-Judge)"什么算好、什么算差、怎么打分"。
它不是"分数"本身,而是分数背后的"判断标准"。没有 Rubric 的评估 = 凭感觉打分 = 不可复现、不可改进。
Rubric 是第 3 步——它不做评判,但它决定了评判的标准。
Rubric = 评分标准(What to evaluate):一份文档/prompt,定义维度+等级+示例
Harness = 执行引擎(How to run evaluation):一套代码/平台,负责加载数据→调用模型→按 Rubric 打分→汇总结果
Rubric 是 Harness 的"灵魂"——Harness 是一台机器,Rubric 决定这台机器用什么标准打分。
| 维度 | 传统评分标准 | AI Eval Rubric |
|---|---|---|
| 评估者 | 人(固定数人) | LLM-Judge(可规模化)+ 人校准 |
| 可解释性 | 打分后无需解释 | Judge 必须输出 rationale(判断理由) |
| 迭代性 | 定下后很少改 | 根据 alignment 指标持续迭代 |
| 表达方式 | 描述性文字 | 结构化 prompt + 级别定义 + 示例 |
| 规模 | 几十到几百条 | 可自动评测数万条 |
| 校准机制 | 人与人的标注一致性(IRR) | AI-Human alignment rate |
你在衡量"哪几个方面"?如:准确性、完整性、语气、安全性。
打分的尺度:二元(通过/失败)或 5 级量表(1-5)。
每个分数具体代表什么?如"5 分 = 完全满足 + 无改进余地"。
每个等级对应的真实案例,消除理解歧义。
核心主张"Start with error analysis, not infrastructure."
核心主张"Criteria don't emerge from rubric design. They emerge from grading."
最完整的工业级 Rubric 规范
标准 5 级量表:
| 分数 | 标签 | 定义 |
|---|---|---|
| 5 | Exemplary | 完全满足预期,专业、精炼、无需改进、可直接使用 |
| 4 | Strong | 满足所有主要要求,有细微改进空间,整体高质量 |
| 3 | Acceptable | 满足最低预期但缺乏深度或精炼,功能上可用 |
| 2 | Weak | 质量、结构或相关性有明显缺陷,需显著改进 |
| 1 | Needs Improvement | 不满足预期,准确性/相关性/语气/完整性有重大问题 |
11 个通用评估维度:Accuracy / Groundedness / Completeness / Relevance / Consistency / Clarity / Terminology / Citation / Formatting / Context Awareness / Hallucination-free
对齐度计算:alignment = 100% * (1 - |AI - Human| / 4)。目标:80-90%+ 对齐率。
核心观点An evaluation ("eval") is a test for an AI system.
UX 视角"Content design is key in LLM evaluation – almost all activities are led by or involve content designers."
输入:30-100 条真实 AI 输出样本(含好的和差的)
做法:
产出:一份带标注的样本表 + 失败理由清单
输入:Step 1 的失败理由清单
做法:
产出:维度列表 + 每个维度的一句话定义
情绪评估场景示例:
| 维度 | 定义 | 类型 |
|---|---|---|
| 情绪识别准确性 | AI 是否正确识别了用户话语中的情绪倾向 | 底线 |
| 情绪强度判断 | AI 判定的强度等级是否与人感知一致 | 体验 |
| 中性判断能力 | 对无明显情绪的指令性文本,是否正确标记为中性 | 底线 |
| 语境理解 | 是否能理解特定称谓/口头禅在业务场景中的真实含义 | 体验 |
| 分类一致性 | 相似表述是否获得一致的分类结果 | 底线 |
选择评分尺度:
| 尺度 | 适用场景 | 优劣 |
|---|---|---|
| 二元(Pass/Fail) | 底线判断:对/错、安全/不安全 | 最清晰、最一致,推荐起步用 |
| 3 级 | 好/可以/差 | 中庸,适合快速分流 |
| 5 级量表 | 需要细粒度比较(如模型 A vs B) | 信息更丰富,但标注一致性下降 |
每级必须有明确定义(示例):
每个分数等级配 2-3 个真实案例(含输入、输出、分数、理由),使标准具体化。
情绪评估场景示例:
| 输入 | 期望标注 | Judge 输出 | 分数 | 理由 |
|---|---|---|---|---|
| "千文宝宝帮我点盒马外卖" | 亲昵/撒娇·中等 | 亲昵/撒娇·中等 | 5 | 正确识别"宝宝"暗示亲昵语气 |
| "千问帮我买个高压锅" | 中性/平和 | 悲伤·弱 | 1 | 纯指令无情绪,模型强制归类错误 |
| "给老子点个山禾面包" | 中性/平和(口头禅) | 愤怒·弱 | 2 | "老子"为口头禅非怒气,但模型判为愤怒 |
迭代循环:Run → Review → Grade → Refine → Save → Re-run
在 AI 产品评测中,设计师不是"旁观者",而是定义"好"的那个人。算法工程师只能确保模型跑得通,而"什么算好的体验"只有设计师/UXR 能定义。
| 层级 | 角色 | 具体工作 |
|---|---|---|
| L1 定义标准 | Rubric 设计者 | 定义评估维度、等级描述、锚定示例 |
| L2 校准裁判 | 质量锚点 | 做人工评估 gold standard,校准 LLM-Judge 对齐率 |
| L3 洞察挖掘 | 模式发现者 | 从评估结果中发现系统性问题,输出改进建议 |
| L4 体验翻译 | 用户代言人 | 将用户的主观感受转译为可量化指标 |
能从用户视角判断"这个回答让人舒服吗",而不仅仅是"准确吗"。这在情绪类评估中是核心。
知道"好的对话体验"应该是什么样的——这类知识无法从数据中直接学到,只有做过大量用研的人有。
"给老子点个面包"是愤怒还是随意?这类判断需要对用户群体的深度理解。
不仅发现问题,还能给出"应该改成什么样"——连接评测结果与产品改进。
| 能力 | 说明 | 优先级 |
|---|---|---|
| 结构化思维 | 将模糊的"体验好不好"拆解为可独立判断的维度 | 必须 |
| 标注/编码经验 | 开放编码 → 主轴编码的质性研究方法 | 必须 |
| 业务语境理解 | 理解你的用户群体说话方式和真实意图 | 必须 |
| Prompt 工程 | 将 Rubric 转化为 LLM-Judge 可执行的 prompt | 重要 |
| 数据分析(基础) | 计算对齐率、分析 misalignment 分布 | 重要 |
| 迭代思维 | Rubric 不是一次设计好的,要持续根据数据优化 | 加分 |
在 Cursor / Notion / Vercel 等 AI-native 公司,Applied AI Designer 这个角色的核心工作之一就是设计和维护 Eval Rubric。
你的情绪评估 v3 体系(8类 + 5级强度)本身就是一份 Rubric 的雏形——只需要为每类情绪的每个强度等级补上明确的文字定义和锚定示例,它就是一份完整的 Eval Rubric。
| # | 标准 | 检验方法 |
|---|---|---|
| 1 | 单一性:每个维度只测一件事 | "情感表达质量"应拆为"情绪识别"+"强度判断"+"语气适配" |
| 2 | 可判断性:不同人看到同一条会打同样的分 | 找 2 个人独立打 20 条,一致率 ≥ 80% |
| 3 | 区分度:好的和差的能被分开 | 所有样本不应集中在 3-4 分,应有 1 和 5 的样本 |
| 4 | 锚定性:有真实案例支撑每个等级 | 每个分数至少 2 个锚定示例 |
| 5 | 可迭代性:发现新问题能被快速补入 | 生产中的新失败模式 72h 内能加入评测集 |
| 6 | 对齐性:LLM-Judge 和人打分高度一致 | AI-Human alignment ≥ 80%(Microsoft 标准) |
| 7 | 业务相关:衡量的是用户真正关心的东西 | 能反推出具体产品改进方向 |
应该先看 50 条真实输出的好坏,让失败模式自己浮现,而不是在白板上空想维度。
维度越多,标注一致性越差,Judge 也越难精确打分。3-5 个最佳。
"3 分 = 还行" 是废话。必须写明"3 分 = 基本正确但存在一处可辨识的偏差"。
多人标注前必须做校准会议 + 试标注。否则每个人标准不同,数据质量灾难。
如果所有样本都通过,说明标准太低或测试集太简单。好的 eval 应该能暴露问题。
Rubric 不是设计一次就完的文档,而是活的。生产中每次发现新 failure mode 都要补入。
| # | 来源 | 核心价值 | 链接 | 质量 |
|---|---|---|---|---|
| 1 | Hamel Husain · LLM Evals FAQ | 从零建 eval 系统的实战方法论 | hamel.dev | A |
| 2 | Microsoft Copilot Studio · Rubrics Reference | 最完整的工业级 Rubric 规范 | microsoft.com | A |
| 3 | Galtea · LLM Evaluation Complete Guide | "标准从打分中涌现"方法论 | galtea.ai | A |
| 4 | Anthropic · Demystifying Evals for AI Agents | Agent 评测分类体系 | anthropic.com | A |
| 5 | UX Content Collective · AI Evaluation for Content Designers | 设计师在 AI 评估中的角色定义 | uxcontent.com | B+ |
| 6 | Braintrust · How to Eval | 实战 eval 平台的设计理念 | braintrust.dev | B+ |
| 7 | arXiv · Learning to Judge: LLMs Designing Evaluation Rubrics | BSM 框架,LLM 自动生成 Rubric | arxiv.org | B+ |
| 8 | Anthropic · A Statistical Approach to Model Evals | 评估的统计学方法论 | anthropic.com | B+ |
为每个类别的每个强度等级补上明确的文字定义和 2-3 个锚定示例。
定期抽样 30-50 条做人工复核,计算一致率,持续校准 prompt。
输出"AI 情感表达质量评估标准 v1.0"文档,跨团队共识工具。