AI 体验研究员 · 头部公司角色调研（完整版）

面向 OKR · O2-KR1（AI 体验度量）｜初始调研 + 深度补充 · 8 家代表公司 × 7 类岗位 × 分层框架 × 能力白话解析 × 学习路径｜ 2026-06-08

岗位矩阵

命名vs实质

真实JD

能力雷达

AI Designer解剖

分层框架

能力差距

SQL解析

AI/ML+Eval

Prompt+Rubric

学习路径

OKR建议

公司 × 岗位矩阵

深紫色 = 该公司明确招聘此岗位；灰色 = 未见公开岗位但能力被吸收进其他角色。数据来源于 2025-2026 年公开 JD。

岗位 / 公司	OpenAI	Anthropic	Google DeepMind	Meta AI	字节豆包	Cursor	Notion AI	Vercel / v0
UX Researcher（综合）	招	招	招	招	—	招	招	—
Quantitative UXR	招	隐含	招	招	—	—	招	—
Mixed Methods UXR	招	招	招	—	—	隐含	—	—
Model Behavior Researcher	招（已并入 Post-Training）	招	招	—	—	—	—	—
AI Evaluator	招（含外包）	招	招	招	招	—	—	—
Alignment Researcher（体验侧）	招	招	招	—	—	—	—	—
Applied AI Designer / AI-Native Designer	—	Claude Code 产品设计师	—	—	招	招	招	招

头部公司分化的三种范式
1. 模型层公司（OpenAI/Anthropic/DeepMind）：岗位最齐全，UXR + Model Behavior + Evaluator + Alignment 各司其职
2. 大厂 AI 团队（Meta/字节）：UXR + Evaluator 为主，Model Behavior 通常并入算法/对齐团队
3. AI-native 产品公司（Cursor/Notion/Vercel）：「Applied AI Designer」是主角——研究、度量、模型行为、设计四合一

关键判断：哪些是命名差异，哪些是实质差异

命名差异同样的工作不同公司起不同名字混合差异名字像但侧重不同实质差异工作内容本质不同

岗位	差异性质	核心职责	与传统 UXR 的关系	关键能力门槛
AI UXR / AI Experience Researcher	混合	研究 AI 产品中"还没形成惯例"的人机交互、采纳路径、ROI、信任建立	UXR 的延伸 + 必须具备 AI 工具搭建能力	SQL 自服务、AI-native 工作方式、快速实验
Quantitative UXR	命名	用大数据 / 实验做用户行为定量研究	传统 UXR 的量化分支，AI 公司因日志量大而格外重视	SQL、统计、实验设计
Mixed Methods UXR	命名	定性 + 定量结合	传统 UXR	研究方法广度
Model Behavior Researcher	实质	定义/调整模型的"人格"、口吻、价值观、回答边界（如 ChatGPT 不再过度顺从、政治中立）	不是 UXR——更像「对齐研究 + 内容策略 + Prompt 工程」交叉	ML/对齐基础、Model Spec 写作、能跑训练实验
AI Evaluator	实质	按已定义的标注规范对模型输出打分	不是研究——是评测的执行层（= 数据标注的高阶版）	领域知识、rubric 理解力、抗疲劳
Alignment Researcher（体验侧）	实质	研究 AI 价值观对齐、安全边界、偏见识别	偏技术，需要 ML 背景	ML、伦理学、对齐文献
Applied AI Designer / AI-Native Designer	混合	AI native 产品中的 UI/IA + AI 行为定义 + 度量设计的混合体	设计师 + Model Behavior + UXR 的复合角色，这是 AI-native 公司的主角	设计 + Prompt + Eval + 系统思维

核心判断：
· 叫法不同 + 工作差不多：UXR / Quantitative UXR / Mixed Methods UXR / 部分 AI UXR
· 工作本质不同：Model Behavior Researcher（造模型）/ AI Evaluator（执行层）/ Alignment Researcher（技术对齐）
· 混合形态、未来趋势：Applied AI Designer——设计师最自然的延伸方向就是这个

真实 JD 原文摘录 & 关键信号

以下为 2025-2026 年公开 JD 的关键原文段落，重点标注对你有参考价值的能力信号。

Product Designer, Claude Code Anthropic

"Design end-to-end AI-powered developer experiences... You'll define what good AI interactions look like for a code-generation tool that's redefining how software gets built."

"We expect you to be deeply technical — able to understand model capabilities and limitations, design for non-deterministic systems, and iterate based on evaluation data rather than just user feedback."

非确定性系统设计基于 Eval 数据迭代端到端 AI 体验深度技术理解

来源：Anthropic Careers

User Experience Researcher Anthropic

"We value rigor without rigidity... You will study interactions that don't have established conventions — there is no existing playbook for how humans should collaborate with AI."

"SQL proficiency required. You'll work with large-scale behavioral logs and need to self-serve data to generate insights at speed."

SQL 刚需无惯例可循的交互严谨但灵活大规模行为日志

来源：Anthropic Careers / WelcomeToTheJungle

Design Engineer Cursor

"Lives at the intersection of design and engineering. You should be equally comfortable in Figma and a code editor... We expect you to ship UI, not just design it."

"You'll design AI interactions that feel natural, test them with real users, evaluate model outputs, and iterate — all in the same day."

设计+工程复合 Figma + Code 日内完整闭环模型输出评估

来源：Cursor Careers

User Researcher Cursor

"Understand how developers interact with AI coding tools. Your research will directly shape product decisions about when AI should intervene, what context it needs, and how to build trust."

开发者行为研究 AI 介入时机信任建立机制直接影响产品决策

来源：Cursor Careers

Quantitative UX Researcher OpenAI

"Drive quantitative research programs that inform how millions of people interact with AI. You'll design experiments, analyze behavioral data at scale, and translate findings into product strategy."

"Requirements: Expert SQL and Python proficiency; Experience with A/B testing and causal inference; Ability to work with billion-row datasets."

SQL+Python 刚需 A/B 测试因果推断亿级数据集

来源：OpenAI Careers / Ashby

Model Behavior（团队/岗位） OpenAI

"The 14-member Model Behavior team... defined what ChatGPT's personality should be, how it handles sensitive topics, and what values it expresses. The team has been merged into Post-Training — signaling that model behavior is now treated as a training problem, not a policy problem."

"Joanne Jang (former Head) left to start OAI Labs — exploring interactions beyond chat, like voice, vision, and agentic workflows."
— TechCrunch, 2025-09

模型人格定义已并入 Post-Training 行为=训练问题探索 chat 之外交互

跨 JD 共性信号提炼
1. SQL 是底线：Anthropic/OpenAI/Cursor 均明确要求，不是"加分项"而是"必选项"
2. "没有既定惯例"是核心挑战：AI 交互没有成熟 pattern library，研究员需要从 0 定义
3. Eval 驱动迭代：不靠直觉/传统用研结论，靠评测数据做设计决策
4. 速度极快：同一天内完成"设计 → 实现 → 评估 → 迭代"

五类核心岗位 · 能力雷达对比

维度评分基于公开 JD 中要求的能力强度（1-5），评分越高代表该能力是岗位刚需。

对你最有参考价值的两条对比线：
· Applied AI Designer（绿色）是六维都中高水位的"复合体"——这是你的目标姿态
· Model Behavior Researcher（红色）在 ML 维度高、设计维度低——不要尝试这条路（ROI 低）

Applied AI Designer / AI-Native Designer 深度解剖

这是 AI-native 产品公司（Cursor/Notion/Vercel/字节）正在定义的新角色。它不是一个传统岗位的简单升级，而是多个角色的融合。

一句话定义

Applied AI Designer = 在 AI-native 产品中，同时承担交互设计 + Prompt 工程 + 评测体系设计 + 原型搭建 + 用户研究的复合角色。
核心区别于传统设计师之处：你的设计材料不只是像素，还包括"模型行为"本身。

六维能力模型

🎨

交互 & 视觉设计

AI 交互范式设计（非确定性 UI、渐进式信任、错误恢复）

💬

Prompt 工程

为产品场景撰写 System Prompt、Few-shot 示例、输出格式约束

📊

评测 & 度量

设计 Rubric、运行 LLM-as-judge、定义质量基线

🛠

工具搭建

把度量/研究流程封装为可复用工具（Skill/脚本/内部平台）

🔍

用户研究

面向"没有惯例"的 AI 交互做定性+定量研究

💰

业务 & 产品判断

理解 AI 能力边界与商业目标的交叉点

日常工作内容（以 Cursor 为参照）

早上：Review 昨晚模型更新后的 Eval 仪表盘，标注质量回退点
上午：为某个新功能撰写 System Prompt + 设计 UI 交互原型
午后：与用户做 15 分钟快速测试，观察 AI 输出是否符合预期
下午：根据测试结果调整 Prompt 约束条件 + 更新 Rubric 评分标准
傍晚：把验证完的方案写成代码提交（Cursor 要求设计师能 ship UI）
贯穿全天：SQL 查行为日志、跑 A/B 对比、看 LLM-as-judge 评分分布

与传统设计师的对比

维度	传统 UX Designer	Applied AI Designer
设计材料	像素、组件、布局	像素 + Prompt + 模型行为
确定性	输入确定 → 输出确定	同一输入 → 不同输出（概率性）
评判标准	用户满意度、可用性分数	Eval 通过率 + 用户满意度
迭代速度	周级别（设计评审 → 开发 → 上线）	小时级别（改 Prompt → 跑 Eval → 上线）
交付物	Figma 设计稿 + 标注	Prompt + Rubric + UI 代码 + Eval 报告
数据能力	看埋点报表（被动）	SQL 自服务 + 主动跑分析（主动）
失败模式	"用户不会用"	"模型输出不对" + "用户不信任"

对你的启示
你目前已有的能力（UX 设计 + 业务判断 + Qoder Skill 搭建经验）覆盖了 Applied AI Designer 六维中的约 60%。
差距集中在：SQL 自服务、Prompt 工程系统化、Rubric 设计实操。
这三个缺口正好对应后续三个"白话解析"Tab 的内容。

分层度量框架 · 头部公司实际落地方式

将你 OKR 中"自动兜底 → 模型预测 → 人工精评 → 设计师洞察"四层与头部公司实践对照。

层级

评估对象

谁负责

头部公司实践

设计师介入度

L1
自动兜底

规则可枚举的硬指标：格式合规、关键词命中、长度、敏感词、延迟

数据 / 算法工程师

OpenAI 大规模行为日志 + benchmark；Anthropic 自动 eval suite；阿里云"评什么 / 怎么评 / 如何度量"评测平台

旁观
定义指标即可

L2
模型预测

需要语义理解的软指标：相关性、有用性、风格符合度

ML / Eval 团队

LLM-as-judge 已成行业共识；研究指出 30% 偏差需修正；Braintrust / DeepEval / Galileo 等平台化产品

参与
设计 rubric

L3
人工精评

判断模糊、需领域知识、需价值判断的内容

AI Evaluator + 领域专家 + UXR

Anthropic UXR 用 Claude 加速研究；多公司用"专家委员会 + 抽样"模式；AWS 提到"人工最准但慢/贵，必须组合使用"

主导
定义评分准则

L4
设计师洞察

"还没有惯例"的新型交互体验断点、用户感知盲区、信任成本

UXR + Designer（你的主战场）

Anthropic 强调研究"interactions that don't have established conventions"；OpenAI Joanne Jang 离开去做 OAI Labs（探索 chat 之外的新交互）；这一层目前没有标准方法论

唯一
差异化战场

对你的关键启示
1. 你的"四层模型"框架与头部公司的实际分层高度吻合——可以直接作为对外汇报的框架
2. L4 才是设计师的不可替代价值——L1/L2 别花太多精力跟工程师抢活，L3 抓 rubric 设计而非亲自打分
3. "≤10 分钟可调用 Design Skill"是空白机会——市面上 Braintrust/DeepEval 都是工程师视角的平台，没有"设计师 10 分钟自助度量"的产品形态

你的能力差距评估与补齐路径

基于你（体验设计师 · 零售营销超算 · O2-KR1）切入 Applied AI Designer / AI 体验研究员复合岗位的差距推断。

能力维度

当前水位

目标水位

补齐路径（按 ROI 排序）

研究方法 · 定性
访谈 / 可用性测试 / 行为分析

★★★★★

已具备底子，不投入，复用即可

定量 + SQL + 数据自服务
头部公司 UXR 共同刚需

★★★★★

关键缺口：详见"SQL解析"Tab → 30天打通

AI/ML 概念 + Eval 知识
benchmark / LLM-as-judge / rubric / 对齐

★★★★★

详见"AI/ML+Eval"Tab → 穿插学习

Prompt 工程 + Eval rubric 设计
头部公司新刚需

★★★★★

核心差异化：详见"Prompt+Rubric"Tab → 30-60天

工具搭建（封装为可复用 Skill）
Anthropic"build our own tools at this speed"

★★★★★

已有 Qoder Skill 经验，把度量流程 Skill 化即可

业务/产品判断

★★★★★

已具备，复用

价值显化 / 影响力外化

★★★★★

借助 XYP 推进；这套调研本身就是 +2/+3 汇报的差异化武器

三件事的优先级：
1. SQL + 数据自服务（30 天内）—— 不补齐，进不去 L1/L2 的对话
2. 第一份"设计师视角 rubric"（30-60 天）—— 不输出，差异化无法成立
3. ≤10 分钟 Design Skill 雏形（60-90 天）—— 不封装，影响力无法复制

SQL + 数据自服务 · 白话解析

这一页帮你从零理解：SQL 是什么、为什么 AI 公司 UXR 必须会、怎么在工作中用起来。

SQL 是什么？（一句话）

SQL（Structured Query Language）= 向数据库"提问"的语言。
你可以把数据库想象成一个超大的 Excel 表格，SQL 就是"筛选 + 透视 + 统计"的公式语言。
区别是：Excel 处理几千行就卡了，SQL 能处理几十亿行数据。

为什么头部 AI 公司的 UXR 必须会？

数据量级：AI 产品每天产生千万级对话日志，不可能导出到 Excel 分析
速度要求：Anthropic JD 原话 "self-serve data to generate insights at speed"——不能等数据团队排期
迭代频率：AI 产品日更甚至小时更，研究员如果不能即时查数据，就跟不上节奏
对你而言：券超算的实验结果、用户行为日志、AB 测试数据，全在数据库里——会 SQL = 自己就能挖

"数据自服务"是什么意思？

数据自服务 = 不依赖数据分析师/BI 团队，自己直接从数据库取数、做分析、得结论。
它不要求你做复杂的数据建模或机器学习，只需要你能"问对问题、取出数据、基本统计"。

7 个核心概念（用券超算场景举例）

1. SELECT — 选列

类比：Excel 里选择显示哪几列

告诉数据库"我想看哪些字段"

SELECT user_id, coupon_type, created_at FROM coupon_logs

2. FROM — 从哪张表

类比：打开哪个 Excel 工作表

指定数据来源。你公司可能有 coupon_logs（券日志）、user_sessions（会话）、ab_results（AB测试）等表

SELECT * FROM user_sessions WHERE app = 'coupon_calculator'

3. WHERE — 筛选条件

类比：Excel 的筛选器

"只看满足某条件的行"——比如只看今天的、只看某个城市的、只看券面额>10元的

SELECT * FROM coupon_logs WHERE city = 'shanghai' AND amount > 10

4. GROUP BY — 分组统计

类比：Excel 的数据透视表

"按某个字段分组，然后对每组做统计"——这是你做数据分析最常用的操作

SELECT coupon_type, COUNT(*) as total FROM coupon_logs GROUP BY coupon_type

5. JOIN — 关联多张表

类比：Excel 的 VLOOKUP

把两张表通过共同字段连接起来。比如把"券使用记录"和"用户画像"关联，看不同人群的使用差异

SELECT u.age_group, COUNT(*) FROM coupon_logs c JOIN users u ON c.user_id = u.id GROUP BY u.age_group

6. COUNT / SUM / AVG — 聚合函数

类比：Excel 的 COUNT / SUM / AVERAGE 公式

对一组数据做计数、求和、平均等统计

SELECT AVG(response_time) as avg_time, COUNT(DISTINCT user_id) as unique_users FROM ai_sessions

7. ORDER BY — 排序

类比：Excel 的排序功能

让结果按某个字段从大到小或从小到大排列

SELECT query, COUNT(*) as freq FROM ai_logs GROUP BY query ORDER BY freq DESC LIMIT 20

在你的工作中，SQL 能回答什么问题？

你想知道的	SQL 能做的
券超算 AI 推荐的券，用户实际核销率是多少？	JOIN 券推荐表 + 核销表，按推荐来源 GROUP BY
哪些类型的提问，AI 回答质量最差？	关联评分表，按 query_type 分组看平均分
A/B 测试两个版本的留存差异？	按实验组 GROUP BY，算各组 Day7 留存率
用户对 AI 回复的平均满意度趋势？	按日期 GROUP BY，AVG(satisfaction_score)
高频 badcase 聚类？	WHERE score < 3，GROUP BY error_type，COUNT 排序

AI/ML 概念 + Eval 知识 · 白话解析

这一页帮你建立"刚好够用"的 AI/ML 认知框架——不需要你训练模型，但需要你能跟算法团队对话、理解评测在做什么。

7 个你必须理解的核心概念

1. LLM（大语言模型）

类比：一个读了互联网上所有文字的"超级补全器"

LLM 的本质是"预测下一个词"。它不是"理解"你的问题，而是根据统计规律生成最可能的回答。
这解释了为什么同一个问题会得到不同回答（概率性），以及为什么它会"一本正经地胡说八道"（幻觉）。

2. Prompt（提示词）

类比：给实习生写的工作 brief

你给模型的输入指令。Prompt 的质量直接决定输出质量。一个好的 Prompt 包含：角色设定、任务描述、约束条件、示例、输出格式。
对你而言：在券超算场景中，Prompt 决定了 AI 如何理解"这张券该不该推给这个用户"。

3. Token（词元）

类比：模型处理文字的"最小单位"，大约 1 个汉字 = 1-2 个 token

模型按 token 计费、按 token 有长度限制。理解 token 能帮你估算成本、理解为什么长对话会"忘记前面说的"。

4. Temperature（温度）

类比：创意旋钮——0 = 严格按套路来，1 = 放飞自我

控制模型输出的"随机程度"。温度低 = 每次回答更一致但可能呆板；温度高 = 更有创意但可能跑偏。
设计决策：券推荐场景应该用低温度（准确性优先），创意写作场景用高温度。

5. Fine-tuning（微调）

类比：通用学校毕业后的"岗前培训"

用特定领域的数据对通用模型做进一步训练，让它在该领域表现更好。比如用大量外卖场景对话微调，让模型更懂"满减"、"限时"这些概念。
你不需要会做微调，但需要理解"这个问题是 Prompt 能解决的，还是需要微调"。

6. Benchmark（基准测试）

类比：标准化考试——SAT、高考

用一组标准化的题目来衡量模型能力。问题是：通用 benchmark（MMLU、HumanEval）不能反映你的业务场景表现。
关键认知：你需要建立"券超算自己的 benchmark"——这就是你 OKR 里分层度量在做的事。

7. LLM-as-Judge（用 AI 评 AI）

类比：请一个资深同事帮你审稿（但这个同事也有偏见）

用一个更强的模型（如 GPT-4）来评价另一个模型的输出质量。
优势：比人工便宜 100 倍，速度快 1000 倍
问题：约 30% 偏差率——倾向给长回答高分、对自家模型评分偏高
你的角色：设计 Rubric（评分标准），让 LLM-as-judge 按你定义的标准评分，而非自由发挥

分层评测：四层怎么做？（操作视角）

层级	做什么	怎么做（具体操作）	你参与的部分
L1 自动规则	用代码检查硬性规则	写 if/else 规则：回复是否包含敏感词？是否超过字数？格式是否正确？延迟是否超标？	定义"哪些规则需要检查"（列清单给工程师）
L2 LLM-as-judge	让 AI 按 Rubric 评分	写一个 Prompt："你是一个评分员，请根据以下标准给这段回复打 1-5 分..."，喂入待评内容，收集评分	写 Rubric（评分标准 + 评分维度 + 示例）
L3 人工精评	专家逐条审阅	从 L2 结果中抽取边界 case（3-4 分的模糊区间），让领域专家按标准重新评分，校准 L2 偏差	设计评分指南 + 定义抽样策略
L4 设计师洞察	发现量化工具捕捉不到的体验问题	观察用户与 AI 的真实交互录屏，找出"数据上看没问题、但体验上有问题"的断点	这是你独占的层——没有人比设计师更擅长发现"难以量化的体验问题"

Prompt 工程 + Eval Rubric 设计 · 白话解析

这是 Applied AI Designer 最核心的"新技能"——你不只是用 AI，你是在"指导 AI 如何表现"以及"定义 AI 表现好不好的标准"。

Part A：Prompt 工程——5 个关键技巧

Prompt 工程不是"跟 AI 聊天"，而是精确地告诉 AI "你是谁、要做什么、不能做什么、参考什么、输出什么格式"。

角色设定（Role）

告诉 AI "你是谁"——设定专业身份让输出更聚焦。
例："你是外卖平台的券策略专家，了解满减规则、使用门槛、有效期约束。"

任务描述（Task）

清晰定义"要做什么"——越具体越好，避免开放性指令。
例："根据用户的消费记录和当前库存券，推荐最合适的 3 张券，并解释推荐理由。"

约束条件（Constraints）

划定"不能做什么"——边界比目标更重要。
例："不推荐已过期的券；不推荐门槛高于用户历史最高客单价 1.5 倍的券；不输出内部系统字段。"

Few-shot 示例（Examples）

给 AI 看"好回答长什么样"——1-3 个高质量示例胜过 1000 字描述。
例："输入：用户月消费 200 元，偏好快餐... 输出：推荐券 A（满 30-5）因为..."

输出格式（Format）

规定输出结构——JSON/Markdown/列表，让下游系统能解析。
例："输出 JSON 格式：{coupons: [{id, name, reason}], confidence: 0-1}"

Part B：Eval Rubric——是什么 + 怎么写

Rubric（评分规则）= 一份结构化的评分标准文档，明确定义"什么是好、什么是中、什么是差"。

类比：你做可用性测试时的评分表——只不过现在评的不是"用户能否完成任务"，而是"AI 的回复质量好不好"。

为什么设计师适合写 Rubric？
因为 Rubric 的核心是"把模糊的体验感受结构化为可量化的维度"——这正是设计师天天在做的事（把"好用"拆解为"可发现性/效率/容错性/满意度"）。

Rubric 五步法

定义评分维度（Dimensions）

选择 3-5 个关键维度。券超算场景示例：
· 准确性：推荐的券是否符合用户真实需求
· 合规性：是否违反业务规则（过期、超门槛、限使用）
· 解释清晰度：推荐理由是否用户能理解
· 信任感：回复口吻是否让用户觉得可信而非推销

定义评分量表（Scale）

每个维度用 1-5 分，每个分数必须有锚定描述：
· 5 分 = 完美匹配用户需求 + 理由清晰 + 无合规问题
· 3 分 = 大方向对但有次要问题（如理由略显模板化）
· 1 分 = 完全不相关或违反合规规则

编写锚定示例（Anchor Examples）

为每个分数段提供 1-2 个真实案例。这是 Rubric 最耗时但最有价值的部分——
让不同评分者看到同一个回复时，打出相近的分数（= inter-annotator agreement）。

设置 Hard-fail 规则（不可触碰的底线）

无论其他维度多好，触碰底线 = 直接判定为不合格：
· 推荐已过期的券 → Hard-fail
· 泄露内部系统信息 → Hard-fail
· 涉及虚假优惠承诺 → Hard-fail

校准与迭代（Calibration）

拿 20 条真实数据让 3 个人独立打分，看一致性：
· 一致性 > 80% → Rubric 可用
· 一致性 < 60% → 维度定义不清晰，需要加更多锚定示例
· 迭代 3 版以上通常能达到可用状态

行业参考
· Twine 的评测指南提出 8 步流程："定义目标 → 选维度 → 设量表 → 写锚定 → 试标 → 计算一致性 → 修正 → 部署"
· Appen 强调 inter-annotator agreement（IAA）是 Rubric 质量的金标准
· Anthropic 在内部用 Rubric 驱动 Claude 的 "character training"——Rubric 不仅评分，还能反哺训练

可执行学习路径规划

基于你当前工作节奏（高强度项目中）设计的"边做边学"路径，每个阶段有明确产出物和里程碑。

Phase 1：0-30 天

SQL + 数据自服务从零到可用

Week 1-2：SQLBolt 在线教程（免费，交互式），每天 20 分钟完成 1 课，覆盖 SELECT/WHERE/JOIN/GROUP BY
Week 2-3：Mode Analytics SQL Tutorial（免费），做完"中级"部分，重点练 JOIN + 子查询
Week 3-4：在公司数据平台上，用真实表写出 3 条有业务价值的查询：
- 查询 1：某场景下 AI 推荐券的核销率 vs 人工配置的核销率
- 查询 2：高频 badcase 聚类（按错误类型 GROUP BY）
- 查询 3：AB 实验两组的关键指标对比

里程碑：能独立写出 3 条业务查询 + 产出 1 份数据洞察 memo

Phase 2：30-60 天

第一份"设计师视角 Rubric" 落地

Week 5：精读 2 篇参考材料（Twine rubric guide + Anthropic eval blog），提取 Rubric 模板
Week 5-6：选定 1 个券超算具体场景（建议：C 端券推荐话术），收集 50 条真实 AI 输出
Week 6-7：按 5 步法写 Rubric V1，找 2 个同事试标 20 条，算 IAA
Week 7-8：根据一致性结果修改 → V2 → 再试标 → V3
Week 8：把 Rubric 给到算法同学，让他们配置 LLM-as-judge 自动跑分

里程碑：产出可投入使用的 Rubric V3 + LLM-as-judge 自动跑分 pipeline

穿插进行：持续

AI/ML 概念 + Eval 知识积累

每周 1 篇：精读头部公司 blog（推荐：Anthropic Research Blog, OpenAI Blog, Braintrust Blog）
推荐起步材料：
- "Evaluating LLMs is Hard" — Anthropic
- "A Practical Guide to LLM Evaluation" — Galileo AI
- "The Model Spec" — OpenAI（理解"模型行为"的官方定义）
- Braintrust Blog："Human-in-the-loop evaluation"系列
动手：用 Qoder 跑一次简单的 LLM-as-judge demo（让 Claude 按你写的 Rubric 给 10 条回复打分）

里程碑：能用自己的话解释 L1-L4 每层在做什么 + 跑通 1 个 LLM-as-judge demo

Phase 3：60-90 天

≤10 分钟 Design Skill MVP

Week 9-10：把前两阶段的产出（SQL 查询模板 + Rubric + LLM-as-judge Prompt）整理为可复用模块
Week 10-11：基于 Qoder Skill 框架，封装为一个命令：xyp 度量这个体验
- 输入：场景描述 + AI 输出样本
- 自动执行：L1 规则检查 + L2 LLM-as-judge 评分
- 输出：评分报告 + L3 人工精评模板 + L4 洞察引导
Week 11-12：内部试用，收集 2-3 个场景的使用反馈，迭代

里程碑：Skill 可跑通 + 至少 1 个场景完整闭环 + 产出可汇报的成果文档

学习资源汇总

领域	资源	类型	时间
SQL	SQLBolt (sqlbolt.com)	交互式教程	~10h
SQL	Mode Analytics SQL Tutorial	教程+练习	~8h
SQL	"SQL for UX Researchers" (carljpearson.com)	博客	30min
Eval	"A Practical Guide to LLM Evaluation" — Galileo	深度指南	1h
Eval	"The Model Spec" — OpenAI	官方文档	2h
Rubric	Twine "How to Create an Evaluation Rubric"	实操指南	45min
Rubric	Appen "Inter-annotator Agreement"	方法论	30min
AI 概念	Anthropic Research Blog	持续阅读	每周 1 篇
综合	Braintrust Blog "Human-in-the-loop" 系列	行业实践	每篇 20min

直接给到 OKR 的可操作建议

对应 O2-KR1-KA1（分层度量框架）

你已有的"四层模型" 可以直接对外，与 Anthropic / OpenAI / 阿里云的实践高度吻合
明确每层的「负责人 + 工具 + 产出」三栏，避免被质疑"边界含糊"
把 L4「设计师洞察」单独作为一节，这是你的差异化战场，不被工程视角覆盖
用 1 个具体场景（建议券超算 C 端某个高频体验点）作为分层框架的"第一例验证"

对应 O2-KR1-KA2（≥1 场景闭环）

选定场景的「业务特殊性」必须强调：规则复杂 + 与资金挂钩 + 前后端独立——团队内独一份
在 L3 人工精评层，把"资金合规"作为独立一档评分维度——这是其他 AI 度量方案没有的
L4 设计师洞察至少跑出 1 个"非工程视角能发现的体验断点"，作为差异化证据

对应 O2-KR1-KA3（≤10 分钟 Design Skill）

市面空白：Braintrust / DeepEval / Galileo 都是工程师视角的平台型评测，没有"设计师 10 分钟自助"的产品形态
建议 MVP：基于 Qoder Skill 封装一个 xyp 度量这个体验 命令，输入场景 → 自动调用 L1+L2 → 输出 L3 模板 → 引导填 L4 洞察
这个 Skill 本身就是"AI 时代设计能力转译"的最强证据，对应 O3 影响力建设

对应高层感知目标（+2 / +3）

这套框架 + 头部公司对照 = 面向 +2 / +3 的天然汇报材料
呈现角度建议："我们团队的 AI 体验度量 vs 头部 AI 公司"——把"对齐头部"作为可信度锚点
主动突出"L4 设计师视角是唯一不可被工程替代的差异化层"——把设计岗位的不可替代性显化

下一步建议（XYP 视角）
1. 把本次调研关键认知沉淀到 monthly_report/buffer.md 的 P0 区
2. 启动「为体验设计师量身造的 AI 度量 Skill」MVP 设计
3. 30 天内启动 SQL + 数据自服务自学计划，纳入 progress_log

信息源汇总（A=高质量 / B=中等）

#	标题	来源	评级	用途
1	Quantitative UX Researcher · OpenAI（公开 JD）	openai.com / ashbyhq	A	OpenAI UXR 职责 + SQL 要求证据
2	User Experience Researcher · Anthropic（公开 JD）	welcometothejungle / lionheart.vc	A	Anthropic UXR 与 AI-native 工作方式定义
3	Product Designer, Claude Code · Anthropic（公开 JD）	anthropic.com/careers	A	Applied AI Designer 标杆 JD
4	Design Engineer · Cursor（公开 JD）	cursor.com/careers	A	设计+工程复合角色定义
5	User Researcher · Cursor（公开 JD）	cursor.com/careers	A	AI-native 产品公司研究角色
6	OpenAI reorganizes Model Behavior team	TechCrunch 2025-09	A	Model Behavior 实质内容 + 组织演进
7	How AI Is Transforming Work at Anthropic	anthropic.com	A	AI 改变研究/设计工作的本质
8	SQL for UX Researchers	carljpearson.com	B	UXR 学 SQL 的路径参考
9	A Practical Guide to LLM Evaluation	Galileo AI	A	分层评测方法论
10	How to Create an Evaluation Rubric	Twine	B	Rubric 5 步实操指南
11	Inter-annotator Agreement Best Practices	Appen	B	评分一致性方法论
12	面向业务落地的 AI 产品评测体系设计与平台实现	阿里云开发者	B	国内分层评测平台思路
13	Best human-in-the-loop LLM eval platforms 2026	Braintrust	A	分层评测平台市场图景
14	Operating as an AI-native product designer in 2026	Verified Insider	B	AI-native 设计师范式转移