深紫色 = 该公司明确招聘此岗位;灰色 = 未见公开岗位但能力被吸收进其他角色。数据来源于 2025-2026 年公开 JD。
| 岗位 / 公司 | OpenAI | Anthropic | Google DeepMind | Meta AI | 字节豆包 | Cursor | Notion AI | Vercel / v0 |
|---|---|---|---|---|---|---|---|---|
| UX Researcher(综合) | 招 | 招 | 招 | 招 | — | 招 | 招 | — |
| Quantitative UXR | 招 | 隐含 | 招 | 招 | — | — | 招 | — |
| Mixed Methods UXR | 招 | 招 | 招 | — | — | 隐含 | — | — |
| Model Behavior Researcher | 招(已并入 Post-Training) | 招 | 招 | — | — | — | — | — |
| AI Evaluator | 招(含外包) | 招 | 招 | 招 | 招 | — | — | — |
| Alignment Researcher(体验侧) | 招 | 招 | 招 | — | — | — | — | — |
| Applied AI Designer / AI-Native Designer | — | Claude Code 产品设计师 | — | — | 招 | 招 | 招 | 招 |
| 岗位 | 差异性质 | 核心职责 | 与传统 UXR 的关系 | 关键能力门槛 |
|---|---|---|---|---|
| AI UXR / AI Experience Researcher | 混合 | 研究 AI 产品中"还没形成惯例"的人机交互、采纳路径、ROI、信任建立 | UXR 的延伸 + 必须具备 AI 工具搭建能力 | SQL 自服务、AI-native 工作方式、快速实验 |
| Quantitative UXR | 命名 | 用大数据 / 实验做用户行为定量研究 | 传统 UXR 的量化分支,AI 公司因日志量大而格外重视 | SQL、统计、实验设计 |
| Mixed Methods UXR | 命名 | 定性 + 定量结合 | 传统 UXR | 研究方法广度 |
| Model Behavior Researcher | 实质 | 定义/调整模型的"人格"、口吻、价值观、回答边界(如 ChatGPT 不再过度顺从、政治中立) | 不是 UXR——更像「对齐研究 + 内容策略 + Prompt 工程」交叉 | ML/对齐基础、Model Spec 写作、能跑训练实验 |
| AI Evaluator | 实质 | 按已定义的标注规范对模型输出打分 | 不是研究——是评测的执行层(= 数据标注的高阶版) | 领域知识、rubric 理解力、抗疲劳 |
| Alignment Researcher(体验侧) | 实质 | 研究 AI 价值观对齐、安全边界、偏见识别 | 偏技术,需要 ML 背景 | ML、伦理学、对齐文献 |
| Applied AI Designer / AI-Native Designer | 混合 | AI native 产品中的 UI/IA + AI 行为定义 + 度量设计的混合体 | 设计师 + Model Behavior + UXR 的复合角色,这是 AI-native 公司的主角 | 设计 + Prompt + Eval + 系统思维 |
以下为 2025-2026 年公开 JD 的关键原文段落,重点标注对你有参考价值的能力信号。
维度评分基于公开 JD 中要求的能力强度(1-5),评分越高代表该能力是岗位刚需。
这是 AI-native 产品公司(Cursor/Notion/Vercel/字节)正在定义的新角色。它不是一个传统岗位的简单升级,而是多个角色的融合。
| 维度 | 传统 UX Designer | Applied AI Designer |
|---|---|---|
| 设计材料 | 像素、组件、布局 | 像素 + Prompt + 模型行为 |
| 确定性 | 输入确定 → 输出确定 | 同一输入 → 不同输出(概率性) |
| 评判标准 | 用户满意度、可用性分数 | Eval 通过率 + 用户满意度 |
| 迭代速度 | 周级别(设计评审 → 开发 → 上线) | 小时级别(改 Prompt → 跑 Eval → 上线) |
| 交付物 | Figma 设计稿 + 标注 | Prompt + Rubric + UI 代码 + Eval 报告 |
| 数据能力 | 看埋点报表(被动) | SQL 自服务 + 主动跑分析(主动) |
| 失败模式 | "用户不会用" | "模型输出不对" + "用户不信任" |
将你 OKR 中"自动兜底 → 模型预测 → 人工精评 → 设计师洞察"四层与头部公司实践对照。
基于你(体验设计师 · 零售营销超算 · O2-KR1)切入 Applied AI Designer / AI 体验研究员复合岗位的差距推断。
这一页帮你从零理解:SQL 是什么、为什么 AI 公司 UXR 必须会、怎么在工作中用起来。
| 你想知道的 | SQL 能做的 |
|---|---|
| 券超算 AI 推荐的券,用户实际核销率是多少? | JOIN 券推荐表 + 核销表,按推荐来源 GROUP BY |
| 哪些类型的提问,AI 回答质量最差? | 关联评分表,按 query_type 分组看平均分 |
| A/B 测试两个版本的留存差异? | 按实验组 GROUP BY,算各组 Day7 留存率 |
| 用户对 AI 回复的平均满意度趋势? | 按日期 GROUP BY,AVG(satisfaction_score) |
| 高频 badcase 聚类? | WHERE score < 3,GROUP BY error_type,COUNT 排序 |
这一页帮你建立"刚好够用"的 AI/ML 认知框架——不需要你训练模型,但需要你能跟算法团队对话、理解评测在做什么。
| 层级 | 做什么 | 怎么做(具体操作) | 你参与的部分 |
|---|---|---|---|
| L1 自动规则 | 用代码检查硬性规则 | 写 if/else 规则:回复是否包含敏感词?是否超过字数?格式是否正确?延迟是否超标? | 定义"哪些规则需要检查"(列清单给工程师) |
| L2 LLM-as-judge | 让 AI 按 Rubric 评分 | 写一个 Prompt:"你是一个评分员,请根据以下标准给这段回复打 1-5 分...",喂入待评内容,收集评分 | 写 Rubric(评分标准 + 评分维度 + 示例) |
| L3 人工精评 | 专家逐条审阅 | 从 L2 结果中抽取边界 case(3-4 分的模糊区间),让领域专家按标准重新评分,校准 L2 偏差 | 设计评分指南 + 定义抽样策略 |
| L4 设计师洞察 | 发现量化工具捕捉不到的体验问题 | 观察用户与 AI 的真实交互录屏,找出"数据上看没问题、但体验上有问题"的断点 | 这是你独占的层——没有人比设计师更擅长发现"难以量化的体验问题" |
这是 Applied AI Designer 最核心的"新技能"——你不只是用 AI,你是在"指导 AI 如何表现"以及"定义 AI 表现好不好的标准"。
Prompt 工程不是"跟 AI 聊天",而是精确地告诉 AI "你是谁、要做什么、不能做什么、参考什么、输出什么格式"。
基于你当前工作节奏(高强度项目中)设计的"边做边学"路径,每个阶段有明确产出物和里程碑。
xyp 度量这个体验
| 领域 | 资源 | 类型 | 时间 |
|---|---|---|---|
| SQL | SQLBolt (sqlbolt.com) | 交互式教程 | ~10h |
| SQL | Mode Analytics SQL Tutorial | 教程+练习 | ~8h |
| SQL | "SQL for UX Researchers" (carljpearson.com) | 博客 | 30min |
| Eval | "A Practical Guide to LLM Evaluation" — Galileo | 深度指南 | 1h |
| Eval | "The Model Spec" — OpenAI | 官方文档 | 2h |
| Rubric | Twine "How to Create an Evaluation Rubric" | 实操指南 | 45min |
| Rubric | Appen "Inter-annotator Agreement" | 方法论 | 30min |
| AI 概念 | Anthropic Research Blog | 持续阅读 | 每周 1 篇 |
| 综合 | Braintrust Blog "Human-in-the-loop" 系列 | 行业实践 | 每篇 20min |
xyp 度量这个体验 命令,输入场景 → 自动调用 L1+L2 → 输出 L3 模板 → 引导填 L4 洞察| # | 标题 | 来源 | 评级 | 用途 |
|---|---|---|---|---|
| 1 | Quantitative UX Researcher · OpenAI(公开 JD) | openai.com / ashbyhq | A | OpenAI UXR 职责 + SQL 要求证据 |
| 2 | User Experience Researcher · Anthropic(公开 JD) | welcometothejungle / lionheart.vc | A | Anthropic UXR 与 AI-native 工作方式定义 |
| 3 | Product Designer, Claude Code · Anthropic(公开 JD) | anthropic.com/careers | A | Applied AI Designer 标杆 JD |
| 4 | Design Engineer · Cursor(公开 JD) | cursor.com/careers | A | 设计+工程复合角色定义 |
| 5 | User Researcher · Cursor(公开 JD) | cursor.com/careers | A | AI-native 产品公司研究角色 |
| 6 | OpenAI reorganizes Model Behavior team | TechCrunch 2025-09 | A | Model Behavior 实质内容 + 组织演进 |
| 7 | How AI Is Transforming Work at Anthropic | anthropic.com | A | AI 改变研究/设计工作的本质 |
| 8 | SQL for UX Researchers | carljpearson.com | B | UXR 学 SQL 的路径参考 |
| 9 | A Practical Guide to LLM Evaluation | Galileo AI | A | 分层评测方法论 |
| 10 | How to Create an Evaluation Rubric | Twine | B | Rubric 5 步实操指南 |
| 11 | Inter-annotator Agreement Best Practices | Appen | B | 评分一致性方法论 |
| 12 | 面向业务落地的 AI 产品评测体系设计与平台实现 | 阿里云开发者 | B | 国内分层评测平台思路 |
| 13 | Best human-in-the-loop LLM eval platforms 2026 | Braintrust | A | 分层评测平台市场图景 |
| 14 | Operating as an AI-native product designer in 2026 | Verified Insider | B | AI-native 设计师范式转移 |