AI 底层能力与发展现状(2025-2026)
理解 AI"擅长什么 / 不擅长什么"是判断转型方向的第一步。以下按设计相关性分层梳理。
AI 目前擅长的四大能力域
| 能力域 | 具体表现 | 对设计的影响 | 成熟度 |
| 生成(Generation) |
文本生成、图像生成、UI布局生成、代码生成、视频生成 |
设计师不再是"唯一能产出视觉方案的人";草稿、变体、文案秒级产出 |
高度成熟 |
| 推理(Reasoning) |
逻辑分析、上下文理解、多步骤规划、代码调试 |
AI 可以理解设计意图并转化为代码;但"为什么这样设计"的判断仍需人类 |
快速进步 |
| 评估(Evaluation) |
LLM-as-judge、质量评分、A/B对比分析、启发式检查 |
可替代部分人工审核;但 30% 偏差率 + 无法捕捉"体验感受" |
可用但需人工校准 |
| 自动化(Automation) |
工作流串联、多步骤 Agent、批量处理、自动化测试 |
重复性设计工作(图层命名/组件搭建/标注)已大幅自动化 |
快速成熟中 |
AI 目前做不到的(设计师不可替代的护城河)
| 能力缺口 | 为什么 AI 做不到 | 设计师价值锚点 |
| 深度用户洞察 |
无法捕捉非语言信号、文化上下文、情感微妙处;NN/g 确认"合成用户无法替代真人调研" |
共情力 + 质性研究 + 文化解读 |
| 战略问题定义 |
AI 擅长"给定目标找路径",但不擅长"决定什么问题值得解决" |
业务判断 + 优先级决策 + 约束设定 |
| 跨利益相关者协同 |
无法做政治协调、信任建立、说服高管 |
沟通力 + 影响力 + 组织嗅觉 |
| 审美与品味判断 |
能模仿风格但无法定义"什么是对的品味"——Cursor JD 原话:they want "taste" |
设计品味 + 审美直觉 + 文化洞察 |
| 非确定性系统设计 |
AI 产品本身输出不确定,设计这类系统需要"没有 playbook 的原创设计" |
新范式创造力 + 容错设计 + 信任建立 |
| 伦理与无障碍合规 |
AI 常忽略屏幕阅读器逻辑、键盘导航、对比度缺陷;无障碍诉讼增长 300% |
包容性设计 + 合规审查 + 价值判断 |
State of AI Design 2026 报告关键发现(900+ 从业者 × 60+ 国家):
· 设计师使用的 AI 工具数量同比翻倍
· 50% 受访者已将 AI 生成的代码推向生产环境
· 团队从"实验阶段"进入"工作流重构阶段"
· 最大痛点:输出质量一致性仍是第一大改进空间
· 新担忧:设计师创意技能退化 + 与 AI 协作的"孤独感"
— stateofaidesign.com, 2026
站酷《AI时代超级设计师研究手册》关键数据:
· 从来不用 AI 的设计师已不到 1%
· 71% 设计师工作时长反而增加(方案迭代 + 客户期望提升)
· 会 AI 工具的设计师时薪高出 28%
· AI 是"加分项"而非"替代项"——但门槛被拉高了
— 站酷 × 第一财经, 2025-10
AI 时代设计师 · 5 大转型方向
基于行业变化 + AI能力分析 + 头部公司招聘信号,为体验设计师归纳 5 条可行路径。每条标注"与你的适配度"。
在 AI-native 产品中,同时承担交互设计 + Prompt 工程 + 评测体系设计 + 用户研究的复合角色。设计的材料不只是像素,还包括"模型行为"本身。
Prompt Engineering
Eval Rubric 设计
SQL 数据自服务
LLM-as-judge
非确定性系统设计
用户研究
为什么最适配你:你正在做的 O2-KR1(AI 体验度量)+ 券超算场景 + Qoder Skill 搭建,恰好覆盖了这个方向的核心能力。
代表公司:Anthropic (Claude Code PD), Cursor, Notion AI, 字节豆包
前文详见:ai-uxr-research.html "Applied AI Designer 深度解剖" Tab
"Lives at the intersection of design and engineering"——能画能写代码能 ship。在 AI 时代,设计-开发边界消融后最自然产生的角色。
React / CSS / HTML
Figma + Code 双栖
AI 辅助开发
原型 = 产品级代码
设计系统工程化
行业信号:Cursor/Vercel/Linear/Stripe 均在招此角色;"50% 设计师已将 AI 代码推向生产"说明趋势已成。
你的切入点:利用 Cursor + v0 + Qoder 快速出原型,先做"能 ship 的设计师"再往工程深度走。
门槛:需要前端代码基础(React/CSS),但 AI 工具大幅降低了这个门槛。
从执行层升至策略层。不再画图,而是定义问题、设定方向、协调利益相关者、用数据驱动体验决策。
商业理解
问题定义
数据驱动决策
利益相关者管理
系统化思维
影响力建设
行业信号:NN/g 强调从业者向"adaptable generalists who treat UX as strategic problem solving"转型。
你的切入点:你已有 4 年+业务经验 + XYP 战略副驾 + OKR 驱动的工作方式,天然适合策略层。
注意:纯策略不做技术会失去"接地气"的信任——建议与方向 1 组合。
设计系统的工程化、治理、规模化。在 AI 时代,设计系统 = AI 的"约束框架"——Token 体系、组件规则、品质基线。
Design Token 体系
组件工程化
跨团队治理
文档 + 规范
AI 集成(MCP/API)
行业信号:Smashing Magazine 将其列为"hidden high-impact role";Figma AI Design Systems Generator 的出现说明系统级工作正被 AI 放大而非替代。
你的切入点:如果你的团队有设计系统建设需求,这是一个"难以被裁"的位置。
门槛:需要较深的工程协作经验 + 规范化思维。
专注于 AI 产品的质量度量体系建设。设计 Rubric、运行评测、建立质量基线、在量化与定性之间搭建桥梁。
Eval Rubric 设计
LLM-as-judge
SQL + 数据分析
用户研究方法
分层度量框架
AI/ML 基本认知
行业信号:Anthropic/OpenAI 均强调"rigor without rigidity"的研究者;Braintrust/DeepEval 等评测平台爆发,但缺少"设计师视角"。
你的切入点:O2-KR1 就是在做这件事!你的"四层度量模型"已与头部公司高度吻合。
差异化:市面 Eval 方案全是工程师视角,"设计师做 Eval"= 空白市场。
推荐组合策略:不要只选一个方向,而是方向 1(Applied AI Designer)+ 方向 5(AI Evaluation)作为主线,
辅以方向 3(UX Strategy)的思维高度和方向 2(Design Engineer)的工具能力。
这个组合 = "能定义问题 + 能度量质量 + 能设计方案 + 能做出原型"的全栈 AI 设计师。
真实 JD 原文 & 公司实践案例
以下为 2025-2026 年头部公司真实 JD 片段和组织实践,为转型方向提供一手证据。
"You're equally comfortable in Figma and a code editor. You'll design AI interactions that feel natural, test them with real users, evaluate model outputs, and iterate — all in the same day."
Figma + Code 双栖
AI 交互设计
模型输出评估
日内闭环迭代
关键信号:不是"设计完交给工程",而是"设计即工程"。同一天内完成设计→实现→评估→迭代。
来源:cursor.com/careers · Medium Design Bootcamp 引用
"Strong React, TypeScript, and Next.js skills required. Our model: designer sketches the start, then AI implements, then designer refines. You need to be able to review, adjust, and ship the final product yourself."
React / TypeScript / Next.js
指挥 + 精调
Ship 能力
关键信号:Vercel 定义了 AI 时代的设计-开发新模式——"设计师起草 → AI 实现 → 设计师校准"。设计师必须能 review 代码并做最终交付。
薪资参考:$83K-$233K(来源:UI Things 2026 Design Engineering Guide)
来源:vercel.com/careers · 知乎 · Medium
"Design end-to-end AI-powered developer experiences. We expect you to be deeply technical — able to understand model capabilities and limitations, design for non-deterministic systems, and iterate based on evaluation data rather than just user feedback."
非确定性系统设计
基于 Eval 数据迭代
深度技术理解
AI 能力边界认知
关键信号:这不是传统 PD——核心差异是"基于评测数据而非仅靠用户反馈做设计决策" + "为不确定性系统设计"。
来源:anthropic.com/careers
"Design product concepts that balance vision, craft, and feasibility. You create clear, intuitive, and visually appealing interfaces for a collaborative AI workspace."
Vision + Craft + Feasibility 平衡
AI 协作空间设计
系统化思维
薪资:NYC up to $260K(来源:Medium Design Bootcamp)
关键信号:Notion 强调"平衡"——不是纯视觉也不是纯工程,而是"好品味 + 可落地 + AI 原生思维"三合一。
来源:jobs.ashbyhq.com/notion
"Linear runs a small team where every designer ships code. There is no handoff — designers own the full cycle from concept to production."
全员 ship 代码
无 handoff
全周期 ownership
关键信号:Linear 是"设计师必须能 ship"理念的极致案例。设计师不交稿,而是直接把设计变成产品。这个模式正在被更多 AI-native 公司效仿。
来源:brainy.ink / The Junior Designer Crisis
国内头部公司动向
| 公司 | 动向 | 数据/原文 | 对设计师的信号 |
| 字节/豆包 |
AI 岗位大幅扩招 + 内部转岗热潮 |
"如何转岗去豆包相关岗位是不少员工经常探讨的话题";AI 岗平均月薪 60,738 元,高出行业 26%;顶尖专家月薪突破 13 万 |
设计师需要主动向 AI 产品线靠拢;有 AI 能力 = 薪资溢价 |
| 腾讯 |
史上最大就业计划 28,000 岗 + 60% 面向技术 |
2025-2027 三年新增 28,000 实习岗并加大转化;"从超级个体到超级团队"组织变革报告 |
"超级个体"= 一人多能的 AI 增强型人才;非技术岗需技术化转型 |
| 阿里 |
校招 AI 岗位占比 60-90% |
蚂蚁、百度、阿里校招中技术类 AI 岗占比高达六成至九成 |
纯设计岗位在校招中被大幅压缩;复合型 "AI + 设计" 更有机会 |
| 站酷调研 |
99% 设计师已用 AI;会 AI 时薪高 28% |
"不用AI的设计师已不到1%";71% 工作时长增加(迭代预期提升) |
AI 已是基线不是加分项;门槛提高但市场也给了溢价 |
转型模式总结:从传统设计师到 AI 角色的三种路径
| 路径 | 典型起点 | 终点角色 | 关键转折点 | 代表公司模式 |
| 路径 A:设计 + 代码 |
擅长 UI/交互的设计师 |
Design Engineer |
学会用 Cursor/v0 把设计直接变成代码;从"交稿"变为"交产品" |
Vercel 模式:"sketch → AI 实现 → 精调" |
| 路径 B:设计 + AI 认知 |
擅长研究/策略的设计师 |
Applied AI Designer / AI Eval Designer |
学会写 Prompt、设计 Rubric、理解模型行为;从"评界面"变为"评模型" |
Anthropic 模式:"design for non-deterministic systems" |
| 路径 C:设计 + 商业 |
有业务理解的资深设计师 |
UX Strategist / 体验战略 |
从做方案到定方向;从画图到影响决策;AI 释放了执行精力后聚焦战略层 |
大厂模式:角色压缩后"留策略砍执行" |
对你的判断:
你的最优路径 = 路径 B(设计 + AI 认知)为主,因为:
· 你正在做的 OKR 就是 Eval + 度量——这是路径 B 的核心实践
· 你已有 Qoder Skill 经验——工具搭建能力已满足路径 B 的需要
· 路径 A(代码)可以通过 AI 工具低成本补齐,不需要深度投入
· 路径 C(战略)是你本身就在发展的方向(XYP + 向上汇报)
实际上你是 B 为主 + C 为辅 + A 的工具能力——三条路径不冲突,可以并行积累。
Harness 视角 · 设计师为什么天然适合这个方向
Harness 是 2026 年 Agent 领域最热的新词之一。它与体验设计师的转型有极深的关联——因为 Harness 本质上就是在回答“如何把模型能力稳定地转化为用户体验”这个问题。
什么是 Harness?
核心定义:Harness = 让模型能力稳定转化为用户体验的整套运行系统。
公式:Agent = Model + Harness(不是 Model 本身)
类比:Model = 马的能力,Harness = 缰绳 + 辔具 + 驭手 + 路线规划 + 安全保证。
没有 Harness,马只能乱跑。
Harness 包含什么?
| 组件 | 功能 | 设计师可介入的点 |
| Prompt | 给模型的输入指令 | Prompt 设计 = 行为规范定义 |
| Context | 给模型的上下文环境 | Context Engineering = 为模型搭建工作环境 |
| Memory | 跨会话记忆与状态 | 设计记忆策略 = 设计用户关系 |
| Tools | 可调用的外部工具/拀件 | 定义工具描述 = 设计 Agent 能力边界 |
| Workflow | 任务分解、执行顺序、分支逻辑 | 流程设计 = 体验流程设计 |
| Permissions | 权限控制、确认机制 | 信任设计 = 决定何时请求用户确认 |
| Evaluation | 自动化评测、质量监控 | 评测体系设计 = 体验度量 |
| Reflection | Agent 自我检查输出 | 反思策略设计 = 确保行为质量 |
| Retry / Recovery | 失败重试、异常恢复 | 容错体验设计 = 用户不感知到失败 |
为什么 Harness 突然变得重要?
模型能力已趋近天花板(GPT-5 / Claude Opus / Gemini / Qwen 差距缩小)。
同一个模型,仅仅修改 Harness,就能带来 10%+ 任务完成率提升。
研究界提出:不应该只比较模型,而应该比较 Model + Harness Configuration。
这意味着:真正决定 AI 产品体验的,不是模型本身,而是 Harness。
四个研究方向
| 方向 | 核心问题 | 代表 / 关键词 | 成熟度 |
| Evaluation Harness | AI 好不好? | lm-eval-harness / HELM / LangSmith / DeepEval / Ragas | 最成熟 |
| Agent Harness | Agent 如何工作? | Tool Use / Planning / Memory / Reflection / Recovery | 前沿 |
| Harness Engineering | 如何做得更好? | 权限系统 / 任务分解 / 上下文管理 / 失败恢复 / 观测 | 2026 最热 |
| Self-Harness | AI 如何自我优化? | 发现失败 → 分析 → 修改策略 → 重测 | 最前沿 |
从体验设计角度理解 Harness
| 传统 UX | AI 时代 Harness | 对应关系 |
| 设计用户流程(首页→搜索→商品页→下单) | 设计 Agent 流程(理解需求→确认→规划→执行→验证→反馈) | 对象从用户变为 Agent |
| 定义交互规范(点击、滑动、反馈) | 定义行为规范(何时追问、共情、确认、停止) | 从界面规范到行为规范 |
| 可用性测试(用户能不能完成任务) | Evaluation Harness(Agent 能不能达到质量基线) | 从可用性到行为质量 |
| 设计引导/空状态/错误提示 | 设计失败恢复/重试策略/优雅降级 | 从 UI 容错到系统容错 |
| A/B 测试 + 埋点分析 | Harness A vs B 对比实验 | 从界面优化到工作流优化 |
关键洞察:很多 Harness 工作其实越来越像 UX。
这已经不是 UI Design,而是——Cognitive Experience Design(认知体验设计)。
你需要设计:Agent 怎么理解任务、怎么决策、怎么反思、怎么向用户确认、什么时候停止。
为什么体验设计师天然适合 Harness 设计?
| 设计师已有的能力 | 在 Harness 中的作用 | 工程师通常缺少的 |
| 行为设计 (Behavior Design) | 定义 Agent 在不同场景下应有的行为 | 工程师写 Step1→Step2→Step3,但不会问“用户此刻感受是什么” |
| 共情力 + 用户研究 | 设计“先共情→再确认需求→再给建议”的行为模式 | 工程师倾向于“识别问题→直接给方案” |
| 体验度量思维 | 设计 Evaluation Rubric,定义“好”的标准 | 工程师只看“跑通”,设计师看“体验好不好” |
| 流程设计能力 | 设计 Agent 的决策树和分支逻辑 | 体验设计师天然习惯“如果这样则如何”的思维 |
| 利益相关者管理 | 在用户/产品/工程之间翻译 Harness 需求 | 工程师往往在单一视角内工作 |
举例:用户说“我最近工作压力好大”。
工程师设计的 Harness:识别压力 → 提供建议
体验设计师设计的 Harness:识别压力 → 表达理解 → 确认是否需要建议 → 再给建议
结果可能完全不同。而这种差异:恰恰来自 Harness。
四层能力阶梯(体验设计师视角)
| 层级 | 方向 | 核心问题 | 你当前状态 |
| 第一层 | Experience Metrics | 如何定义“好”? | ✅ 已在做(体验指标体系) |
| 第二层 | Evaluation Harness | 如何自动化度量? | ✅ 正在做(O2-KR1) |
| 第三层 | Agent Behavior Design | 追问/确认/共情/建议的行为模式库 | ⚠️ 待探索 |
| 第四层 | Experience Harness | 体验设计 + Agent 工作流 + 评测融合 | ⚠️ 未来 2-3 年最有价值方向 |
未来角色演进
| 角色 | 职责 | 与你的关联 |
| Agent Experience Designer | 设计 Agent 行为、定义交互范式 | 你的 Applied AI Designer 方向 |
| Evaluation Designer | 设计评测体系、Rubric、质量基线 | 你的 AI Eval 方向 |
| Harness Designer | 设计 Agent 运行机制(工作流+权限+失败恢复) | = Experience Harness Designer |
| AI Product Researcher | 研究用户和 Agent 协同模式 | 你的用户研究背景直接适用 |
Harness 视角的核心升级:
Harness 不只是让 AI 更符合预期,而是把“预期中的体验”转化成 Agent 可以执行、可以评估、可以迭代的一套行为系统。
你正在做的 Emotion Evaluation,其实已经站在了 Harness 思维的入口处。
很多体验设计师还在研究界面时,你已经开始研究“如何定义、测量和塑造 AI 的行为质量”——
这恰恰是 Harness Engineering 与 Experience Design 未来最有可能交汇的地方。
实质:在 AI 产品里,未来体验设计师越来越像是在设计一个“数字员工的行为体系”。
而 Harness 正是把这些行为原则、评估标准和优化机制连接起来的基础设施。