AI 知识脉络
面向非技术读者的持续更新科普站
入门认知
从零理解 AI 是什么、怎么来的、核心发展脉络
查阅工具
随时查概念词典、找好用的 AI 工具
技巧进阶
实操方法与深度进阶内容
动态资讯
最新 AI 行业动向与重要事件
我的笔记
个人学习记录与操作手记
看懂 AI:从本质,而不是从新闻
这份文档不是新闻汇编,而是一张思维地图。它会试图让你在四个层面真正建立对 AI 的理解:它是什么、怎么走到今天、能与不能、如何深度使用。
0.1这份文档对谁有用
非技术背景但需要在工作中和 AI 长期共处的人:产品经理、设计师、运营、市场、业务、HR、研究员、管理者。你不写代码,但你做的产品、服务、决策都和 AI 有关。
它不是百科,也不是深度学习教材。它是一份认知装备:看完之后,在听到任何 AI 新名词时,你能立刻把它放到正确的位置;在选 AI 工具、设计 AI 产品、读 AI 报道时,你不会被术语和过度营销带偏。
0.2这份文档的写作原则
🟡 通俗版:用日常生活的比喻讲清"是什么感觉";
🔵 严谨版:用准确的术语讲清"在技术上为什么"。
你可以只读一边,也可以两边对读。两种都看,你才能在和工程师讨论时不掉队、在和业务讨论时不卡壳。
0.3怎么读
- 第一次: 顺着 01 → 04 读一遍,重点理解"本质"和"技巧"。这两章决定了你之后的判断力。
- 查询时: 把 03 词典当随手字典,看到陌生术语就翻。
- 做选型时: 翻 05 工具,里面有"什么场景选什么"的决策表。
- 追新闻时: 看 06 资讯,这一章由 Skill 自动刷新。
- 深入学习: 看 07 进阶,有常见误区、FAQ、延伸阅读。
0.4叙事立场
"如果你能足够好地预测下一个词,你就必须理解这个世界。" — Ilya Sutskever 反复强调的核心观点
这份文档继承 Ilya Sutskever 的视角:智能不是魔法,是对世界的压缩。从这一句话出发,你会发现今天 AI 的几乎所有现象——能力、局限、幻觉、规模法则、推理模型、Agent——都能放在同一张图里被理解。
AI 在做的,只有一件事
所有大模型——ChatGPT、Claude、DeepSeek、豆包、Kimi——表面千差万别,底层做的事情其实只有一个。把这一件事看穿,后面所有概念都能站住。
1.1智能即压缩 — 反直觉的核心观点
给你大半本《红楼梦》,挡住下一个字让你猜。要猜得准,你需要的不只是"中文知识",而是要理解人物关系、情节走向、当时的情绪、作者风格、清代的常识——必须真的"懂这本书",才能猜得准。
大模型的训练,就是逼一个机器在人类几乎所有的文字上玩这个猜字游戏。猜得越准,它就越得"懂这个世界",哪怕它从没见过真实世界。
基于信息论:无损压缩 ≡ 最优概率建模。Shannon 给出的最优编码长度等于 −log P(x);最大似然训练(LLM 的训练目标)在数学上就是最小化数据的负对数似然,即把训练数据压缩到最短的编码。
要在大规模、高度结构化的数据(自然语言)上做到最优压缩,模型必须发现数据中的潜在规律、概念结构、因果关联、世界知识。这些"被压缩进参数里的规律",在使用时以"理解"的形式表现出来。
1.2下一个 token 预测 — 唯一在做的机制
把 ChatGPT 想成一个超强的词语接龙机。每次只猜下一个字 / 词,猜完接到原句尾巴上,再猜下一个,直到模型决定"该停了"。
看起来很笨,但当模型大到一定程度、训练数据多到一定程度,这种"傻接龙"竟然涌现出了写代码、做计划、解题的能力。这是过去十年最让人意外的事。
Auto-regressive language modeling:模型在每一步给出整个词表上的概率分布 P(x_t | x_<t),按温度采样选取下一个 token。Transformer 通过 self-attention 让每个位置都能"看到"前面所有位置,从而高效建模长程依赖。
这个看似单一的目标在规模放大后(参数 / 数据 / 算力同步增长)展现出 emergent abilities — 算术、思维链、代码、跨语言迁移等能力在小模型上没有,在大模型上突然出现。
输入: "今天天气真好" → 模型 → ","
输入: "今天天气真好," → 模型 → "我"
... 直到模型预测出 <EOS> 停止符。
1.3神经网络与参数 — 一个巨大的可调函数
把神经网络想成一台有万亿个旋钮的机器。训练就是不断调这些旋钮,让预测越来越准。"参数量"就是旋钮数。
GPT-4 据称约 1.8 万亿个旋钮,DeepSeek-V3 约 6710 亿,Llama-3 405B。旋钮越多,能记住和压缩的世界规律越多 —— 但成本也指数级上升。
现代 LLM 是基于 Transformer 的多层神经网络,参数主要分布在注意力(QKV 投影)和 MLP 前馈层。每一层把输入向量经线性变换、注意力混合、非线性激活后,产出更高级表征。
训练采用反向传播 + AdamW,用大规模并行算力(数千-数万张 GPU,常见 H100 / H200 / TPU)在数月内完成。MoE 架构通过"按需激活子专家"让有效参数大,推理时只用一小部分,显著降低成本。
1.4三块基石与规模法则
- 数据(Data): 互联网文本、代码、书籍、论文、对话。优质数据正在被快速用尽。
- 算力(Compute): 主要由 GPU(尤其 NVIDIA H100/H200)提供。训 GPT-4 级模型需数万张 GPU、跑数月、烧掉数千万到一两亿美元。
- 算法(Algorithm): 核心是 2017 年的 Transformer。它解决了"如何让模型同时关注一段文本中所有词的关系"。今天所有 LLM 都是它的后代。
1.5模型怎么"长成"现在的样子 — 训练流水线
一个能用的大模型不是"训一次就完了",而是要走完三段式训练流水线。理解这一点,你才能看懂"为什么 ChatGPT 比原始 GPT 好用""为什么 Claude 风格更端正"。
海量无标注文本 → 学会"接龙" → Base 模型(会接龙,但不会聊天)
[Stage 2] 监督微调 SFT
人写的高质量"问—答"样例 → 学会"听指令" → Instruct 模型
[Stage 3] 偏好对齐 RLHF / DPO / RLAIF
人(或 AI)给回答打分 → 学"人喜欢的说话方式" → Chat 模型(可发布)
预训练像让一个孩子读完全人类的书 —— 它知道很多,但不会和你对话;
SFT 像有个老师手把手教它"被问就该这么回答";
RLHF 像不停打分:"这答得人类爱听 +1 / 这答得让人不舒服 -1",慢慢把它调成有礼貌的助手。
Pre-training:next-token prediction on web-scale corpora。
SFT:在人写的 (prompt, response) 对上做监督学习,形成 instruction following 能力。
RLHF:训一个奖励模型,然后用 PPO 等算法把语言模型推向"人类偏好高分"方向。
DPO:RLHF 的简化替代,直接在偏好对上优化,不需单独训奖励模型。
RLAIF:Anthropic Constitutional AI 的核心,用 AI 自己给的反馈替代部分人类标注。
1.6推理模型 — 让 AI 在回答前"先想想"
2024 年 9 月 OpenAI 发布 o1,2025 年 1 月 DeepSeek 发布 R1,标志着 LLM 的新范式:Test-time Compute(推理期算力)。
过去的模型像"问就秒答"的学生 —— 你问它就脱口而出。但难题需要先在草稿纸上演算。
推理模型给自己开了一张看不见的草稿纸:在你看到答案之前,它已经在内部"思考"了几十秒到几分钟,把推理链展开,反思、回退、再试。所以它在数学、编程、复杂逻辑上突然变强了。
推理模型在训练阶段用 RL 教模型"产生长 CoT 后再给最终答",在推理阶段把更多算力投入到 token 生成(几千到几万 thinking tokens)而不是单纯增大模型。
这开辟了"训练算力 vs 推理算力"的新平衡 —— 可以选在更小的基座上,通过推理期生成更长 CoT 来获得高分。这是 DeepSeek-R1 在低成本下追平 o1 的关键路径。
什么时候用推理模型: 数学题、复杂代码、严密逻辑、需要规划的任务。
什么时候不用: 简单问答、闲聊、文案润色 —— 它会变慢且变贵。
1.7多模态 — 把"看图"和"看文字"放在同一个空间
多模态模型(GPT-4o、Gemini、Claude 4)可以同时看图、读字、听声、看视频。它把图像和文字翻译到同一种"内部语言",所以你贴一张图它能描述、改、推理,贴一段文字它能画图。
核心思路是共享 embedding 空间:用 vision encoder(如 CLIP/ViT)把图像编为 token,用 audio encoder 把语音编为 token,然后和文本 token 在同一个 Transformer 里被处理。这让模型可以无缝在多种模态间推理(visual reasoning, video understanding, speech-in/speech-out)。
1.8Agent — 让 AI 真的会"做事"
聊天 AI 是"会说",Agent 是"会做"。给它一个目标(比如"帮我订一个周五去上海的机票,价格 1000 以内"),它会自己拆任务、查信息、点按钮、出结果。中间几十步的决策不需要你管。
典型 Agent 架构:Goal → Plan → Tool Use → Observation → Reflect → Replan → ... 循环。模型通过 function calling / tool use 协议调用外部能力(浏览器、代码执行、文件系统、API)。MCP(Model Context Protocol)正成为 Agent 调外部工具的事实标准协议。
当前 Agent 的瓶颈不在模型智能,而在长程一致性(几十步后还能不偏)、错误恢复、权限边界。
从达特茅斯到 Agent — AI 的三次浪潮
了解一项技术的来路,你才能判断它将去往哪里。这一章只挑真正改变了行业方向的事件。
2.1三次浪潮
第一次(1950s–1980s):符号主义。 让计算机像人一样使用规则、逻辑、知识库。专家系统是代表。最终因"规则写不完"停滞,进入第一次"AI 寒冬"。
第二次(1990s–2010s):统计学习。 SVM、决策树、随机森林。AI 主要解决分类、推荐、广告等问题,工业上用得很广,但不是通用智能。
第三次(2012–至今):深度学习与大模型。 这一次不一样 —— 它在通往通用智能的路上,从识别猫到对话写代码,核心是 神经网络 + 大数据 + 大算力。
2.2关键时间线
"人工智能"这个词被正式提出。乐观情绪开启了第一次 AI 热潮。
Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton 提出的深度卷积网络以巨大优势赢下图像识别比赛。第一次证明:神经网络 + GPU + 大数据 = 可以工作。
深度强化学习的标志性事件。AI 第一次在被认为"靠直觉"的领域战胜人类顶尖。
Google 八位研究者的论文。今天所有大模型的"祖宗架构"。
GPT-3(1750 亿参数)第一次让外界感受到"涌现能力"。
背后是 GPT-3.5 + RLHF。5 天破百万用户,2 个月过亿,历史最快增长产品。
百度文心、阿里通义、智谱 GLM、月之暗面 Kimi、字节豆包、DeepSeek、零一万物、百川……"百模大战"开启。Meta 开源 Llama 系列改变行业格局。
OpenAI 用 diffusion + transformer 让 AI 视频从"几秒抖动"跃升到"分钟级、有运动一致性"。
语音、图像、文字同进同出。延迟降到接近人类对话。
"先想后答"。在 AIME、Codeforces 上跨级提升。
让模型直接"操作电脑屏幕"。Agent 走向真实环境的关键一步。
开源、低成本、能力对齐 OpenAI o1。一夜之间触发美股 AI 板块剧烈调整,改变全球 AI 叙事。
"AI 真的会做事"成为产品主线。无代码搭建 Agent 平台(Coze / Dify)迅速普及。
o3/o4 一代、Claude 4/5、Gemini 3、DeepSeek V3/V4、Qwen 系列继续推进。AI 开始接入企业财务、HR、研发的核心业务。
2.3正在发生的范式转变
① 推理(Reasoning) ② 智能体(Agents) ③ 合成数据 ④ 新训练范式(self-play、RL on tasks)。
2.4开源 vs 闭源 — 两条平行的进化线
| 维度 | 闭源(OpenAI / Anthropic / Google) | 开源(Meta / DeepSeek / Mistral / Qwen) |
|---|---|---|
| 顶级能力 | 整体仍领先 6–12 个月 | 已经能在大多数场景对齐 |
| 价格 | 高(API 计费) | 极低(可自部署) |
| 数据隐私 | 需信任厂商 | 可完全本地化 |
| 定制能力 | 有限,只能 fine-tune API | 可深度微调、量化、蒸馏 |
| 适合谁 | 需顶级能力 + 不在乎成本 | 企业内部部署、国内业务、长期成本敏感 |
2.5中美 AI 格局速写
- 美国: 顶级闭源模型主导,算力垄断(NVIDIA + 三大云),AI 研究人才密度最高。
- 中国: 开源 + 应用层快速迭代,DeepSeek 把推理模型成本拉到全球最低,豆包 / 通义 / 智谱 / Kimi / Qwen 在中文场景独占优势。
- 欧洲: Mistral 是唯一真正参与全球竞争的玩家,主打开源 + 安全合规。
必备概念词典
35+ 个在用 AI、读 AI、做 AI 产品时一定会遇到的术语。每条带"应用场景"提示。
把 AI 用深 — 从心智模型到实战手感
这一章是实战集。前半部分讲"心智模型"——知道它是什么、什么时候用、为什么会出错;后半部分讲"动手技巧"——在 IDE 里和 AI 协作、把 Agent 跑起来、用 Skill 把工作流固化。不是教 prompt 套路,而是建立可迁移的判断力。
4.1能力边界 — 用 AI 之前必须先承认的事
它真正擅长什么
- 语言驱动的脑力劳动: 总结、翻译、改写、扩写、归纳、提纲、邮件、文档。
- 代码生成与解读: 模板代码、调试、解释陌生代码库、跨语言翻译。
- 知识检索式问答(配合 RAG / 联网): 比传统搜索更直接给答案。
- 结构化转换: 表格 ↔ 文本、纪要 → 决议清单、自然语言 → 结构化数据。
- 创意与发散: 取名、起标题、改风格、写段子、做角色扮演。
- 有限步骤推理: 配合推理模型(o1 / R1),数学 / 编程 / 复杂逻辑接近顶级人类。
它真正不擅长什么
- 需要"绝对正确事实"的场景: 法律条款、医学剂量、财务数字。
- 长链复杂推理: 超过几十步的连续逻辑容易跑偏。
- 实时数据: 模型是"快照",训练后不会自更新。
- 带强主观判断的决策: 战略、人事、伦理判断,只能辅助。
- 非常长的精细记忆: 长文本中部信息容易被忽略。
- 真正的物理直觉: 它没在物理世界中真活过(目前)。
4.2幻觉的真正原因(以及怎么对付)
幻觉不是 AI 在"骗你",它根本不知道自己在骗你。它的工作是"猜下一个最像的词",当它没有真知识时,它仍然会猜出一个"看起来很像真知识的词"。
正确心智:把 AI 当作聪明但不老实的实习生 —— 它产出可以信任结构,但不能默认信任事实。
幻觉源于:① 训练目标是 likelihood 而非 factuality;② RLHF 让模型偏好"自信地输出";③ 长尾知识在参数里被压得"模糊但仍可生成"。
对付幻觉的工程手段:RAG(把答案锚在外部权威源)、引用要求、低温度采样、多次采样投票(self-consistency)、用工具验证(让模型跑代码 / 查数据库 / 调 API 而不是凭脑回答)。
4.3提示工程 6 要点(够用了)
不要被"100 个 Prompt 套路"淹没。99% 的场景里,把这 6 件事做好就够了:
- 给角色: "你是一名资深审计师" 比 "请帮我分析" 效果好得多。
- 给目标和受众: "为了 X 用户,我需要 Y 输出"。
- 给约束: 长度、风格、格式、必须包含/排除的内容。
- 给例子(few-shot): 1–3 个示例输入输出。
- 让它先思考再回答: "请先列出推理步骤,再给最终答案。"或直接用推理模型。
- 给反馈,迭代: 不要追求第一次就完美,把模型当合作者。
4.4RAG vs Fine-tuning — 决策矩阵
这是企业上 AI 的第一个分叉。判断错了会浪费数月。
| 需求 | 用 RAG | 用 Fine-tuning |
|---|---|---|
| 知识每天都在变 | ✅ 改资料库即可 | ❌ 改一次要重训 |
| 需要给出处 | ✅ 天然带引用 | ❌ 内化的知识无源 |
| 需要改变模型说话风格 | ❌ 风格难以靠资料改 | ✅ 微调最有效 |
| 需要内化大量私有领域规则 | ⚠️ 部分可行 | ✅ 微调更稳 |
| 预算有限 / 团队没 ML 工程师 | ✅ 主流路径 | ❌ 门槛高 |
| 数据特别敏感 | ✅ 向量库可本地 | ✅ 也可本地 |
实操结论: 90% 的企业 AI 应用从 RAG 起步。只有当 RAG 反复调优都达不到效果、或要"改性格"时,才上 fine-tuning。
4.5什么时候该用 Agent
Agent 不是万能解。它适合的特征:
- 任务是多步骤的(查 → 比 → 决 → 做)
- 每一步成功有可机器验证的信号
- 错误可恢复(可重试 / 回滚 / 跳过)
- 用户愿意等几秒到几分钟
反过来,简单一次问答、强主观创意、需要严密法律保证的任务,不要用 Agent —— 它会增加错误面而不增加价值。
4.6Token 经济学 — 你必须建立的成本心智
用 AI 的钱,本质上是按字数收费。一封中文邮件 ≈ 500 token,一篇长文 ≈ 5000,一本书 ≈ 200,000。
顶级模型 1000 token 几分钱到几毛钱。但聊得勤、上下文长,一个用户一个月可以烧掉几十块。做 AI 产品时,这个心智决定生死。
定价分 input / output(output 通常贵 3–5 倍)。长上下文应用要重点关注 KV cache 命中率。多轮对话每轮重传历史,指数级增长。
降本组合拳:模型分级 routing + prompt / context caching + 蒸馏自研小模型 + 结构化输出。
4.7评测 — 怎么知道你的 AI 应用真的好
很多团队上线后才发现"用户体感差"。原因是没建立评测体系。一个最小可用的评测套件:
- 金标准集(Golden Set): 100–500 条真实用户问 + 期望答。
- 对抗集: 故意构造的边界用例(歧义、矛盾、敏感、长文)。
- LLM-as-Judge: 用一个更强的模型按 Rubric(评分准则)给输出打分。一致性高、成本可控、可规模化。工具推荐:Braintrust。
- 真实流量回放: 上线后采样,人工标注一部分。
4.8IDE 协作技巧 — 让 AI 真正进入你的开发流
2025 起,AI Coding IDE 的形态已基本收敛:Tab 补全 + Inline 改写 + Composer 多文件 + Agent 自驱四件套。下面这些是无论 Cursor / Qoder / Windsurf / Copilot 都通用的"姿势"。
4.8.1 四种工作模式 — 该用哪个不要混
| 模式 | 典型场景 | 谁主导 | 核心约束 |
|---|---|---|---|
| Tab 补全 | 写一行写一段,持续被补完 | 你 | 不要无脑接受,看一眼再 Tab |
| Inline 改写(Cmd+K) | 选一段代码让 AI 改 | 你 | 选区精确,指令具体(改什么不要含糊) |
| Composer / Chat | 跨文件功能开发、解释代码库 | 协作 | 给足上下文(@file / @folder / @web) |
| Agent 模式 | "做一个登录页 + 联调 + 测试" | AI | 定边界、定验收、定回滚点 |
4.8.2 上下文给得对,效果翻倍
- 显式 @ 指定文件: 不要指望 AI"自己去找",@ 一个核心文件比让它瞎搜更准更便宜。
- 让它先说计划,再写代码: "先列改动点和风险,我确认后再动手。"避免一上来就改一片。
- 建一份
AGENTS.md/.cursorrules/.qoder/rules: 把项目约定(技术栈、命名、测试命令、禁止操作)写进去,AI 每次自动读到。 - Lint / 测试命令显式告诉它: "改完跑
npm run lint && npm test,失败自己修。"AI 自带验证闭环。 - Diff 优先,而不是整文件重写: 让 AI 输出 patch 式改动,review 时只看红绿块,效率最高。
4.8.3 八条避坑铁律
- 不要让 AI 一次改 5 个以上文件还不让你 review。出错时定位代价指数级。
- 大改之前先 git commit。AI 偶尔会"清理"你不想清理的代码。
- 它写的注释 / 文档默认删掉。除非你要求,它会插一堆"// removed for clarity"之类的废话。
- 不要让它"修复 lint 警告"作为一整个任务。它会过度修改,变更范围爆炸。
- 不要让它"添加错误处理"除非你指明哪段。它会给所有路径加 try-catch。
- 类型错误优先。让它先把 type / lint 跑过,再讨论逻辑。
- 给负面例子。"不要写成这种风格 [代码片段]"比单纯的正面例子更有效。
- 失败一次就停下来思考,不要让它在错误上反复"再试一次"——大概率越改越坏。
Cursor: Composer + Agent 模式最成熟,生态最大;Tab 模型最丝滑。
Qoder: 工程级深度协作 + Skill / Subagent / 长上下文记忆,适合规模化项目和团队约定固化。
Windsurf: Cascade 模式偏 Agent-first,自动多文件;新手有时控制感不够。
Claude Code: 命令行 Agent,适合 SSH / 服务器场景,配合 plan mode 体验好。
GitHub Copilot: 企业兼容性、安全合规最佳,Agent 体验落后于 Cursor / Qoder 半步。
4.9Agent 与 Skill — 把工作流固化下来
"用 AI"和"用好 AI"的分水岭,是你能不能把反复在做的事包装成一个 Skill / 一个 Agent / 一组 MCP 工具,让下一次只说一句话就跑起来。
4.9.1 Agent 的 4 个基本设计模式
Anthropic 2024 的《Building effective agents》是这一节的圣经,提炼成 4 类:
- Workflow(工作流): 步骤固定、AI 在节点上做判断。最稳、最可控。能用 workflow 解决的不要上 agent。
- Routing(路由): 一个分类器决定走哪条 workflow。客服 / 工单系统的标配。
- Tool Use(工具调用): AI 在循环里反复"想 → 调工具 → 看结果 → 再想"。这是当下大多数"Agent"的实质。
- Multi-Agent(多智能体): 一个 orchestrator 派活给多个 sub-agent。复杂但贵,谨慎使用。
4.9.2 写一个好 Agent 的 6 条经验
- 先写 prompt,再考虑加工具。 多数任务不需要工具,加工具反而是错。
- 工具描述就是 prompt。 工具的 name / description / 参数说明决定 AI 会不会用、用得对不对。
- 给 AI"看到结果"的能力。 让它能读自己刚才执行的输出,而不是黑盒。
- 设置 budget(步数 / token / 时间)。 永远准备一个"超过就停"的开关。
- HITL(Human-in-the-Loop)守在关键节点。 写文件、调外部 API、付费操作前要 confirm。
- 把执行环境隔离。 沙箱 / Docker / 临时分支,出问题不污染主环境。
4.9.3 MCP — 让"工具"在不同 AI 之间通用
Model Context Protocol(Anthropic 2024 提出)是当下 AI 工具生态的标准协议。一句话理解:MCP 之于 AI 工具,等于 USB-C 之于设备。一个 MCP server 写一次,Claude / Cursor / Qoder / VS Code 都能用。
- 能接 MCP 的优先接 MCP,不要再写各家私有插件。
- 常见的 MCP server: filesystem / git / Postgres / Slack / 浏览器自动化(Playwright)/ 各家文档系统。
- 团队约定: 把项目内部 SOP / 数据查询 / 部署脚本封装成自家 MCP server,让所有 AI 助手都能用同一套工具。
4.9.4 Skill — 把"反复要 AI 做的事"沉淀成一条命令
Qoder / Claude Code 都已支持 Skill 概念。一个 Skill = 一份 SKILL.md(说明触发条件、要做什么、产出格式) + 一组 assets(模板、规则、知识库)。
什么时候应该写 Skill:
- 同一类任务你已经手把手指挥 AI 做过 ≥3 次(写周报、整理调研、刷新某个看板……)
- 这件事有稳定的输入 → 稳定的产出格式。
- 结果有"好/不好"的判断标准,不是一次性消费。
SKILL.md 的最小骨架:
- Trigger — 触发词 / 子命令
- Inputs — 我会给你什么
- Steps — 你应该按什么步骤来
- Outputs — 产出格式 / 落到哪里
- Constraints — 不要做什么 / 边界
这一份 ai-knowledge-hub.html 本身就是一个 Skill 的产物 — 每次说"更新 AI 资讯",这个页面就被增量刷新一次,而不需要每次重写规则。
4.9.5 Subagent — 长任务里"借另一个脑子"
Qoder / Claude Code 还引入了 Subagent:在主对话里 spawn 一个子 agent 去做有明确边界的活(代码审查、专项探索、深度研究),完成后只把结论带回来,不污染主对话上下文。
- 典型场景: code-review / explore-codebase / research / plan / browser-automation。
- 关键好处: 主对话保持简洁;subagent 上下文窗口独立,可以"烧"得更狠。
- 避坑: 不要 spawn 嵌套 subagent;不要让 subagent 自己去改你的代码(让它返回 plan,主 agent 来动手)。
4.10把 AI 嵌进每天的工作 — 一周习惯清单
每天: 起一个 Skill / 一个 prompt 模板,把今天最频繁的一类小活包进去。
每周: 看一次"我哪几件事还在手动做",问自己:这件事是 prompt 不够好、缺工具、还是任务本身不该自动化?
每月: 给自己做一份 AI 工作流复盘 — 哪些 Skill 在用、哪些已经废弃、有什么新的 IDE / Agent / MCP 工具可以补进来。
核心心智: 最值钱的不是会用 AI,而是能持续把"重复的脑力劳动"转成"一次性写好的 Skill"。这个习惯一旦养成,你的杠杆就和别人不在一个量级了。
4.11机器学习类型选型 — 给非算法同学的判断框架
当你和算法/工程师讨论方案时,常会听到"用监督学习训一个""走无监督聚类""上 RLHF"…这些不是技术黑话,而是不同任务条件下的方法选择。掌握这个判断框架,你就能在协作中判断对方方案的合理性,也能更精准地提出业务诉求。
三种 ML 的差异,本质是你能给模型什么样的反馈:
- 监督学习 = 给"题目+答案" → 模型学会做题(像刷题考试)
- 无监督学习 = 只给题目无答案 → 模型自己找数据中的规律(像做田野调查)
- 强化学习 = 说不清答案,但能打分 → 模型试错+被反馈(像训练宠物)
监督学习(Supervised Learning):有标签数据 (x, y),目标最小化预测损失。
无监督学习(Unsupervised Learning):仅有 x,目标发现潜在结构(聚类/降维/密度估计)。
强化学习(Reinforcement Learning):Agent 与 Environment 交互,通过 Reward 信号优化策略 π,最大化累积奖励 E[Σγ^t·r_t]。
选型决策树
| 判断条件 | 该用什么 | 典型场景 |
|---|---|---|
| 能给每条数据明确"正确答案",且标注成本可控 | 监督学习 | 情绪分类、垃圾邮件、医学影像、推荐系统 |
| 没答案,但想从数据中发现结构 | 无监督学习 | 用户分群、异常检测、话题聚类、降维可视化 |
| 没答案,但能判断结果好坏(给奖励信号) | 强化学习 | 游戏 AI、自动驾驶、机器人控制、ChatGPT 的 RLHF |
| 任务复杂 + 需要业务理解 + 数据有限 | 直接调 LLM | 大多数业务冷启动,靠 prompt 和 few-shot |
强化学习是怎么"运作"的
Agent(智能体)做动作 → Environment(环境)返回新 State(状态) + Reward(奖励)→ Agent 调整策略 → 下一轮…
关键点:不需要告诉 AI"正确答案",只需要定义"什么是好结果"(奖励函数),让它自己探索 + 试错 + 总结策略。
ChatGPT 的 RLHF 就是这种模式:GPT 对一个问题生成 4 个回答 → 人工排序偏好 → 训练"奖励模型"模仿人类偏好 → 强化学习让 GPT 优化输出去拿高分。这就是为什么 ChatGPT 比 GPT-3 更"懂得讨好人"。
AI 产品的典型演进路径
- 冷启动(无数据) → 直接 LLM-as-Judge(用大模型当评估者),无需训练
- 积累数据(少量人工修正) → Human-in-the-Loop 持续优化 prompt,人参与回路
- 数据丰富(>3000 条标注) → 微调 BERT 类小模型降本(API 费用 → 本地推理免费)
- 用户反馈丰富 → 引入 RLHF,让模型符合用户偏好
有答案 → 监督学习 没答案 → 无监督学习
有反馈 → 强化学习 都不想自己训 → 直接调大模型
设计师不需要自己训模型,但要理解什么任务该用什么方法 — 这样在和算法/工程师协作时,你能判断方案是否合理,也能更好地提出业务诉求。
值得知道的 AI 工具地图
按"用途"组织,每类附"什么场景选什么"的快速决策提示。
国内可用需科学上网 标签会简单提示访问性。
① 通用对话与全能助手 最常用
- ChatGPT 需科学上网OpenAI,综合能力顶级,生态最丰富。
- Claude 需科学上网Anthropic,长文 / 代码 / 安全感最强。
- Gemini 需科学上网Google,超长上下文。
- DeepSeek 国内可用国产开源,推理(R1)接近一线闭源,成本极低。
- Kimi 国内可用月之暗面,长文阅读见长。
- 豆包 国内可用字节,中文体验流畅。
- 通义千问 国内可用阿里,Qwen 系列开源。
- 智谱清言 GLM 国内可用国产代表,有 AutoGLM。
② AI 编程与开发 生产力革命
- Qoder面向工程的 AI Coding IDE / CLI。
- Cursor最流行的 AI IDE 之一(Composer + Agent)。
- GitHub Copilot微软 / GitHub,集成度最深。
- Windsurf主打 Agent-style coding 的 IDE。
- Claude CodeAnthropic 命令行编程 Agent。
- v0.devVercel,一句话生成 React 页面。
③ 图像生成与设计 视觉
- Midjourney 需科学上网审美天花板。
- 即梦 国内可用字节,中文语义好,人像稳。
- 可灵图像 / 可图 国内可用快手,东方审美。
- Stable Diffusion / Flux开源生态,本地部署。
- Photoshop AI / 通义万相嵌入设计软件 / 商品图电商。
④ 视频生成 2024–2026 爆点
- Sora 需科学上网OpenAI,行业基准。
- 可灵 Kling 国内可用快手,中文圈口碑佳。
- 即梦视频 国内可用字节,与素材生态打通。
- Runway老牌 AI 视频,工具流完整。
- Veo / Veo 3 需科学上网Google,带音轨生成。
⑤ 写作 / 文档 / 知识管理
- Notion AI嵌入式知识协作。
- 飞书智能伙伴 国内可用企业内嵌入文档 / 会议 / IM。
- 钉钉 AI 助理 国内可用阿里生态。
- WPS AI 国内可用国产 Office 全家桶 AI。
- Granola / Otter会议自动转写 + 总结。
⑥ 检索 / 研究 / 资料
- PerplexityAI 搜索引擎,带引用。
- 秘塔搜索 国内可用国产研究型搜索。
- ChatGPT / Gemini Deep Research长任务研究报告。
- NotebookLMGoogle,资料问答 + 播客。
⑦ Agent / 自动化
- Manus 国内通用 Agent。
- Devin编程 Agent。
- OpenAI Operator浏览器型 Agent。
- Coze 扣子 国内可用字节,无代码搭 Agent。
- Dify开源企业 LLM 应用平台。
- n8n / Zapier with AI工作流自动化。
- BraintrustLLM 评测平台,支持 Rubric 定义、A/B 对比、LLM-as-Judge 自动评分。
⑧ 语音 / 数字人
- ElevenLabs高质量克隆与多语种 TTS。
- Heygen数字人视频。
- 通义听悟 国内会议音频转文字 + 摘要。
最新资讯
由 ai-knowledge-hub Skill 持续填充,每次刷新保留最近 8–12 条。
常见误区 · FAQ · 延伸阅读
看完前 6 章,你应该已经在 AI 上"建立了框架"。这一章用来纠偏、答疑、推进一步。
7.1常见误区 — 听到这些话要警觉
"AI 已经具备意识 / 已经达到 AGI"
"参数越大模型越好"
"AI 会取代所有白领工作"
"开源模型一定不如闭源"
"Prompt 越长越详细越好"
"Agent 已经可以替代员工"
"模型联网就不会幻觉了"
"中国 AI 落后美国 X 年"
7.2高频问答
我做 AI 产品 / 写公司 AI 战略,应该最看重什么?
选模型时,看哪个排行榜最有参考价值?
我们公司想私有化部署模型,从哪里开始?
普通用户日常用,该订阅哪一个?
我担心数据隐私,使用云端 AI 安全吗?
非技术人怎么持续跟上 AI?
7.3延伸阅读 — 想再深一层时看这些
- 视频系列(强烈推荐):
- Andrej Karpathy "Intro to LLMs" / "Let's build GPT" / "Deep Dive into LLMs"(YouTube,非技术友好的最佳起点)
- 3Blue1Brown "Neural Networks" 系列(可视化讲解)
- 关键演讲:
- Ilya Sutskever NeurIPS 2024 演讲(关于预训练终结与未来三个方向)
- Sam Altman / Dario Amodei 各类访谈(对前沿走向的判断)
- 论文(可读摘要):
- 《Attention Is All You Need》(2017,Transformer 原作)
- 《Scaling Laws for Neural Language Models》(2020,OpenAI,讲清"为什么变大就变强")
- 《Training language models to follow instructions with human feedback》(2022,InstructGPT,RLHF 起点)
- 《Chain-of-Thought Prompting》(2022) 与《Let's Verify Step by Step》(2023,推理监督)
- Anthropic《Building effective agents》(2024,Agent 设计模式综述)
- 每周必看的官方博客:
- Anthropic News — 关于安全、Agent、产品的高质量长文
- OpenAI News — 第一手发布与技术博客
- Google DeepMind Blog
- Hugging Face Blog — 开源社区与工程实现细节
- 资讯聚合(中文):
- 机器之心 / 量子位 / 智源 / 爱范儿 AI 频道(可批量浏览,但需要自己过滤营销稿)
- "AI 早报" 类播客(节奏快、信息密度高,适合通勤)
- 动手清单(亲身经验比阅读重要 10 倍):
- 把一周内 3 件让你"懒得做"的小事(整理纪要、写周报、查资料)交给 AI 干一次
- 挑一个你熟悉的领域,用 NotebookLM / Claude Projects 建一个"私人图书馆"
- 用 Cursor / Qoder 让 AI 帮你写一个能跑起来的小工具,哪怕只是一个 HTML 计算器
- 用 Sora / 可灵生成一段 5 秒视频,用 Suno 写一首歌,体会"创作门槛塌陷"是真的
7.4持续学习路径 — 从入门到自如
阶段一(0–4 周)· 建立直觉: 把 01–04 章读两遍;每天用 AI 干一件具体的事;学会写一个"角色 + 目标 + 限制 + 例子"四件套的提示词。目标是不再害怕、不再仰视。
阶段二(1–3 个月)· 进入工作流: 选 1 个主力模型 + 1 个开源模型(用于隐私场景);在 1 个真实项目里使用 RAG 或 Agent;开始关注 token 成本与评测。目标是能为团队做出有效选型决策。
阶段三(3 个月+)· 形成判断: 跟踪 2–3 个一手信源(Anthropic/OpenAI/DeepMind 博客 + 一个独立 Newsletter);每月写一份"我们这个月在 AI 上学到了什么"的内部分享。目标是从使用者变成判断者,从跟随到引领。
"我相信能预测的人,会越来越接近真理。" —— Ilya Sutskever(意译)
看到这里的你,已经走过了大多数人愿意走的路。剩下的,是把"读完"变成"用好",再变成"做出"。
我的 AI 学习沉淀
这是一份私人化的 AI 学习剪贴本。来源可能是文章、播客、视频、对话、自己的随笔。 每条都尽量保留原文出处 + 一段 AI 自动生成的解读 + 我的标签。 新条目会被 AI 解析后,把关键术语回流到「03 词典」、产品回流到「05 工具」、 时效新闻回流到「06 资讯」,让笔记本不只是仓库,也是知识网络的入口。
08.1笔记列表
08.2如何往这里加内容
这个模块由 ai-knowledge-hub Skill 维护。给我以下任意一种输入,我会自动入库:
- 一段文字 / 一个链接 —— 我会抓取并提炼成一条笔记。
- 一个文件路径(如本地 PDF / Markdown) —— 我会读取并解析。
- 一段你自己的输出 —— 标为"原创沉淀"。
入库后,我会同步分析:
- 是否有未收录的 AI 术语 → 自动加进「03 词典」
- 是否提到具体产品 / 模型 → 自动加进「05 工具」
- 是否是时效新闻 → 自动加进「06 资讯」
每个对话回合结束时,如果我察觉你提到了 ≥3 个未收录概念,会在回复末尾灰色提示一行,你回"加"即可批量入库。少于 3 个时我会安静,不打断节奏。