AI Hub v0.4 · 给非技术读者

AI 知识脉络

面向非技术读者的持续更新科普站

🧠

入门认知

从零理解 AI 是什么、怎么来的、核心发展脉络

📖

查阅工具

随时查概念词典、找好用的 AI 工具

技巧进阶

实操方法与深度进阶内容

📰

动态资讯

最新 AI 行业动向与重要事件

📝

我的笔记

个人学习记录与操作手记

Start Here · 起步

看懂 AI:从本质,而不是从新闻

这份文档不是新闻汇编,而是一张思维地图。它会试图让你在四个层面真正建立对 AI 的理解:它是什么怎么走到今天能与不能如何深度使用

0.1这份文档对谁有用

非技术背景但需要在工作中和 AI 长期共处的人:产品经理、设计师、运营、市场、业务、HR、研究员、管理者。你不写代码,但你做的产品、服务、决策都和 AI 有关。

它不是百科,也不是深度学习教材。它是一份认知装备:看完之后,在听到任何 AI 新名词时,你能立刻把它放到正确的位置;在选 AI 工具、设计 AI 产品、读 AI 报道时,你不会被术语和过度营销带偏。

0.2这份文档的写作原则

双版本 · Casual + Rigorous
每个核心概念都给两个解释 ——
🟡 通俗版:用日常生活的比喻讲清"是什么感觉";
🔵 严谨版:用准确的术语讲清"在技术上为什么"。
你可以只读一边,也可以两边对读。两种都看,你才能在和工程师讨论时不掉队、在和业务讨论时不卡壳。

0.3怎么读

  • 第一次: 顺着 01 → 04 读一遍,重点理解"本质"和"技巧"。这两章决定了你之后的判断力。
  • 查询时:03 词典当随手字典,看到陌生术语就翻。
  • 做选型时:05 工具,里面有"什么场景选什么"的决策表。
  • 追新闻时:06 资讯,这一章由 Skill 自动刷新。
  • 深入学习:07 进阶,有常见误区、FAQ、延伸阅读。

0.4叙事立场

"如果你能足够好地预测下一个词,你就必须理解这个世界。" — Ilya Sutskever 反复强调的核心观点

这份文档继承 Ilya Sutskever 的视角:智能不是魔法,是对世界的压缩。从这一句话出发,你会发现今天 AI 的几乎所有现象——能力、局限、幻觉、规模法则、推理模型、Agent——都能放在同一张图里被理解。

Essence · 01 本质

AI 在做的,只有一件事

所有大模型——ChatGPT、Claude、DeepSeek、豆包、Kimi——表面千差万别,底层做的事情其实只有一个。把这一件事看穿,后面所有概念都能站住。

1.1智能即压缩 — 反直觉的核心观点

🟡 通俗版

给你大半本《红楼梦》,挡住下一个字让你猜。要猜得准,你需要的不只是"中文知识",而是要理解人物关系、情节走向、当时的情绪、作者风格、清代的常识——必须真的"懂这本书",才能猜得准。

大模型的训练,就是逼一个机器在人类几乎所有的文字上玩这个猜字游戏。猜得越准,它就越得"懂这个世界",哪怕它从没见过真实世界。

🔵 严谨版

基于信息论:无损压缩 ≡ 最优概率建模。Shannon 给出的最优编码长度等于 −log P(x);最大似然训练(LLM 的训练目标)在数学上就是最小化数据的负对数似然,即把训练数据压缩到最短的编码。

要在大规模、高度结构化的数据(自然语言)上做到最优压缩,模型必须发现数据中的潜在规律、概念结构、因果关联、世界知识。这些"被压缩进参数里的规律",在使用时以"理解"的形式表现出来。

Take-away
AI 不是数据库,不是搜索引擎。它是一个"世界的压缩包",在使用时被解压。它的"理解"是统计层面的,但当统计达到极致,统计就会越界变成理解 —— 这是过去十年最核心的发现。

1.2下一个 token 预测 — 唯一在做的机制

🟡 通俗版

把 ChatGPT 想成一个超强的词语接龙机。每次只猜下一个字 / 词,猜完接到原句尾巴上,再猜下一个,直到模型决定"该停了"。

看起来很笨,但当模型大到一定程度、训练数据多到一定程度,这种"傻接龙"竟然涌现出了写代码、做计划、解题的能力。这是过去十年最让人意外的事。

🔵 严谨版

Auto-regressive language modeling:模型在每一步给出整个词表上的概率分布 P(x_t | x_<t),按温度采样选取下一个 token。Transformer 通过 self-attention 让每个位置都能"看到"前面所有位置,从而高效建模长程依赖。

这个看似单一的目标在规模放大后(参数 / 数据 / 算力同步增长)展现出 emergent abilities — 算术、思维链、代码、跨语言迁移等能力在小模型上没有,在大模型上突然出现。

  输入: "今天天气真" 模型 "好"
  输入: "今天天气真好" 模型 ","
  输入: "今天天气真好," 模型 "我"
  ... 直到模型预测出 <EOS> 停止符。

1.3神经网络与参数 — 一个巨大的可调函数

🟡 通俗版

把神经网络想成一台有万亿个旋钮的机器。训练就是不断调这些旋钮,让预测越来越准。"参数量"就是旋钮数。

GPT-4 据称约 1.8 万亿个旋钮,DeepSeek-V3 约 6710 亿,Llama-3 405B。旋钮越多,能记住和压缩的世界规律越多 —— 但成本也指数级上升。

🔵 严谨版

现代 LLM 是基于 Transformer 的多层神经网络,参数主要分布在注意力(QKV 投影)和 MLP 前馈层。每一层把输入向量经线性变换、注意力混合、非线性激活后,产出更高级表征。

训练采用反向传播 + AdamW,用大规模并行算力(数千-数万张 GPU,常见 H100 / H200 / TPU)在数月内完成。MoE 架构通过"按需激活子专家"让有效参数大,推理时只用一小部分,显著降低成本。

1.4三块基石与规模法则

  • 数据(Data): 互联网文本、代码、书籍、论文、对话。优质数据正在被快速用尽。
  • 算力(Compute): 主要由 GPU(尤其 NVIDIA H100/H200)提供。训 GPT-4 级模型需数万张 GPU、跑数月、烧掉数千万到一两亿美元。
  • 算法(Algorithm): 核心是 2017 年的 Transformer。它解决了"如何让模型同时关注一段文本中所有词的关系"。今天所有 LLM 都是它的后代。
Scaling Laws · 规模法则
OpenAI、DeepMind 在 2020 前后验证了一个惊人的规律:把数据 × 算力 × 参数三者同步放大,模型能力以可预测的方式持续提升。这是过去十年所有大公司"砸钱训大模型"的底层逻辑。但 2024 年起曲线开始变缓,业界正寻找新增长来源。

1.5模型怎么"长成"现在的样子 — 训练流水线

一个能用的大模型不是"训一次就完了",而是要走完三段式训练流水线。理解这一点,你才能看懂"为什么 ChatGPT 比原始 GPT 好用""为什么 Claude 风格更端正"。

[Stage 1] 预训练 Pre-training
  海量无标注文本 学会"接龙" Base 模型(会接龙,但不会聊天)

[Stage 2] 监督微调 SFT
  人写的高质量"问—答"样例 学会"听指令" Instruct 模型

[Stage 3] 偏好对齐 RLHF / DPO / RLAIF
  人(或 AI)给回答打分 学"人喜欢的说话方式" Chat 模型(可发布)
🟡 通俗版

预训练像让一个孩子读完全人类的书 —— 它知道很多,但不会和你对话;
SFT 像有个老师手把手教它"被问就该这么回答";
RLHF 像不停打分:"这答得人类爱听 +1 / 这答得让人不舒服 -1",慢慢把它调成有礼貌的助手。

🔵 严谨版

Pre-training:next-token prediction on web-scale corpora。
SFT:在人写的 (prompt, response) 对上做监督学习,形成 instruction following 能力。
RLHF:训一个奖励模型,然后用 PPO 等算法把语言模型推向"人类偏好高分"方向。
DPO:RLHF 的简化替代,直接在偏好对上优化,不需单独训奖励模型。
RLAIF:Anthropic Constitutional AI 的核心,用 AI 自己给的反馈替代部分人类标注。

关键洞察
Base 模型决定了"它知道什么";SFT + RLHF 决定了"它说话怎么样"。同一个 Base 经不同 RLHF,可以做出不同性格(温和 / 严谨 / 幽默)的助手。这也是为什么 Claude、ChatGPT、Gemini 在能力相近时风格如此不同。

1.6推理模型 — 让 AI 在回答前"先想想"

2024 年 9 月 OpenAI 发布 o1,2025 年 1 月 DeepSeek 发布 R1,标志着 LLM 的新范式:Test-time Compute(推理期算力)

🟡 通俗版

过去的模型像"问就秒答"的学生 —— 你问它就脱口而出。但难题需要先在草稿纸上演算。

推理模型给自己开了一张看不见的草稿纸:在你看到答案之前,它已经在内部"思考"了几十秒到几分钟,把推理链展开,反思、回退、再试。所以它在数学、编程、复杂逻辑上突然变强了。

🔵 严谨版

推理模型在训练阶段用 RL 教模型"产生长 CoT 后再给最终答",在推理阶段把更多算力投入到 token 生成(几千到几万 thinking tokens)而不是单纯增大模型。

这开辟了"训练算力 vs 推理算力"的新平衡 —— 可以选在更小的基座上,通过推理期生成更长 CoT 来获得高分。这是 DeepSeek-R1 在低成本下追平 o1 的关键路径。

什么时候用推理模型: 数学题、复杂代码、严密逻辑、需要规划的任务。
什么时候不用: 简单问答、闲聊、文案润色 —— 它会变慢且变贵。

1.7多模态 — 把"看图"和"看文字"放在同一个空间

🟡 通俗版

多模态模型(GPT-4o、Gemini、Claude 4)可以同时看图、读字、听声、看视频。它把图像和文字翻译到同一种"内部语言",所以你贴一张图它能描述、改、推理,贴一段文字它能画图。

🔵 严谨版

核心思路是共享 embedding 空间:用 vision encoder(如 CLIP/ViT)把图像编为 token,用 audio encoder 把语音编为 token,然后和文本 token 在同一个 Transformer 里被处理。这让模型可以无缝在多种模态间推理(visual reasoning, video understanding, speech-in/speech-out)。

1.8Agent — 让 AI 真的会"做事"

🟡 通俗版

聊天 AI 是"会说",Agent 是"会做"。给它一个目标(比如"帮我订一个周五去上海的机票,价格 1000 以内"),它会自己拆任务、查信息、点按钮、出结果。中间几十步的决策不需要你管。

🔵 严谨版

典型 Agent 架构:Goal → Plan → Tool Use → Observation → Reflect → Replan → ... 循环。模型通过 function calling / tool use 协议调用外部能力(浏览器、代码执行、文件系统、API)。MCP(Model Context Protocol)正成为 Agent 调外部工具的事实标准协议。

当前 Agent 的瓶颈不在模型智能,而在长程一致性(几十步后还能不偏)、错误恢复权限边界

Timeline · 02 脉络

从达特茅斯到 Agent — AI 的三次浪潮

了解一项技术的来路,你才能判断它将去往哪里。这一章只挑真正改变了行业方向的事件。

2.1三次浪潮

第一次(1950s–1980s):符号主义。 让计算机像人一样使用规则、逻辑、知识库。专家系统是代表。最终因"规则写不完"停滞,进入第一次"AI 寒冬"。

第二次(1990s–2010s):统计学习。 SVM、决策树、随机森林。AI 主要解决分类、推荐、广告等问题,工业上用得很广,但不是通用智能。

第三次(2012–至今):深度学习与大模型。 这一次不一样 —— 它在通往通用智能的路上,从识别猫到对话写代码,核心是 神经网络 + 大数据 + 大算力

2.2关键时间线

1956
达特茅斯会议

"人工智能"这个词被正式提出。乐观情绪开启了第一次 AI 热潮。

2012
AlexNet 在 ImageNet 上夺冠 — 深度学习革命起点

Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton 提出的深度卷积网络以巨大优势赢下图像识别比赛。第一次证明:神经网络 + GPU + 大数据 = 可以工作。

2016
AlphaGo 击败李世石

深度强化学习的标志性事件。AI 第一次在被认为"靠直觉"的领域战胜人类顶尖。

2017
Transformer 架构发布("Attention Is All You Need")

Google 八位研究者的论文。今天所有大模型的"祖宗架构"。

2018–2020
GPT-1 / GPT-2 / GPT-3

GPT-3(1750 亿参数)第一次让外界感受到"涌现能力"。

2022.11
ChatGPT 发布

背后是 GPT-3.5 + RLHF。5 天破百万用户,2 个月过亿,历史最快增长产品。

2023.03
GPT-4 发布 + 国产大模型集体爆发

百度文心、阿里通义、智谱 GLM、月之暗面 Kimi、字节豆包、DeepSeek、零一万物、百川……"百模大战"开启。Meta 开源 Llama 系列改变行业格局。

2024.02
Sora — 视频生成进入新阶段

OpenAI 用 diffusion + transformer 让 AI 视频从"几秒抖动"跃升到"分钟级、有运动一致性"。

2024.05
GPT-4o — 真正的多模态实时交互

语音、图像、文字同进同出。延迟降到接近人类对话。

2024.09
OpenAI o1 — 推理模型范式开启

"先想后答"。在 AIME、Codeforces 上跨级提升。

2024.11–12
Anthropic Claude 3.5 + Computer Use

让模型直接"操作电脑屏幕"。Agent 走向真实环境的关键一步。

2025.01
DeepSeek-R1 — 中国推理模型对齐 o1

开源、低成本、能力对齐 OpenAI o1。一夜之间触发美股 AI 板块剧烈调整,改变全球 AI 叙事。

2025
Agent 元年 — Manus / Devin / Operator 浪潮

"AI 真的会做事"成为产品主线。无代码搭建 Agent 平台(Coze / Dify)迅速普及。

2026
推理模型常态化 + Agent 进入企业核心流程

o3/o4 一代、Claude 4/5、Gemini 3、DeepSeek V3/V4、Qwen 系列继续推进。AI 开始接入企业财务、HR、研发的核心业务。

2.3正在发生的范式转变

Pre-training is hitting a wall(争议中)
Ilya Sutskever 在 NeurIPS 2024 提出:仅靠"堆数据 + 堆算力"的预训练范式正在见顶(高质量数据接近用完)。下一阶段红利来自:
推理(Reasoning)智能体(Agents)合成数据新训练范式(self-play、RL on tasks)。

2.4开源 vs 闭源 — 两条平行的进化线

维度闭源(OpenAI / Anthropic / Google)开源(Meta / DeepSeek / Mistral / Qwen)
顶级能力整体仍领先 6–12 个月已经能在大多数场景对齐
价格高(API 计费)极低(可自部署)
数据隐私需信任厂商可完全本地化
定制能力有限,只能 fine-tune API可深度微调、量化、蒸馏
适合谁需顶级能力 + 不在乎成本企业内部部署、国内业务、长期成本敏感

2.5中美 AI 格局速写

  • 美国: 顶级闭源模型主导,算力垄断(NVIDIA + 三大云),AI 研究人才密度最高。
  • 中国: 开源 + 应用层快速迭代,DeepSeek 把推理模型成本拉到全球最低,豆包 / 通义 / 智谱 / Kimi / Qwen 在中文场景独占优势。
  • 欧洲: Mistral 是唯一真正参与全球竞争的玩家,主打开源 + 安全合规。
Glossary · 03 词典

必备概念词典

35+ 个在用 AI、读 AI、做 AI 产品时一定会遇到的术语。每条带"应用场景"提示。

LLM Large Language Model
大语言模型。当下"AI"的主流形态。
常用场景: 选型 / 设计
Token
模型处理文字的最小单位。中文约 1.5–2 字 ≈ 1 token。"上下文长度"和"调用费用"都按 token 算。
常用场景: 估成本
上下文窗口 Context Window
模型一次能"看到"的最大 token 数。比如 200k token ≈ 一本书。
常用场景: 选型
参数量 Parameters
模型内部"旋钮"的总数,通常以 B(十亿)/ T(万亿)计。
常用场景: 选型 / 部署
嵌入 Embedding
把一句话变成一组数字向量,用来"算相似度"。所有语义搜索、RAG 的底层。
常用场景: 搜索 / 知识库
Transformer
2017 年提出的神经网络架构。今天所有主流 LLM 共同的祖宗。
常用场景: 理解
注意力 Attention
让模型在处理一个词时,自动决定其他每个词对它有多重要。
常用场景: 理解
多模态 Multimodal
同一个模型能同时处理文字、图像、音频、视频。
常用场景: 选型
预训练 Pre-training
用海量无标注文本让模型学会"接龙"。烧钱最多的阶段。
常用场景: 厂商干的事
SFT 监督微调
让大模型从"接龙器"变成"听指令的助手"。
常用场景: 私有模型
RLHF 人类反馈强化学习
让人类给模型回答打分,训练它说"人类喜欢的话"。ChatGPT 之所以好用的关键。
常用场景: 训练理解
DPO 直接偏好优化
RLHF 的简化版,更稳更便宜。
常用场景: 训练理解
微调 Fine-tuning
在通用模型上,用你领域的数据再训一遍。
常用场景: 私有化
LoRA
低秩适配。"轻量微调",显存友好,可热插拔。
常用场景: 工程
蒸馏 Distillation
用大模型当老师训出小模型,效果接近、成本极低。
常用场景: 降本
合成数据 Synthetic Data
用 AI 生成的训练数据。优质人类数据用尽后的新增长来源。
常用场景: 训练前沿
推理 Inference
模型在使用时实时跑出输出的过程。
常用场景: 估成本
推理模型 Reasoning Model
o1、o3、DeepSeek-R1 这类。强于逻辑、数学、代码。
常用场景: 选型
思考链 Chain of Thought, CoT
让模型一步步推理而不是直接给结论。
常用场景: Prompt
温度 Temperature
控制输出"随机程度"。严肃任务调低,创意任务调高。
常用场景: 调参
MoE Mixture of Experts
"专家混合"。每次只激活其中几个,撑起更大能力。
常用场景: 选型
量化 Quantization
把参数从 16 位浮点压到 8/4 位整数。本地部署标配。
常用场景: 私部
KV Cache
推理时缓存历史 token 的注意力键值,长对话能省大量钱。
常用场景: 工程
Prompt
你给模型的输入。Prompt 写得好,模型表现差异巨大。
常用场景: 日常
System Prompt
"开场设定",优先级高于用户输入。
常用场景: 设计 Agent
Few-shot / Zero-shot
在 Prompt 里给几个例子(few)还是不给(zero)。
常用场景: Prompt 优化
RAG Retrieval-Augmented Generation
检索增强生成。让模型先查资料、再回答。企业知识助手标配。
常用场景: 知识库
向量数据库 Vector DB
RAG 检索的底座。Milvus / Pinecone / Qdrant / pgvector。
常用场景: RAG
Reranker
先用向量检索召回 top-100,再用 reranker 精排为 top-5。
常用场景: RAG
In-context Learning
不改参数,仅通过 Prompt 中的示例就能完成新任务。
常用场景: Prompt
Agent
"目标—规划—调工具—执行—反思"循环的 AI。
常用场景: 自动化
Function Calling / Tool Use
模型按结构化方式调用一个外部函数。
常用场景: 设计
MCP Model Context Protocol
Anthropic 提出的"AI 调外部工具"标准协议,Agent 时代的"USB-C"。
常用场景: 工程
ReAct
Reasoning + Acting。"思考—行动—观察"循环。
常用场景: Agent 设计
Computer Use
模型直接操作电脑屏幕(看截图、点击)。
常用场景: 自动化
幻觉 Hallucination
流畅但错误甚至编造的内容。
常用场景: 风险控
对齐 Alignment
让 AI 目标与人类价值观一致。
常用场景: 治理
越狱 Jailbreak
通过特殊 Prompt 绕开模型安全限制。
常用场景: 安全测试
Guardrails
输入/输出过滤层,企业部署必备。
常用场景: 上线
可解释性 Interpretability
研究模型内部"为什么这么想"。
常用场景: 研究
神经网络 Neural Network
模仿大脑神经元结构的计算模型,深度学习的基础。
常用场景: 理解
深度学习 Deep Learning
用"深"(多层)神经网络做表征学习,2012 年后的主流。
常用场景: 理解
反向传播 Backpropagation
让网络通过"误差反向传"来调整每个参数的核心算法。
常用场景: 训练原理
梯度下降 Gradient Descent
朝着"误差减小最快"的方向小步调参,训练所有神经网络的标配。
常用场景: 训练原理
损失函数 Loss Function
量化"模型答得有多差"的函数,训练目标就是把它降到最低。
常用场景: 训练理解
向量 / 张量 Vector / Tensor
神经网络的"通用货币"——所有输入输出在内部都是一组数字。
常用场景: 理解
softmax
把一组数字归一为"概率分布",用来挑下一个 token。
常用场景: 理解
位置编码 Positional Encoding
告诉 Transformer "这个词在句子哪个位置",否则模型分不清顺序。
常用场景: 架构理解
多头注意力 Multi-head Attention
多个注意力并行,各自关注不同模式,提升表达力。
常用场景: 架构理解
扩散模型 Diffusion Model
"从噪声里慢慢去噪"出图,是 Stable Diffusion / DALL·E 的底层。
常用场景: AIGC
VAE / GAN
扩散模型之前的两类生成模型;了解一下作为对照。
常用场景: 历史
自监督学习 Self-supervised Learning
用数据"自己当标签",预训练就是这个套路。
常用场景: 训练理解
机器学习 Machine Learning · ML
让计算机从数据中学规律,而不是靠人写死规则。深度学习、LLM 都是它的子集。
常用场景: 选型 / 理解
监督学习 Supervised Learning
"题目+答案"成对喂给模型。情绪分类、垃圾邮件、推荐系统都属于它。
常用场景: 选型
无监督学习 Unsupervised Learning
没答案,让模型自己从数据里发现结构。聚类、异常检测、用户分群常用。
常用场景: 选型 / 数据探索
强化学习 Reinforcement Learning · RL
通过试错+奖励学策略。AlphaGo、自动驾驶、ChatGPT 的 RLHF 都是它。
常用场景: 选型 / 理解
RLHF 偏好对 Preference Pair
"答案 A 比答案 B 好",训练时模型学这种相对偏好。
常用场景: 训练理解
DPO Direct Preference Optimization
无需奖励模型,直接用偏好对训练,更稳更便宜。
常用场景: 私有模型
RLAIF
用 AI 替人类打分,大幅降低偏好数据成本。
常用场景: 训练前沿
PEFT / Adapter
参数高效微调家族,LoRA 是其中一种。
常用场景: 工程
课程学习 Curriculum Learning
先教简单的、再教难的,像人上学一样。
常用场景: 训练前沿
RL on CoT
用 RL 训练"让模型先想再说",推理模型(o1/R1)的关键。
常用场景: 选型
奖励函数 Reward Function
强化学习里"打分"的标准。设计有偏会被模型钻空子(reward hacking)。
常用场景: 训练理解
Test-time Compute
推理时多花算力换准确率,o1 / o3 的核心范式。
常用场景: 选型
Speculative Decoding
"小模型猜、大模型验",推理加速 2-3 倍。
常用场景: 工程
vLLM / SGLang
高性能推理框架,做私有化部署绕不过的两个选择。
常用场景: 私部
Batch / 并发
推理时多请求合并跑,显著降低单次成本。
常用场景: 工程
Top-p / Top-k
"在概率前 N% 的词里抽",和 temperature 配合控制随机性。
常用场景: 调参
Chunking
RAG 把长文档切成小块再检索,切法直接决定召回质量。
常用场景: RAG
Hybrid Search
向量检索 + 关键词检索结合,实战常优于纯向量。
常用场景: RAG
Function / Tool 描述
告诉模型"工具叫什么、什么场景用、参数怎么填",写得好坏决定 Agent 成功率。
常用场景: Agent
JSON Mode / Structured Output
强约束模型只输出合法 JSON,工程上场必备。
常用场景: 工程
Prompt Caching
把不变的 system / 知识库部分缓存住,API 计费打折。
常用场景: 降本
Context Engineering
Karpathy:不是写 prompt,是为模型搭建"工作环境"。
常用场景: 设计
HITL Human-in-the-Loop · 人在回路
把"人的判断"作为流程必经环节,主观重的场景几乎是最优解。
常用场景: 标注 / 评估 / 迭代
Eval Evaluation · 评估
给 AI 出考题、判卷、看分数。没有 eval 的 AI 项目就是在裸奔。
常用场景: 全流程
规划 / Planning
Agent 把目标拆成多步;能拆好任务的 Agent 才靠谱。
常用场景: Agent
反思 / Reflection
Agent 自己看自己的输出,发现问题再迭代。
常用场景: Agent
多智能体 Multi-Agent
多个 Agent 分工协作,如 CrewAI / AutoGen 。
常用场景: 复杂任务
长程任务 Long-horizon Task
需要 30 步以上才能完成的任务,2025–26 年前沿。
常用场景: Agent 前沿
Memory 长期记忆
让 Agent 跨会话记住事情,通常 = 向量库 + 摘要。
常用场景: Agent
Sandbox / 沙箱
给 Agent 一个隔离环境跑代码,避免它把生产搞崩。
常用场景: 工程
Prompt Injection
在数据里"植入恶意 prompt"劫持模型,Agent 时代头号风险。
常用场景: 安全
数据投毒
在训练 / RAG 数据里偷塞错误信息,污染输出。
常用场景: 安全
人在回路 Human-in-the-loop
高风险操作前必须人审,Agent 系统的安全保险。
常用场景: 治理
红队测试 Red Teaming
专门派人攻击模型找漏洞,Anthropic / OpenAI 上线前必做。
常用场景: 治理
AGI / ASI
AGI = 通用人工智能,ASI = 超级人工智能。术语滥用严重,慎用。
常用场景: 战略
Scaling Laws
"算力 / 数据 / 参数三者按幂律换性能",过去十年的指南针。
常用场景: 战略
Practice · 04 技巧

把 AI 用深 — 从心智模型到实战手感

这一章是实战集。前半部分讲"心智模型"——知道它是什么、什么时候用、为什么会出错;后半部分讲"动手技巧"——在 IDE 里和 AI 协作、把 Agent 跑起来、用 Skill 把工作流固化。不是教 prompt 套路,而是建立可迁移的判断力。

4.1能力边界 — 用 AI 之前必须先承认的事

它真正擅长什么

  • 语言驱动的脑力劳动: 总结、翻译、改写、扩写、归纳、提纲、邮件、文档。
  • 代码生成与解读: 模板代码、调试、解释陌生代码库、跨语言翻译。
  • 知识检索式问答(配合 RAG / 联网): 比传统搜索更直接给答案。
  • 结构化转换: 表格 ↔ 文本、纪要 → 决议清单、自然语言 → 结构化数据。
  • 创意与发散: 取名、起标题、改风格、写段子、做角色扮演。
  • 有限步骤推理: 配合推理模型(o1 / R1),数学 / 编程 / 复杂逻辑接近顶级人类。

它真正不擅长什么

  • 需要"绝对正确事实"的场景: 法律条款、医学剂量、财务数字。
  • 长链复杂推理: 超过几十步的连续逻辑容易跑偏。
  • 实时数据: 模型是"快照",训练后不会自更新。
  • 带强主观判断的决策: 战略、人事、伦理判断,只能辅助。
  • 非常长的精细记忆: 长文本中部信息容易被忽略。
  • 真正的物理直觉: 它没在物理世界中真活过(目前)。

4.2幻觉的真正原因(以及怎么对付)

🟡 通俗版

幻觉不是 AI 在"骗你",它根本不知道自己在骗你。它的工作是"猜下一个最像的词",当它没有真知识时,它仍然会猜出一个"看起来很像真知识的词"。

正确心智:把 AI 当作聪明但不老实的实习生 —— 它产出可以信任结构,但不能默认信任事实。

🔵 严谨版

幻觉源于:① 训练目标是 likelihood 而非 factuality;② RLHF 让模型偏好"自信地输出";③ 长尾知识在参数里被压得"模糊但仍可生成"。

对付幻觉的工程手段:RAG(把答案锚在外部权威源)、引用要求低温度采样多次采样投票(self-consistency)、用工具验证(让模型跑代码 / 查数据库 / 调 API 而不是凭脑回答)。

4.3提示工程 6 要点(够用了)

不要被"100 个 Prompt 套路"淹没。99% 的场景里,把这 6 件事做好就够了:

  1. 给角色: "你是一名资深审计师" 比 "请帮我分析" 效果好得多。
  2. 给目标和受众: "为了 X 用户,我需要 Y 输出"。
  3. 给约束: 长度、风格、格式、必须包含/排除的内容。
  4. 给例子(few-shot): 1–3 个示例输入输出。
  5. 让它先思考再回答: "请先列出推理步骤,再给最终答案。"或直接用推理模型。
  6. 给反馈,迭代: 不要追求第一次就完美,把模型当合作者。
高阶 · 上下文工程 Context Engineering
Karpathy 2025 年起反复提的概念:真正的 prompt 已经不是"写一句话",而是"工程化地组装上下文"。它包含:system prompt + 用户输入 + 检索资料 + 工具定义 + 历史对话 + 输出 schema。谁能把这一整包做好,谁的 AI 应用就好用。

4.4RAG vs Fine-tuning — 决策矩阵

这是企业上 AI 的第一个分叉。判断错了会浪费数月。

需求用 RAG用 Fine-tuning
知识每天都在变✅ 改资料库即可❌ 改一次要重训
需要给出处✅ 天然带引用❌ 内化的知识无源
需要改变模型说话风格❌ 风格难以靠资料改✅ 微调最有效
需要内化大量私有领域规则⚠️ 部分可行✅ 微调更稳
预算有限 / 团队没 ML 工程师✅ 主流路径❌ 门槛高
数据特别敏感✅ 向量库可本地✅ 也可本地

实操结论: 90% 的企业 AI 应用从 RAG 起步。只有当 RAG 反复调优都达不到效果、或要"改性格"时,才上 fine-tuning。

4.5什么时候该用 Agent

Agent 不是万能解。它适合的特征:

  • 任务是多步骤的(查 → 比 → 决 → 做)
  • 每一步成功有可机器验证的信号
  • 错误可恢复(可重试 / 回滚 / 跳过)
  • 用户愿意等几秒到几分钟

反过来,简单一次问答、强主观创意、需要严密法律保证的任务,不要用 Agent —— 它会增加错误面而不增加价值。

4.6Token 经济学 — 你必须建立的成本心智

🟡 通俗版

用 AI 的钱,本质上是按字数收费。一封中文邮件 ≈ 500 token,一篇长文 ≈ 5000,一本书 ≈ 200,000。

顶级模型 1000 token 几分钱到几毛钱。但聊得勤、上下文长,一个用户一个月可以烧掉几十块。做 AI 产品时,这个心智决定生死。

🔵 严谨版

定价分 input / output(output 通常贵 3–5 倍)。长上下文应用要重点关注 KV cache 命中率。多轮对话每轮重传历史,指数级增长。

降本组合拳:模型分级 routing + prompt / context caching + 蒸馏自研小模型 + 结构化输出

4.7评测 — 怎么知道你的 AI 应用真的好

很多团队上线后才发现"用户体感差"。原因是没建立评测体系。一个最小可用的评测套件:

  1. 金标准集(Golden Set): 100–500 条真实用户问 + 期望答。
  2. 对抗集: 故意构造的边界用例(歧义、矛盾、敏感、长文)。
  3. LLM-as-Judge: 用一个更强的模型按 Rubric(评分准则)给输出打分。一致性高、成本可控、可规模化。工具推荐:Braintrust。
  4. 真实流量回放: 上线后采样,人工标注一部分。
Take-away
没有评测的 AI 改进 = 没有秤的减肥。所有"感觉变好了"都是错觉,直到你有数据。

4.8IDE 协作技巧 — 让 AI 真正进入你的开发流

2025 起,AI Coding IDE 的形态已基本收敛:Tab 补全 + Inline 改写 + Composer 多文件 + Agent 自驱四件套。下面这些是无论 Cursor / Qoder / Windsurf / Copilot 都通用的"姿势"。

4.8.1 四种工作模式 — 该用哪个不要混

模式典型场景谁主导核心约束
Tab 补全写一行写一段,持续被补完不要无脑接受,看一眼再 Tab
Inline 改写(Cmd+K)选一段代码让 AI 改选区精确,指令具体(改什么不要含糊)
Composer / Chat跨文件功能开发、解释代码库协作给足上下文(@file / @folder / @web)
Agent 模式"做一个登录页 + 联调 + 测试"AI定边界、定验收、定回滚点

4.8.2 上下文给得对,效果翻倍

  • 显式 @ 指定文件: 不要指望 AI"自己去找",@ 一个核心文件比让它瞎搜更准更便宜。
  • 让它先说计划,再写代码: "先列改动点和风险,我确认后再动手。"避免一上来就改一片。
  • 建一份 AGENTS.md / .cursorrules / .qoder/rules: 把项目约定(技术栈、命名、测试命令、禁止操作)写进去,AI 每次自动读到。
  • Lint / 测试命令显式告诉它: "改完跑 npm run lint && npm test,失败自己修。"AI 自带验证闭环。
  • Diff 优先,而不是整文件重写: 让 AI 输出 patch 式改动,review 时只看红绿块,效率最高。

4.8.3 八条避坑铁律

  1. 不要让 AI 一次改 5 个以上文件还不让你 review。出错时定位代价指数级。
  2. 大改之前先 git commit。AI 偶尔会"清理"你不想清理的代码。
  3. 它写的注释 / 文档默认删掉。除非你要求,它会插一堆"// removed for clarity"之类的废话。
  4. 不要让它"修复 lint 警告"作为一整个任务。它会过度修改,变更范围爆炸。
  5. 不要让它"添加错误处理"除非你指明哪段。它会给所有路径加 try-catch。
  6. 类型错误优先。让它先把 type / lint 跑过,再讨论逻辑。
  7. 给负面例子。"不要写成这种风格 [代码片段]"比单纯的正面例子更有效。
  8. 失败一次就停下来思考,不要让它在错误上反复"再试一次"——大概率越改越坏。
主流 IDE 速记

Cursor: Composer + Agent 模式最成熟,生态最大;Tab 模型最丝滑。

Qoder: 工程级深度协作 + Skill / Subagent / 长上下文记忆,适合规模化项目和团队约定固化。

Windsurf: Cascade 模式偏 Agent-first,自动多文件;新手有时控制感不够。

Claude Code: 命令行 Agent,适合 SSH / 服务器场景,配合 plan mode 体验好。

GitHub Copilot: 企业兼容性、安全合规最佳,Agent 体验落后于 Cursor / Qoder 半步。

4.9Agent 与 Skill — 把工作流固化下来

"用 AI"和"用好 AI"的分水岭,是你能不能把反复在做的事包装成一个 Skill / 一个 Agent / 一组 MCP 工具,让下一次只说一句话就跑起来。

4.9.1 Agent 的 4 个基本设计模式

Anthropic 2024 的《Building effective agents》是这一节的圣经,提炼成 4 类:

  1. Workflow(工作流): 步骤固定、AI 在节点上做判断。最稳、最可控。能用 workflow 解决的不要上 agent。
  2. Routing(路由): 一个分类器决定走哪条 workflow。客服 / 工单系统的标配。
  3. Tool Use(工具调用): AI 在循环里反复"想 → 调工具 → 看结果 → 再想"。这是当下大多数"Agent"的实质。
  4. Multi-Agent(多智能体): 一个 orchestrator 派活给多个 sub-agent。复杂但贵,谨慎使用。

4.9.2 写一个好 Agent 的 6 条经验

  • 先写 prompt,再考虑加工具。 多数任务不需要工具,加工具反而是错。
  • 工具描述就是 prompt。 工具的 name / description / 参数说明决定 AI 会不会用、用得对不对。
  • 给 AI"看到结果"的能力。 让它能读自己刚才执行的输出,而不是黑盒。
  • 设置 budget(步数 / token / 时间)。 永远准备一个"超过就停"的开关。
  • HITL(Human-in-the-Loop)守在关键节点。 写文件、调外部 API、付费操作前要 confirm。
  • 把执行环境隔离。 沙箱 / Docker / 临时分支,出问题不污染主环境。

4.9.3 MCP — 让"工具"在不同 AI 之间通用

Model Context Protocol(Anthropic 2024 提出)是当下 AI 工具生态的标准协议。一句话理解:MCP 之于 AI 工具,等于 USB-C 之于设备。一个 MCP server 写一次,Claude / Cursor / Qoder / VS Code 都能用。

  • 能接 MCP 的优先接 MCP,不要再写各家私有插件。
  • 常见的 MCP server: filesystem / git / Postgres / Slack / 浏览器自动化(Playwright)/ 各家文档系统。
  • 团队约定: 把项目内部 SOP / 数据查询 / 部署脚本封装成自家 MCP server,让所有 AI 助手都能用同一套工具。

4.9.4 Skill — 把"反复要 AI 做的事"沉淀成一条命令

Qoder / Claude Code 都已支持 Skill 概念。一个 Skill = 一份 SKILL.md(说明触发条件、要做什么、产出格式) + 一组 assets(模板、规则、知识库)。

什么时候应该写 Skill:

  • 同一类任务你已经手把手指挥 AI 做过 ≥3 次(写周报、整理调研、刷新某个看板……)
  • 这件事有稳定的输入 → 稳定的产出格式
  • 结果有"好/不好"的判断标准,不是一次性消费。

SKILL.md 的最小骨架:

  1. Trigger — 触发词 / 子命令
  2. Inputs — 我会给你什么
  3. Steps — 你应该按什么步骤来
  4. Outputs — 产出格式 / 落到哪里
  5. Constraints — 不要做什么 / 边界

这一份 ai-knowledge-hub.html 本身就是一个 Skill 的产物 — 每次说"更新 AI 资讯",这个页面就被增量刷新一次,而不需要每次重写规则。

4.9.5 Subagent — 长任务里"借另一个脑子"

Qoder / Claude Code 还引入了 Subagent:在主对话里 spawn 一个子 agent 去做有明确边界的活(代码审查、专项探索、深度研究),完成后只把结论带回来,不污染主对话上下文。

  • 典型场景: code-review / explore-codebase / research / plan / browser-automation。
  • 关键好处: 主对话保持简洁;subagent 上下文窗口独立,可以"烧"得更狠。
  • 避坑: 不要 spawn 嵌套 subagent;不要让 subagent 自己去改你的代码(让它返回 plan,主 agent 来动手)。

4.10把 AI 嵌进每天的工作 — 一周习惯清单

Take-away · 让杠杆落地

每天: 起一个 Skill / 一个 prompt 模板,把今天最频繁的一类小活包进去。

每周: 看一次"我哪几件事还在手动做",问自己:这件事是 prompt 不够好、缺工具、还是任务本身不该自动化?

每月: 给自己做一份 AI 工作流复盘 — 哪些 Skill 在用、哪些已经废弃、有什么新的 IDE / Agent / MCP 工具可以补进来。

核心心智: 最值钱的不是会用 AI,而是能持续把"重复的脑力劳动"转成"一次性写好的 Skill"。这个习惯一旦养成,你的杠杆就和别人不在一个量级了。

4.11机器学习类型选型 — 给非算法同学的判断框架

当你和算法/工程师讨论方案时,常会听到"用监督学习训一个""走无监督聚类""上 RLHF"…这些不是技术黑话,而是不同任务条件下的方法选择。掌握这个判断框架,你就能在协作中判断对方方案的合理性,也能更精准地提出业务诉求。

🟡 通俗版

三种 ML 的差异,本质是你能给模型什么样的反馈:

  • 监督学习 = 给"题目+答案" → 模型学会做题(像刷题考试)
  • 无监督学习 = 只给题目无答案 → 模型自己找数据中的规律(像做田野调查)
  • 强化学习 = 说不清答案,但能打分 → 模型试错+被反馈(像训练宠物)
🔵 严谨版

监督学习(Supervised Learning):有标签数据 (x, y),目标最小化预测损失。

无监督学习(Unsupervised Learning):仅有 x,目标发现潜在结构(聚类/降维/密度估计)。

强化学习(Reinforcement Learning):Agent 与 Environment 交互,通过 Reward 信号优化策略 π,最大化累积奖励 E[Σγ^t·r_t]。

选型决策树

判断条件该用什么典型场景
能给每条数据明确"正确答案",且标注成本可控监督学习情绪分类、垃圾邮件、医学影像、推荐系统
没答案,但想从数据中发现结构无监督学习用户分群、异常检测、话题聚类、降维可视化
没答案,但能判断结果好坏(给奖励信号)强化学习游戏 AI、自动驾驶、机器人控制、ChatGPT 的 RLHF
任务复杂 + 需要业务理解 + 数据有限直接调 LLM大多数业务冷启动,靠 prompt 和 few-shot

强化学习是怎么"运作"的

RL · 4 要素循环

Agent(智能体)做动作 → Environment(环境)返回新 State(状态) + Reward(奖励)→ Agent 调整策略 → 下一轮…

关键点:不需要告诉 AI"正确答案",只需要定义"什么是好结果"(奖励函数),让它自己探索 + 试错 + 总结策略。

ChatGPT 的 RLHF 就是这种模式:GPT 对一个问题生成 4 个回答 → 人工排序偏好 → 训练"奖励模型"模仿人类偏好 → 强化学习让 GPT 优化输出去拿高分。这就是为什么 ChatGPT 比 GPT-3 更"懂得讨好人"。

AI 产品的典型演进路径

  1. 冷启动(无数据) → 直接 LLM-as-Judge(用大模型当评估者),无需训练
  2. 积累数据(少量人工修正)Human-in-the-Loop 持续优化 prompt,人参与回路
  3. 数据丰富(>3000 条标注) → 微调 BERT 类小模型降本(API 费用 → 本地推理免费)
  4. 用户反馈丰富 → 引入 RLHF,让模型符合用户偏好
给设计师的口诀

有答案 → 监督学习   没答案 → 无监督学习

有反馈 → 强化学习   都不想自己训 → 直接调大模型

设计师不需要自己训模型,但要理解什么任务该用什么方法 — 这样在和算法/工程师协作时,你能判断方案是否合理,也能更好地提出业务诉求。

Tools · 05 工具

值得知道的 AI 工具地图

按"用途"组织,每类附"什么场景选什么"的快速决策提示。

国内可用需科学上网 标签会简单提示访问性。

① 通用对话与全能助手 最常用

怎么选: 严肃工作 / 长文 → Claude;创意 / 多模态 → ChatGPT;超长资料 → Gemini;中文办公 → 豆包 / Kimi;省钱 / 推理 → DeepSeek。
  • ChatGPT 需科学上网
    OpenAI,综合能力顶级,生态最丰富。
  • Claude 需科学上网
    Anthropic,长文 / 代码 / 安全感最强。
  • Gemini 需科学上网
    Google,超长上下文。
  • DeepSeek 国内可用
    国产开源,推理(R1)接近一线闭源,成本极低。
  • Kimi 国内可用
    月之暗面,长文阅读见长。
  • 豆包 国内可用
    字节,中文体验流畅。
  • 通义千问 国内可用
    阿里,Qwen 系列开源。
  • 智谱清言 GLM 国内可用
    国产代表,有 AutoGLM。

② AI 编程与开发 生产力革命

怎么选: 工程级深度协作 → Cursor / Qoder;企业兼容 → GitHub Copilot;命令行重度 → Claude Code;一句话出页面 → v0.dev。
  • Qoder
    面向工程的 AI Coding IDE / CLI。
  • Cursor
    最流行的 AI IDE 之一(Composer + Agent)。
  • GitHub Copilot
    微软 / GitHub,集成度最深。
  • Windsurf
    主打 Agent-style coding 的 IDE。
  • Claude Code
    Anthropic 命令行编程 Agent。
  • v0.dev
    Vercel,一句话生成 React 页面。

③ 图像生成与设计 视觉

怎么选: 概念 / 海报 / 审美天花板 → Midjourney;中文人像 / 国风 → 即梦 / 可图;开源可控 → Flux / SD;商品图电商 → 通义万相。
  • Midjourney 需科学上网
    审美天花板。
  • 即梦 国内可用
    字节,中文语义好,人像稳。
  • 可灵图像 / 可图 国内可用
    快手,东方审美。
  • Stable Diffusion / Flux
    开源生态,本地部署。
  • Photoshop AI / 通义万相
    嵌入设计软件 / 商品图电商。

④ 视频生成 2024–2026 爆点

怎么选: 行业基准 → Sora;中文场景 + 性价比 → 可灵 / 即梦;素材整合工作流 → Runway;带原生音轨 → Veo 3。
  • Sora 需科学上网
    OpenAI,行业基准。
  • 可灵 Kling 国内可用
    快手,中文圈口碑佳。
  • 即梦视频 国内可用
    字节,与素材生态打通。
  • Runway
    老牌 AI 视频,工具流完整。
  • Veo / Veo 3 需科学上网
    Google,带音轨生成。

⑤ 写作 / 文档 / 知识管理

怎么选: 海外协作 → Notion AI;国内办公 → 飞书 / 钉钉 / WPS AI;会议记录 → Otter / 通义听悟。
  • Notion AI
    嵌入式知识协作。
  • 飞书智能伙伴 国内可用
    企业内嵌入文档 / 会议 / IM。
  • 钉钉 AI 助理 国内可用
    阿里生态。
  • WPS AI 国内可用
    国产 Office 全家桶 AI。
  • Granola / Otter
    会议自动转写 + 总结。

⑥ 检索 / 研究 / 资料

怎么选: 日常查带引用 → Perplexity / 秘塔;深度调研 → ChatGPT / Gemini Deep Research;读私人资料库 → NotebookLM。
  • Perplexity
    AI 搜索引擎,带引用。
  • 秘塔搜索 国内可用
    国产研究型搜索。
  • ChatGPT / Gemini Deep Research
    长任务研究报告。
  • NotebookLM
    Google,资料问答 + 播客。

⑦ Agent / 自动化

怎么选: 通用任务 → Manus;编程任务 → Devin;浏览器操作 → Operator;无代码搭 → Coze / Dify;企业流自动化 → n8n / Zapier。
  • Manus 国内
    通用 Agent。
  • Devin
    编程 Agent。
  • OpenAI Operator
    浏览器型 Agent。
  • Coze 扣子 国内可用
    字节,无代码搭 Agent。
  • Dify
    开源企业 LLM 应用平台。
  • n8n / Zapier with AI
    工作流自动化。
  • Braintrust
    LLM 评测平台,支持 Rubric 定义、A/B 对比、LLM-as-Judge 自动评分。

⑧ 语音 / 数字人

怎么选: 多语种克隆 → ElevenLabs;数字人视频 → Heygen;中文会议 → 通义听悟。
  • ElevenLabs
    高质量克隆与多语种 TTS。
  • Heygen
    数字人视频。
  • 通义听悟 国内
    会议音频转文字 + 摘要。
News · 06 资讯

最新资讯

ai-knowledge-hub Skill 持续填充,每次刷新保留最近 8–12 条。

2026-05-22模型
Anthropic 发布 Claude 4.5 Opus,工程能力再上一档
长链代码任务、Agentic SWE 通过率显著提升,200K 上下文 + 工具调用稳定性继续作为核心卖点。延续了"工程严肃工作首选"的口碑定位。
来源 · Anthropic News
2026-05-15模型
OpenAI 推出 GPT-5 系列,推理与多模态全面整合
把"对话模型"和"推理模型"并轨成一条产品线,Pro 档默认开启 reasoning effort 自适应。开发者侧 API 同步上线,定价继续往下走。
来源 · OpenAI News
2026-05-08模型
Google 发布 Gemini 2.5 Ultra,主打"百万上下文 + 实时多模态"
长视频理解、屏幕共享原生交互、Live API 延迟进一步压缩。Workspace 全家桶同步接入,与 Notebook LM 形成完整知识工作流。
来源 · Google DeepMind
2026-04-30国产
DeepSeek-V4 / R2 同时开源,推理性价比再压低
MoE 结构进一步稀疏化,激活参数下降但 benchmark 不掉。开源生态迅速跟进,本地化部署成本接近"小模型"档,继续冲击全球开源格局。
来源 · DeepSeek
2026-04-22国产
阿里通义千问 Qwen3-Max 发布,思考与非思考模式融合
单模型可在"快答"和"深度思考"之间动态切换,无需切换模型 ID。对中文长文档、代码、Agent 编排场景都做了针对性优化,继续作为开源生态主力。
来源 · Qwen Blog
2026-04-15国产
智谱 GLM-5 主推 Agent 模式,AutoGLM 全面开放
围绕"通用 Agent + 自动操作"叙事,把浏览器执行、文档处理、数据分析整合到统一调度器。订阅制 + API 双轨,瞄准 to B 自动化市场。
来源 · 智谱 AI
2026-05-18IDE
Cursor 2.0 升级 Composer Agent,长任务自动多文件改动稳定性提升
Agent 模式支持长任务分阶段汇报、自动 commit checkpoint、原生 MCP 工具接入。配合更便宜的 sub-1¢/req 模型档位,让"AI 自主完成 issue"接近可用。
来源 · Cursor Blog
2026-05-25IDE
Qoder 持续打磨 Skill / Subagent 体系,主打"团队级 AI 协作 IDE"
把 Skill(SKILL.md + assets)、Subagent(代码审查 / 探索 / 研究 / 计划)、长上下文记忆做成一个统一栈,配合 MCP 形成可复用的工程范式。
来源 · Qoder
2026-05-10Agent
Anthropic 推出 Claude Code 2.0,plan mode + 长会话压缩成为标配
命令行 Agent 加入"先出计划再执行"的强默认、subagent 并行执行、上下文自动压缩。配合 Computer Use 升级,继续做"可以无人值守跑半天"的方向。
来源 · Anthropic News
2026-05-05Agent
MCP 生态进入"事实标准"阶段,主流 IDE 全部内置
Cursor / Qoder / VS Code / Claude Desktop / Cline 默认支持 MCP server 配置。Filesystem / Git / Postgres / Playwright / Slack 等核心 server 已成标配,企业开始把内部 SOP 包成自家 MCP。
来源 · MCP 官方
2026-04-28视频
Sora 2 Pro 与 Veo 3.1 进入贴身竞争,30 秒带音轨成标配
两家都把"原生音轨 + 多镜头连贯 + 物理一致性"作为新一代卖点。专业创作者已经在用混合工作流(Sora/Veo 出镜头 + Runway 后期 + ElevenLabs 配音)。
来源 · Sora · Veo
2026-05-12视频
国产视频模型可灵 / 即梦同步迭代,中文创作生态继续壮大
可灵 2.5 强化运镜与角色一致性,即梦视频接通字节素材生态(剪映 / TikTok 创作工具)。中文场景下,国产组合的性价比仍然显著优于海外。
来源 · 可灵 Kling · 即梦
2026-05-20行业
Test-time Compute 成为评测主流维度,推理预算取代单纯参数量
Chatbot Arena / Artificial Analysis 等榜单普遍引入"固定预算下的得分"维度。模型选型不再只问"参数多大",而是"在 X 美元 token 预算下谁更好"。
Advanced · 07 进阶

常见误区 · FAQ · 延伸阅读

看完前 6 章,你应该已经在 AI 上"建立了框架"。这一章用来纠偏、答疑、推进一步。

7.1常见误区 — 听到这些话要警觉

"AI 已经具备意识 / 已经达到 AGI"
目前所有公开模型都还没有意识、没有持续记忆、没有跨任务的稳定目标。它们在某些 benchmark 上接近人类,但 AGI 的定义本身就有争议。看到"达到 AGI"的报道,先看具体在哪个测试上、谁说的、利益相关。
"参数越大模型越好"
早期成立。现在不一定:GPT-4o 比 GPT-4 小但综合体验更好;DeepSeek-V3 用 MoE 让有效参数与激活参数解耦,推理只激活一小部分。新的判断维度是训练数据质量、训练方法(RL / 推理训练)、推理算力分配,而不只是参数量。
"AI 会取代所有白领工作"
短期看会替代具体任务,而非整个工作。研究显示更可能的图景是"AI 把每个岗位中的可自动化任务剥离出去",剩下的部分交给人。结果不是"失业",而是"职责重组"——但伴随短期阵痛。
"开源模型一定不如闭源"
2024 之前是。2025 起,DeepSeek-V3 / R1、Llama 4、Qwen 系列在多数场景已能对齐顶级闭源,开源生态让"自部署 + 私有数据"成为可行选择。具体能力差距随模型迭代每月都在变,以最新评测为准。
"Prompt 越长越详细越好"
不一定。过长的 prompt 会:① 让模型注意力分散("中间被忽略"现象);② 增加成本;③ 给冲突指令时表现下降。原则是简洁、结构化、有优先级
"Agent 已经可以替代员工"
2026 阶段,Agent 在边界清晰、可验证、低风险的任务上接近可用(资料整理、定期报告、简单查询),但在需要长链一致性、人际判断、模糊目标的任务上仍不稳。盲信 Agent 会带来真实业务损失。
"模型联网就不会幻觉了"
联网降低了"凭空编造"的概率,但不消除。模型会:误读检索结果、合成多篇资料导致错误推论、对低质量来源不警觉。RAG 系统必须配 reranker、引用要求、防注入,否则只是把幻觉问题换了个地方。
"中国 AI 落后美国 X 年"
"X 年"是个被滥用的简化。现实更像:顶级闭源能力美国领先 6–12 个月,开源 + 推理模型中国已经追平甚至局部领先,应用层 + 多模态各有所长。把 AI 视作单一指标"领先 N 年"会错过真实图景。

7.2高频问答

我做 AI 产品 / 写公司 AI 战略,应该最看重什么?
三件事的优先级:(1)定义清楚要解决的真实问题 —— 不是"我们要用 AI",而是"用户在什么场景下卡住了,AI 能帮上";(2)建立评测体系 —— 没评测就没改进;(3)算清成本曲线 —— 单次 token 成本 × 用户行为模式 = 单位经济模型,这决定了产品能不能跑通。
选模型时,看哪个排行榜最有参考价值?
对外:Chatbot Arena(LMSys,真人盲测投票,最接近实际体验);Artificial Analysis(性能 / 价格 / 速度三维对比)。对内:你应该用自己业务的 Golden Set 评测,公开榜单只是粗筛。
我们公司想私有化部署模型,从哪里开始?
基本路径:① 选开源基座(Qwen / DeepSeek / Llama)→ ② 评估算力(7B/14B 单卡可跑,72B+ 需多卡)→ ③ 部署框架(vLLM / SGLang / Ollama)→ ④ 加 RAG 接私有数据 → ⑤ 加 Guardrails 上线。不要从训练自己的模型开始,99% 的场景下用现成模型 + RAG / 微调就够。
普通用户日常用,该订阅哪一个?
如果只能选一个:海外可用且工作严肃 → Claude Pro;国内 + 综合性价比 → 豆包 / 通义 / Kimi 之一;编程或重度推理 → ChatGPT Plus 或 DeepSeek API。绝大多数人不需要订阅 3 个,集中用一个 + 清晰的工作流更重要。
我担心数据隐私,使用云端 AI 安全吗?
主流厂商都提供"数据不用于训练"的承诺(API 默认、ChatGPT Team / Enterprise、Claude for Work)。真正敏感的数据(医疗、金融、未公开商业)依然推荐私有化部署 + 本地向量库。中间档场景可用SaaS + 数据脱敏
非技术人怎么持续跟上 AI?
每周固定 30 分钟做这三件事就够了:① 看 1 篇 Anthropic / OpenAI / Google DeepMind 官方博客(最权威);② 听 1 期 podcast(Lex Fridman / Dwarkesh / 黄祎杰);③ 真的用 AI 干一件以前不会让 AI 干的事(亲身经验远胜读 100 篇文章)。

7.3延伸阅读 — 想再深一层时看这些

  • 视频系列(强烈推荐):
    • Andrej Karpathy "Intro to LLMs" / "Let's build GPT" / "Deep Dive into LLMs"(YouTube,非技术友好的最佳起点)
    • 3Blue1Brown "Neural Networks" 系列(可视化讲解)
  • 关键演讲:
    • Ilya Sutskever NeurIPS 2024 演讲(关于预训练终结与未来三个方向)
    • Sam Altman / Dario Amodei 各类访谈(对前沿走向的判断)
  • 论文(可读摘要):
    • 《Attention Is All You Need》(2017,Transformer 原作)
    • 《Scaling Laws for Neural Language Models》(2020,OpenAI,讲清"为什么变大就变强")
    • 《Training language models to follow instructions with human feedback》(2022,InstructGPT,RLHF 起点)
    • 《Chain-of-Thought Prompting》(2022) 与《Let's Verify Step by Step》(2023,推理监督)
    • Anthropic《Building effective agents》(2024,Agent 设计模式综述)
  • 每周必看的官方博客:
  • 资讯聚合(中文):
    • 机器之心 / 量子位 / 智源 / 爱范儿 AI 频道(可批量浏览,但需要自己过滤营销稿)
    • "AI 早报" 类播客(节奏快、信息密度高,适合通勤)
  • 动手清单(亲身经验比阅读重要 10 倍):
    • 把一周内 3 件让你"懒得做"的小事(整理纪要、写周报、查资料)交给 AI 干一次
    • 挑一个你熟悉的领域,用 NotebookLM / Claude Projects 建一个"私人图书馆"
    • 用 Cursor / Qoder 让 AI 帮你写一个能跑起来的小工具,哪怕只是一个 HTML 计算器
    • 用 Sora / 可灵生成一段 5 秒视频,用 Suno 写一首歌,体会"创作门槛塌陷"是真的

7.4持续学习路径 — 从入门到自如

三阶段建议

阶段一(0–4 周)· 建立直觉: 把 01–04 章读两遍;每天用 AI 干一件具体的事;学会写一个"角色 + 目标 + 限制 + 例子"四件套的提示词。目标是不再害怕、不再仰视

阶段二(1–3 个月)· 进入工作流: 选 1 个主力模型 + 1 个开源模型(用于隐私场景);在 1 个真实项目里使用 RAG 或 Agent;开始关注 token 成本与评测。目标是能为团队做出有效选型决策

阶段三(3 个月+)· 形成判断: 跟踪 2–3 个一手信源(Anthropic/OpenAI/DeepMind 博客 + 一个独立 Newsletter);每月写一份"我们这个月在 AI 上学到了什么"的内部分享。目标是从使用者变成判断者,从跟随到引领

"我相信能预测的人,会越来越接近真理。" —— Ilya Sutskever(意译)

看到这里的你,已经走过了大多数人愿意走的路。剩下的,是把"读完"变成"用好",再变成"做出"。

Notebook · 08 我的笔记本

我的 AI 学习沉淀

这是一份私人化的 AI 学习剪贴本。来源可能是文章、播客、视频、对话、自己的随笔。 每条都尽量保留原文出处 + 一段 AI 自动生成的解读 + 我的标签。 新条目会被 AI 解析后,把关键术语回流到「03 词典」、产品回流到「05 工具」、 时效新闻回流到「06 资讯」,让笔记本不只是仓库,也是知识网络的入口。

08.1笔记列表

08.2如何往这里加内容

这个模块由 ai-knowledge-hub Skill 维护。给我以下任意一种输入,我会自动入库:

  • 一段文字 / 一个链接 —— 我会抓取并提炼成一条笔记。
  • 一个文件路径(如本地 PDF / Markdown) —— 我会读取并解析。
  • 一段你自己的输出 —— 标为"原创沉淀"。

入库后,我会同步分析:

  • 是否有未收录的 AI 术语 → 自动加进「03 词典」
  • 是否提到具体产品 / 模型 → 自动加进「05 工具」
  • 是否是时效新闻 → 自动加进「06 资讯」

每个对话回合结束时,如果我察觉你提到了 ≥3 个未收录概念,会在回复末尾灰色提示一行,你回"加"即可批量入库。少于 3 个时我会安静,不打断节奏。