AI 知识脉络

面向非技术读者的持续更新科普站

🧠

入门认知

从零理解 AI 是什么、怎么来的、核心发展脉络

📖

查阅工具

随时查概念词典、找好用的 AI 工具

⚡

技巧进阶

实操方法与深度进阶内容

📰

动态资讯

最新 AI 行业动向与重要事件

📝

我的笔记

个人学习记录与操作手记

Start Here · 起步

看懂 AI:从本质,而不是从新闻

这份文档不是新闻汇编,而是一张思维地图。它会试图让你在四个层面真正建立对 AI 的理解:它是什么、怎么走到今天、能与不能、如何深度使用。

0.1这份文档对谁有用

非技术背景但需要在工作中和 AI 长期共处的人:产品经理、设计师、运营、市场、业务、HR、研究员、管理者。你不写代码,但你做的产品、服务、决策都和 AI 有关。

它不是百科,也不是深度学习教材。它是一份认知装备:看完之后,在听到任何 AI 新名词时,你能立刻把它放到正确的位置;在选 AI 工具、设计 AI 产品、读 AI 报道时,你不会被术语和过度营销带偏。

0.2这份文档的写作原则

双版本 · Casual + Rigorous

每个核心概念都给两个解释 ——
🟡 通俗版:用日常生活的比喻讲清"是什么感觉";
🔵 严谨版:用准确的术语讲清"在技术上为什么"。
你可以只读一边,也可以两边对读。两种都看,你才能在和工程师讨论时不掉队、在和业务讨论时不卡壳。

0.3怎么读

第一次: 顺着 01 → 04 读一遍,重点理解"本质"和"技巧"。这两章决定了你之后的判断力。
查询时: 把 03 词典当随手字典,看到陌生术语就翻。
做选型时: 翻 05 工具,里面有"什么场景选什么"的决策表。
追新闻时: 看 06 资讯,这一章由 Skill 自动刷新。
深入学习: 看 07 进阶,有常见误区、FAQ、延伸阅读。

0.4叙事立场

"如果你能足够好地预测下一个词,你就必须理解这个世界。" — Ilya Sutskever 反复强调的核心观点

这份文档继承 Ilya Sutskever 的视角:智能不是魔法,是对世界的压缩。从这一句话出发,你会发现今天 AI 的几乎所有现象——能力、局限、幻觉、规模法则、推理模型、Agent——都能放在同一张图里被理解。

Essence · 01 本质

AI 在做的,只有一件事

所有大模型——ChatGPT、Claude、DeepSeek、豆包、Kimi——表面千差万别,底层做的事情其实只有一个。把这一件事看穿,后面所有概念都能站住。

1.1智能即压缩 — 反直觉的核心观点

🟡 通俗版

给你大半本《红楼梦》,挡住下一个字让你猜。要猜得准,你需要的不只是"中文知识",而是要理解人物关系、情节走向、当时的情绪、作者风格、清代的常识——必须真的"懂这本书",才能猜得准。

大模型的训练,就是逼一个机器在人类几乎所有的文字上玩这个猜字游戏。猜得越准,它就越得"懂这个世界",哪怕它从没见过真实世界。

🔵 严谨版

基于信息论:无损压缩 ≡ 最优概率建模。Shannon 给出的最优编码长度等于 −log P(x);最大似然训练(LLM 的训练目标)在数学上就是最小化数据的负对数似然,即把训练数据压缩到最短的编码。

要在大规模、高度结构化的数据(自然语言)上做到最优压缩,模型必须发现数据中的潜在规律、概念结构、因果关联、世界知识。这些"被压缩进参数里的规律",在使用时以"理解"的形式表现出来。

Take-away

AI 不是数据库,不是搜索引擎。它是一个"世界的压缩包",在使用时被解压。它的"理解"是统计层面的,但当统计达到极致,统计就会越界变成理解 —— 这是过去十年最核心的发现。

1.2下一个 token 预测 — 唯一在做的机制

🟡 通俗版

把 ChatGPT 想成一个超强的词语接龙机。每次只猜下一个字 / 词,猜完接到原句尾巴上,再猜下一个,直到模型决定"该停了"。

看起来很笨,但当模型大到一定程度、训练数据多到一定程度,这种"傻接龙"竟然涌现出了写代码、做计划、解题的能力。这是过去十年最让人意外的事。

🔵 严谨版

Auto-regressive language modeling:模型在每一步给出整个词表上的概率分布 P(x_t | x_<t),按温度采样选取下一个 token。Transformer 通过 self-attention 让每个位置都能"看到"前面所有位置,从而高效建模长程依赖。

这个看似单一的目标在规模放大后(参数 / 数据 / 算力同步增长)展现出 emergent abilities — 算术、思维链、代码、跨语言迁移等能力在小模型上没有,在大模型上突然出现。

  输入: "今天天气真" → 模型 → "好"
  输入: "今天天气真好" → 模型 → ","
  输入: "今天天气真好," → 模型 → "我"
  ... 直到模型预测出 <EOS> 停止符。

1.3神经网络与参数 — 一个巨大的可调函数

🟡 通俗版

把神经网络想成一台有万亿个旋钮的机器。训练就是不断调这些旋钮,让预测越来越准。"参数量"就是旋钮数。

GPT-4 据称约 1.8 万亿个旋钮,DeepSeek-V3 约 6710 亿,Llama-3 405B。旋钮越多,能记住和压缩的世界规律越多 —— 但成本也指数级上升。

🔵 严谨版

现代 LLM 是基于 Transformer 的多层神经网络,参数主要分布在注意力(QKV 投影)和 MLP 前馈层。每一层把输入向量经线性变换、注意力混合、非线性激活后,产出更高级表征。

训练采用反向传播 + AdamW,用大规模并行算力(数千-数万张 GPU,常见 H100 / H200 / TPU)在数月内完成。MoE 架构通过"按需激活子专家"让有效参数大,推理时只用一小部分,显著降低成本。

1.4三块基石与规模法则

数据(Data): 互联网文本、代码、书籍、论文、对话。优质数据正在被快速用尽。
算力(Compute): 主要由 GPU(尤其 NVIDIA H100/H200)提供。训 GPT-4 级模型需数万张 GPU、跑数月、烧掉数千万到一两亿美元。
算法(Algorithm): 核心是 2017 年的 Transformer。它解决了"如何让模型同时关注一段文本中所有词的关系"。今天所有 LLM 都是它的后代。

Scaling Laws · 规模法则

OpenAI、DeepMind 在 2020 前后验证了一个惊人的规律:把数据 × 算力 × 参数三者同步放大,模型能力以可预测的方式持续提升。这是过去十年所有大公司"砸钱训大模型"的底层逻辑。但 2024 年起曲线开始变缓,业界正寻找新增长来源。

1.5模型怎么"长成"现在的样子 — 训练流水线

一个能用的大模型不是"训一次就完了",而是要走完三段式训练流水线。理解这一点,你才能看懂"为什么 ChatGPT 比原始 GPT 好用""为什么 Claude 风格更端正"。

[Stage 1] 预训练 Pre-training
  海量无标注文本 → 学会"接龙" → Base 模型(会接龙,但不会聊天)

[Stage 2] 监督微调 SFT
  人写的高质量"问—答"样例 → 学会"听指令" → Instruct 模型

[Stage 3] 偏好对齐 RLHF / DPO / RLAIF
  人(或 AI)给回答打分 → 学"人喜欢的说话方式" → Chat 模型(可发布)

🟡 通俗版

预训练像让一个孩子读完全人类的书 —— 它知道很多,但不会和你对话;
SFT 像有个老师手把手教它"被问就该这么回答";
RLHF 像不停打分:"这答得人类爱听 +1 / 这答得让人不舒服 -1",慢慢把它调成有礼貌的助手。

🔵 严谨版

Pre-training:next-token prediction on web-scale corpora。
SFT:在人写的 (prompt, response) 对上做监督学习,形成 instruction following 能力。
RLHF:训一个奖励模型,然后用 PPO 等算法把语言模型推向"人类偏好高分"方向。
DPO:RLHF 的简化替代,直接在偏好对上优化,不需单独训奖励模型。
RLAIF:Anthropic Constitutional AI 的核心,用 AI 自己给的反馈替代部分人类标注。

关键洞察

Base 模型决定了"它知道什么";SFT + RLHF 决定了"它说话怎么样"。同一个 Base 经不同 RLHF,可以做出不同性格(温和 / 严谨 / 幽默)的助手。这也是为什么 Claude、ChatGPT、Gemini 在能力相近时风格如此不同。

1.6推理模型 — 让 AI 在回答前"先想想"

2024 年 9 月 OpenAI 发布 o1,2025 年 1 月 DeepSeek 发布 R1,标志着 LLM 的新范式:Test-time Compute(推理期算力)。

🟡 通俗版

过去的模型像"问就秒答"的学生 —— 你问它就脱口而出。但难题需要先在草稿纸上演算。

推理模型给自己开了一张看不见的草稿纸:在你看到答案之前,它已经在内部"思考"了几十秒到几分钟,把推理链展开,反思、回退、再试。所以它在数学、编程、复杂逻辑上突然变强了。

🔵 严谨版

推理模型在训练阶段用 RL 教模型"产生长 CoT 后再给最终答",在推理阶段把更多算力投入到 token 生成(几千到几万 thinking tokens)而不是单纯增大模型。

这开辟了"训练算力 vs 推理算力"的新平衡 —— 可以选在更小的基座上,通过推理期生成更长 CoT 来获得高分。这是 DeepSeek-R1 在低成本下追平 o1 的关键路径。

什么时候用推理模型: 数学题、复杂代码、严密逻辑、需要规划的任务。
什么时候不用: 简单问答、闲聊、文案润色 —— 它会变慢且变贵。

1.7多模态 — 把"看图"和"看文字"放在同一个空间

🟡 通俗版

多模态模型(GPT-4o、Gemini、Claude 4)可以同时看图、读字、听声、看视频。它把图像和文字翻译到同一种"内部语言",所以你贴一张图它能描述、改、推理,贴一段文字它能画图。

🔵 严谨版

核心思路是共享 embedding 空间:用 vision encoder(如 CLIP/ViT)把图像编为 token,用 audio encoder 把语音编为 token,然后和文本 token 在同一个 Transformer 里被处理。这让模型可以无缝在多种模态间推理(visual reasoning, video understanding, speech-in/speech-out)。

1.8Agent — 让 AI 真的会"做事"

🟡 通俗版

聊天 AI 是"会说",Agent 是"会做"。给它一个目标(比如"帮我订一个周五去上海的机票,价格 1000 以内"),它会自己拆任务、查信息、点按钮、出结果。中间几十步的决策不需要你管。

🔵 严谨版

典型 Agent 架构:Goal → Plan → Tool Use → Observation → Reflect → Replan → ... 循环。模型通过 function calling / tool use 协议调用外部能力(浏览器、代码执行、文件系统、API)。MCP(Model Context Protocol)正成为 Agent 调外部工具的事实标准协议。

当前 Agent 的瓶颈不在模型智能,而在长程一致性(几十步后还能不偏)、错误恢复、权限边界。

← 上一章 00 起步下一章 → 02 脉络

Timeline · 02 脉络

从达特茅斯到 Agent — AI 的三次浪潮

了解一项技术的来路,你才能判断它将去往哪里。这一章只挑真正改变了行业方向的事件。

2.1三次浪潮

第一次(1950s–1980s):符号主义。 让计算机像人一样使用规则、逻辑、知识库。专家系统是代表。最终因"规则写不完"停滞,进入第一次"AI 寒冬"。

第二次(1990s–2010s):统计学习。 SVM、决策树、随机森林。AI 主要解决分类、推荐、广告等问题,工业上用得很广,但不是通用智能。

第三次(2012–至今):深度学习与大模型。 这一次不一样 —— 它在通往通用智能的路上,从识别猫到对话写代码,核心是神经网络 + 大数据 + 大算力。

2.2关键时间线

1956

达特茅斯会议

"人工智能"这个词被正式提出。乐观情绪开启了第一次 AI 热潮。

2012

AlexNet 在 ImageNet 上夺冠 — 深度学习革命起点

Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton 提出的深度卷积网络以巨大优势赢下图像识别比赛。第一次证明:神经网络 + GPU + 大数据 = 可以工作。

2016

AlphaGo 击败李世石

深度强化学习的标志性事件。AI 第一次在被认为"靠直觉"的领域战胜人类顶尖。

2017

Transformer 架构发布("Attention Is All You Need")

Google 八位研究者的论文。今天所有大模型的"祖宗架构"。

2018–2020

GPT-1 / GPT-2 / GPT-3

GPT-3(1750 亿参数)第一次让外界感受到"涌现能力"。

2022.11

ChatGPT 发布

背后是 GPT-3.5 + RLHF。5 天破百万用户,2 个月过亿,历史最快增长产品。

2023.03

GPT-4 发布 + 国产大模型集体爆发

百度文心、阿里通义、智谱 GLM、月之暗面 Kimi、字节豆包、DeepSeek、零一万物、百川……"百模大战"开启。Meta 开源 Llama 系列改变行业格局。

2024.02

Sora — 视频生成进入新阶段

OpenAI 用 diffusion + transformer 让 AI 视频从"几秒抖动"跃升到"分钟级、有运动一致性"。

2024.05

GPT-4o — 真正的多模态实时交互

语音、图像、文字同进同出。延迟降到接近人类对话。

2024.09

OpenAI o1 — 推理模型范式开启

"先想后答"。在 AIME、Codeforces 上跨级提升。

2024.11–12

Anthropic Claude 3.5 + Computer Use

让模型直接"操作电脑屏幕"。Agent 走向真实环境的关键一步。

2025.01

DeepSeek-R1 — 中国推理模型对齐 o1

开源、低成本、能力对齐 OpenAI o1。一夜之间触发美股 AI 板块剧烈调整,改变全球 AI 叙事。

2025

Agent 元年 — Manus / Devin / Operator 浪潮

"AI 真的会做事"成为产品主线。无代码搭建 Agent 平台(Coze / Dify)迅速普及。

2026

推理模型常态化 + Agent 进入企业核心流程

o3/o4 一代、Claude 4/5、Gemini 3、DeepSeek V3/V4、Qwen 系列继续推进。AI 开始接入企业财务、HR、研发的核心业务。

2.3正在发生的范式转变

Pre-training is hitting a wall(争议中)

Ilya Sutskever 在 NeurIPS 2024 提出:仅靠"堆数据 + 堆算力"的预训练范式正在见顶(高质量数据接近用完)。下一阶段红利来自:
① 推理(Reasoning) ② 智能体(Agents) ③ 合成数据 ④ 新训练范式(self-play、RL on tasks)。

2.4开源 vs 闭源 — 两条平行的进化线

维度	闭源(OpenAI / Anthropic / Google)	开源(Meta / DeepSeek / Mistral / Qwen)
顶级能力	整体仍领先 6–12 个月	已经能在大多数场景对齐
价格	高(API 计费)	极低(可自部署)
数据隐私	需信任厂商	可完全本地化
定制能力	有限,只能 fine-tune API	可深度微调、量化、蒸馏
适合谁	需顶级能力 + 不在乎成本	企业内部部署、国内业务、长期成本敏感

2.5中美 AI 格局速写

美国: 顶级闭源模型主导,算力垄断(NVIDIA + 三大云),AI 研究人才密度最高。
中国: 开源 + 应用层快速迭代,DeepSeek 把推理模型成本拉到全球最低,豆包 / 通义 / 智谱 / Kimi / Qwen 在中文场景独占优势。
欧洲: Mistral 是唯一真正参与全球竞争的玩家,主打开源 + 安全合规。

← 上一章 01 本质下一章 → 03 词典

Glossary · 03 词典

必备概念词典

35+ 个在用 AI、读 AI、做 AI 产品时一定会遇到的术语。每条带"应用场景"提示。

LLM Large Language Model

大语言模型。当下"AI"的主流形态。

常用场景: 选型 / 设计

Token

模型处理文字的最小单位。中文约 1.5–2 字 ≈ 1 token。"上下文长度"和"调用费用"都按 token 算。

常用场景: 估成本

上下文窗口 Context Window

模型一次能"看到"的最大 token 数。比如 200k token ≈ 一本书。

常用场景: 选型

参数量 Parameters

模型内部"旋钮"的总数,通常以 B(十亿)/ T(万亿)计。

常用场景: 选型 / 部署

嵌入 Embedding

把一句话变成一组数字向量,用来"算相似度"。所有语义搜索、RAG 的底层。

常用场景: 搜索 / 知识库

Transformer

2017 年提出的神经网络架构。今天所有主流 LLM 共同的祖宗。

常用场景: 理解

注意力 Attention

让模型在处理一个词时,自动决定其他每个词对它有多重要。

常用场景: 理解

多模态 Multimodal

同一个模型能同时处理文字、图像、音频、视频。

常用场景: 选型

预训练 Pre-training

用海量无标注文本让模型学会"接龙"。烧钱最多的阶段。

常用场景: 厂商干的事

SFT 监督微调

让大模型从"接龙器"变成"听指令的助手"。

常用场景: 私有模型

RLHF 人类反馈强化学习

让人类给模型回答打分,训练它说"人类喜欢的话"。ChatGPT 之所以好用的关键。

常用场景: 训练理解

DPO 直接偏好优化

RLHF 的简化版,更稳更便宜。

常用场景: 训练理解

微调 Fine-tuning

在通用模型上,用你领域的数据再训一遍。

常用场景: 私有化

LoRA

低秩适配。"轻量微调",显存友好,可热插拔。

常用场景: 工程

蒸馏 Distillation

用大模型当老师训出小模型,效果接近、成本极低。

常用场景: 降本

合成数据 Synthetic Data

用 AI 生成的训练数据。优质人类数据用尽后的新增长来源。

常用场景: 训练前沿

推理 Inference

模型在使用时实时跑出输出的过程。

常用场景: 估成本

推理模型 Reasoning Model

o1、o3、DeepSeek-R1 这类。强于逻辑、数学、代码。

常用场景: 选型

思考链 Chain of Thought, CoT

让模型一步步推理而不是直接给结论。

常用场景: Prompt

温度 Temperature

控制输出"随机程度"。严肃任务调低,创意任务调高。

常用场景: 调参

MoE Mixture of Experts

"专家混合"。每次只激活其中几个,撑起更大能力。

常用场景: 选型

量化 Quantization

把参数从 16 位浮点压到 8/4 位整数。本地部署标配。

常用场景: 私部

KV Cache

推理时缓存历史 token 的注意力键值,长对话能省大量钱。

常用场景: 工程

Prompt

你给模型的输入。Prompt 写得好,模型表现差异巨大。

常用场景: 日常

System Prompt

"开场设定",优先级高于用户输入。

常用场景: 设计 Agent

Few-shot / Zero-shot

在 Prompt 里给几个例子(few)还是不给(zero)。

常用场景: Prompt 优化

RAG Retrieval-Augmented Generation

检索增强生成。让模型先查资料、再回答。企业知识助手标配。

常用场景: 知识库

向量数据库 Vector DB

RAG 检索的底座。Milvus / Pinecone / Qdrant / pgvector。

常用场景: RAG

Reranker

先用向量检索召回 top-100,再用 reranker 精排为 top-5。

常用场景: RAG

In-context Learning

不改参数,仅通过 Prompt 中的示例就能完成新任务。

常用场景: Prompt

Agent

"目标—规划—调工具—执行—反思"循环的 AI。

常用场景: 自动化

Function Calling / Tool Use

模型按结构化方式调用一个外部函数。

常用场景: 设计

MCP Model Context Protocol

Anthropic 提出的"AI 调外部工具"标准协议,Agent 时代的"USB-C"。

常用场景: 工程

ReAct

Reasoning + Acting。"思考—行动—观察"循环。

常用场景: Agent 设计

Computer Use

模型直接操作电脑屏幕(看截图、点击)。

常用场景: 自动化

幻觉 Hallucination

流畅但错误甚至编造的内容。

常用场景: 风险控

对齐 Alignment

让 AI 目标与人类价值观一致。

常用场景: 治理

越狱 Jailbreak

通过特殊 Prompt 绕开模型安全限制。

常用场景: 安全测试

Guardrails

输入/输出过滤层,企业部署必备。

常用场景: 上线

可解释性 Interpretability

研究模型内部"为什么这么想"。

常用场景: 研究

神经网络 Neural Network

模仿大脑神经元结构的计算模型,深度学习的基础。

常用场景: 理解

深度学习 Deep Learning

用"深"(多层)神经网络做表征学习,2012 年后的主流。

常用场景: 理解

反向传播 Backpropagation

让网络通过"误差反向传"来调整每个参数的核心算法。

常用场景: 训练原理

梯度下降 Gradient Descent

朝着"误差减小最快"的方向小步调参,训练所有神经网络的标配。

常用场景: 训练原理

损失函数 Loss Function

量化"模型答得有多差"的函数,训练目标就是把它降到最低。

常用场景: 训练理解

向量 / 张量 Vector / Tensor

神经网络的"通用货币"——所有输入输出在内部都是一组数字。

常用场景: 理解

softmax

把一组数字归一为"概率分布",用来挑下一个 token。

常用场景: 理解

位置编码 Positional Encoding

告诉 Transformer "这个词在句子哪个位置",否则模型分不清顺序。

常用场景: 架构理解

多头注意力 Multi-head Attention

多个注意力并行,各自关注不同模式,提升表达力。

常用场景: 架构理解

扩散模型 Diffusion Model

"从噪声里慢慢去噪"出图,是 Stable Diffusion / DALL·E 的底层。

常用场景: AIGC

VAE / GAN

扩散模型之前的两类生成模型;了解一下作为对照。

常用场景: 历史

自监督学习 Self-supervised Learning

用数据"自己当标签",预训练就是这个套路。

常用场景: 训练理解

机器学习 Machine Learning · ML

让计算机从数据中学规律,而不是靠人写死规则。深度学习、LLM 都是它的子集。

常用场景: 选型 / 理解

监督学习 Supervised Learning

"题目+答案"成对喂给模型。情绪分类、垃圾邮件、推荐系统都属于它。

常用场景: 选型

无监督学习 Unsupervised Learning

没答案,让模型自己从数据里发现结构。聚类、异常检测、用户分群常用。

常用场景: 选型 / 数据探索

强化学习 Reinforcement Learning · RL

通过试错+奖励学策略。AlphaGo、自动驾驶、ChatGPT 的 RLHF 都是它。

常用场景: 选型 / 理解

RLHF 偏好对 Preference Pair

"答案 A 比答案 B 好",训练时模型学这种相对偏好。

常用场景: 训练理解

DPO Direct Preference Optimization

无需奖励模型,直接用偏好对训练,更稳更便宜。

常用场景: 私有模型

RLAIF

用 AI 替人类打分,大幅降低偏好数据成本。

常用场景: 训练前沿

PEFT / Adapter

参数高效微调家族,LoRA 是其中一种。

常用场景: 工程

课程学习 Curriculum Learning

先教简单的、再教难的,像人上学一样。

常用场景: 训练前沿

RL on CoT

用 RL 训练"让模型先想再说",推理模型(o1/R1)的关键。

常用场景: 选型

奖励函数 Reward Function

强化学习里"打分"的标准。设计有偏会被模型钻空子(reward hacking)。

常用场景: 训练理解

Test-time Compute

推理时多花算力换准确率,o1 / o3 的核心范式。

常用场景: 选型

Speculative Decoding

"小模型猜、大模型验",推理加速 2-3 倍。

常用场景: 工程

vLLM / SGLang

高性能推理框架,做私有化部署绕不过的两个选择。

常用场景: 私部

Batch / 并发

推理时多请求合并跑,显著降低单次成本。

常用场景: 工程

Top-p / Top-k

"在概率前 N% 的词里抽",和 temperature 配合控制随机性。

常用场景: 调参

Chunking

RAG 把长文档切成小块再检索,切法直接决定召回质量。

常用场景: RAG

Hybrid Search

向量检索 + 关键词检索结合,实战常优于纯向量。

常用场景: RAG

Function / Tool 描述

告诉模型"工具叫什么、什么场景用、参数怎么填",写得好坏决定 Agent 成功率。

常用场景: Agent

JSON Mode / Structured Output

强约束模型只输出合法 JSON,工程上场必备。

常用场景: 工程

Prompt Caching

把不变的 system / 知识库部分缓存住,API 计费打折。

常用场景: 降本

Context Engineering

Karpathy:不是写 prompt,是为模型搭建"工作环境"。

常用场景: 设计

HITL Human-in-the-Loop · 人在回路

把"人的判断"作为流程必经环节,主观重的场景几乎是最优解。

常用场景: 标注 / 评估 / 迭代

Eval Evaluation · 评估

给 AI 出考题、判卷、看分数。没有 eval 的 AI 项目就是在裸奔。

常用场景: 全流程

规划 / Planning

Agent 把目标拆成多步;能拆好任务的 Agent 才靠谱。

常用场景: Agent

反思 / Reflection

Agent 自己看自己的输出,发现问题再迭代。

常用场景: Agent

多智能体 Multi-Agent

多个 Agent 分工协作,如 CrewAI / AutoGen 。

常用场景: 复杂任务

长程任务 Long-horizon Task

需要 30 步以上才能完成的任务,2025–26 年前沿。

常用场景: Agent 前沿

Memory 长期记忆

让 Agent 跨会话记住事情,通常 = 向量库 + 摘要。

常用场景: Agent

Sandbox / 沙箱

给 Agent 一个隔离环境跑代码,避免它把生产搞崩。

常用场景: 工程

Prompt Injection

在数据里"植入恶意 prompt"劫持模型,Agent 时代头号风险。

常用场景: 安全

数据投毒

在训练 / RAG 数据里偷塞错误信息,污染输出。

常用场景: 安全

人在回路 Human-in-the-loop

高风险操作前必须人审,Agent 系统的安全保险。

常用场景: 治理

红队测试 Red Teaming

专门派人攻击模型找漏洞,Anthropic / OpenAI 上线前必做。

常用场景: 治理

AGI / ASI

AGI = 通用人工智能,ASI = 超级人工智能。术语滥用严重,慎用。

常用场景: 战略

Scaling Laws

"算力 / 数据 / 参数三者按幂律换性能",过去十年的指南针。

常用场景: 战略

← 上一章 02 脉络下一章 → 04 技巧

Practice · 04 技巧

把 AI 用深 — 从心智模型到实战手感

这一章是实战集。前半部分讲"心智模型"——知道它是什么、什么时候用、为什么会出错;后半部分讲"动手技巧"——在 IDE 里和 AI 协作、把 Agent 跑起来、用 Skill 把工作流固化。不是教 prompt 套路,而是建立可迁移的判断力。

4.1能力边界 — 用 AI 之前必须先承认的事

它真正擅长什么

语言驱动的脑力劳动: 总结、翻译、改写、扩写、归纳、提纲、邮件、文档。
代码生成与解读: 模板代码、调试、解释陌生代码库、跨语言翻译。
知识检索式问答(配合 RAG / 联网): 比传统搜索更直接给答案。
结构化转换: 表格 ↔ 文本、纪要 → 决议清单、自然语言 → 结构化数据。
创意与发散: 取名、起标题、改风格、写段子、做角色扮演。
有限步骤推理: 配合推理模型(o1 / R1),数学 / 编程 / 复杂逻辑接近顶级人类。

它真正不擅长什么

需要"绝对正确事实"的场景: 法律条款、医学剂量、财务数字。
长链复杂推理: 超过几十步的连续逻辑容易跑偏。
实时数据: 模型是"快照",训练后不会自更新。
带强主观判断的决策: 战略、人事、伦理判断,只能辅助。
非常长的精细记忆: 长文本中部信息容易被忽略。
真正的物理直觉: 它没在物理世界中真活过(目前)。

4.2幻觉的真正原因(以及怎么对付)

🟡 通俗版

幻觉不是 AI 在"骗你",它根本不知道自己在骗你。它的工作是"猜下一个最像的词",当它没有真知识时,它仍然会猜出一个"看起来很像真知识的词"。

正确心智:把 AI 当作聪明但不老实的实习生 —— 它产出可以信任结构,但不能默认信任事实。

🔵 严谨版

幻觉源于:① 训练目标是 likelihood 而非 factuality;② RLHF 让模型偏好"自信地输出";③ 长尾知识在参数里被压得"模糊但仍可生成"。

对付幻觉的工程手段:RAG(把答案锚在外部权威源)、引用要求、低温度采样、多次采样投票(self-consistency)、用工具验证(让模型跑代码 / 查数据库 / 调 API 而不是凭脑回答)。

4.3提示工程 6 要点(够用了)

不要被"100 个 Prompt 套路"淹没。99% 的场景里,把这 6 件事做好就够了:

给角色: "你是一名资深审计师" 比 "请帮我分析" 效果好得多。
给目标和受众: "为了 X 用户,我需要 Y 输出"。
给约束: 长度、风格、格式、必须包含/排除的内容。
给例子(few-shot): 1–3 个示例输入输出。
让它先思考再回答: "请先列出推理步骤,再给最终答案。"或直接用推理模型。
给反馈,迭代: 不要追求第一次就完美,把模型当合作者。

高阶 · 上下文工程 Context Engineering

Karpathy 2025 年起反复提的概念:真正的 prompt 已经不是"写一句话",而是"工程化地组装上下文"。它包含:system prompt + 用户输入 + 检索资料 + 工具定义 + 历史对话 + 输出 schema。谁能把这一整包做好,谁的 AI 应用就好用。

4.4RAG vs Fine-tuning — 决策矩阵

这是企业上 AI 的第一个分叉。判断错了会浪费数月。

需求	用 RAG	用 Fine-tuning
知识每天都在变	✅ 改资料库即可	❌ 改一次要重训
需要给出处	✅ 天然带引用	❌ 内化的知识无源
需要改变模型说话风格	❌ 风格难以靠资料改	✅ 微调最有效
需要内化大量私有领域规则	⚠️ 部分可行	✅ 微调更稳
预算有限 / 团队没 ML 工程师	✅ 主流路径	❌ 门槛高
数据特别敏感	✅ 向量库可本地	✅ 也可本地

实操结论: 90% 的企业 AI 应用从 RAG 起步。只有当 RAG 反复调优都达不到效果、或要"改性格"时,才上 fine-tuning。

4.5什么时候该用 Agent

Agent 不是万能解。它适合的特征:

任务是多步骤的(查 → 比 → 决 → 做)
每一步成功有可机器验证的信号
错误可恢复(可重试 / 回滚 / 跳过)
用户愿意等几秒到几分钟

反过来,简单一次问答、强主观创意、需要严密法律保证的任务,不要用 Agent —— 它会增加错误面而不增加价值。

4.6Token 经济学 — 你必须建立的成本心智

🟡 通俗版

用 AI 的钱,本质上是按字数收费。一封中文邮件 ≈ 500 token,一篇长文 ≈ 5000,一本书 ≈ 200,000。

顶级模型 1000 token 几分钱到几毛钱。但聊得勤、上下文长,一个用户一个月可以烧掉几十块。做 AI 产品时,这个心智决定生死。

🔵 严谨版

定价分 input / output(output 通常贵 3–5 倍)。长上下文应用要重点关注 KV cache 命中率。多轮对话每轮重传历史,指数级增长。

降本组合拳:模型分级 routing + prompt / context caching + 蒸馏自研小模型 + 结构化输出。

4.7评测 — 怎么知道你的 AI 应用真的好

很多团队上线后才发现"用户体感差"。原因是没建立评测体系。一个最小可用的评测套件:

金标准集(Golden Set): 100–500 条真实用户问 + 期望答。
对抗集: 故意构造的边界用例(歧义、矛盾、敏感、长文)。
LLM-as-Judge: 用一个更强的模型按 Rubric(评分准则)给输出打分。一致性高、成本可控、可规模化。工具推荐:Braintrust。
真实流量回放: 上线后采样,人工标注一部分。

Take-away

没有评测的 AI 改进 = 没有秤的减肥。所有"感觉变好了"都是错觉,直到你有数据。

4.8IDE 协作技巧 — 让 AI 真正进入你的开发流

2025 起,AI Coding IDE 的形态已基本收敛:Tab 补全 + Inline 改写 + Composer 多文件 + Agent 自驱四件套。下面这些是无论 Cursor / Qoder / Windsurf / Copilot 都通用的"姿势"。

4.8.1 四种工作模式 — 该用哪个不要混

模式	典型场景	谁主导	核心约束
Tab 补全	写一行写一段,持续被补完	你	不要无脑接受,看一眼再 Tab
Inline 改写(Cmd+K)	选一段代码让 AI 改	你	选区精确,指令具体(改什么不要含糊)
Composer / Chat	跨文件功能开发、解释代码库	协作	给足上下文(@file / @folder / @web)
Agent 模式	"做一个登录页 + 联调 + 测试"	AI	定边界、定验收、定回滚点

4.8.2 上下文给得对,效果翻倍

显式 @ 指定文件: 不要指望 AI"自己去找",@ 一个核心文件比让它瞎搜更准更便宜。
让它先说计划,再写代码: "先列改动点和风险,我确认后再动手。"避免一上来就改一片。
建一份 AGENTS.md / .cursorrules / .qoder/rules: 把项目约定(技术栈、命名、测试命令、禁止操作)写进去,AI 每次自动读到。
Lint / 测试命令显式告诉它: "改完跑 npm run lint && npm test,失败自己修。"AI 自带验证闭环。
Diff 优先,而不是整文件重写: 让 AI 输出 patch 式改动,review 时只看红绿块,效率最高。

4.8.3 八条避坑铁律

不要让 AI 一次改 5 个以上文件还不让你 review。出错时定位代价指数级。
大改之前先 git commit。AI 偶尔会"清理"你不想清理的代码。
它写的注释 / 文档默认删掉。除非你要求,它会插一堆"// removed for clarity"之类的废话。
不要让它"修复 lint 警告"作为一整个任务。它会过度修改,变更范围爆炸。
不要让它"添加错误处理"除非你指明哪段。它会给所有路径加 try-catch。
类型错误优先。让它先把 type / lint 跑过,再讨论逻辑。
给负面例子。"不要写成这种风格 [代码片段]"比单纯的正面例子更有效。
失败一次就停下来思考,不要让它在错误上反复"再试一次"——大概率越改越坏。

主流 IDE 速记

Cursor: Composer + Agent 模式最成熟,生态最大;Tab 模型最丝滑。

Qoder: 工程级深度协作 + Skill / Subagent / 长上下文记忆,适合规模化项目和团队约定固化。

Windsurf: Cascade 模式偏 Agent-first,自动多文件;新手有时控制感不够。

Claude Code: 命令行 Agent,适合 SSH / 服务器场景,配合 plan mode 体验好。

GitHub Copilot: 企业兼容性、安全合规最佳,Agent 体验落后于 Cursor / Qoder 半步。

4.9Agent 与 Skill — 把工作流固化下来

"用 AI"和"用好 AI"的分水岭,是你能不能把反复在做的事包装成一个 Skill / 一个 Agent / 一组 MCP 工具,让下一次只说一句话就跑起来。

4.9.1 Agent 的 4 个基本设计模式

Anthropic 2024 的《Building effective agents》是这一节的圣经,提炼成 4 类:

Workflow(工作流): 步骤固定、AI 在节点上做判断。最稳、最可控。能用 workflow 解决的不要上 agent。
Routing(路由): 一个分类器决定走哪条 workflow。客服 / 工单系统的标配。
Tool Use(工具调用): AI 在循环里反复"想 → 调工具 → 看结果 → 再想"。这是当下大多数"Agent"的实质。
Multi-Agent(多智能体): 一个 orchestrator 派活给多个 sub-agent。复杂但贵,谨慎使用。

4.9.2 写一个好 Agent 的 6 条经验

先写 prompt,再考虑加工具。 多数任务不需要工具,加工具反而是错。
工具描述就是 prompt。 工具的 name / description / 参数说明决定 AI 会不会用、用得对不对。
给 AI"看到结果"的能力。 让它能读自己刚才执行的输出,而不是黑盒。
设置 budget(步数 / token / 时间)。 永远准备一个"超过就停"的开关。
HITL(Human-in-the-Loop)守在关键节点。 写文件、调外部 API、付费操作前要 confirm。
把执行环境隔离。 沙箱 / Docker / 临时分支,出问题不污染主环境。

4.9.3 MCP — 让"工具"在不同 AI 之间通用

Model Context Protocol(Anthropic 2024 提出)是当下 AI 工具生态的标准协议。一句话理解:MCP 之于 AI 工具,等于 USB-C 之于设备。一个 MCP server 写一次,Claude / Cursor / Qoder / VS Code 都能用。

能接 MCP 的优先接 MCP,不要再写各家私有插件。
常见的 MCP server: filesystem / git / Postgres / Slack / 浏览器自动化(Playwright)/ 各家文档系统。
团队约定: 把项目内部 SOP / 数据查询 / 部署脚本封装成自家 MCP server,让所有 AI 助手都能用同一套工具。

4.9.4 Skill — 把"反复要 AI 做的事"沉淀成一条命令

Qoder / Claude Code 都已支持 Skill 概念。一个 Skill = 一份 SKILL.md(说明触发条件、要做什么、产出格式) + 一组 assets(模板、规则、知识库)。

什么时候应该写 Skill:

同一类任务你已经手把手指挥 AI 做过 ≥3 次(写周报、整理调研、刷新某个看板……)
这件事有稳定的输入 → 稳定的产出格式。
结果有"好/不好"的判断标准,不是一次性消费。

SKILL.md 的最小骨架:

Trigger — 触发词 / 子命令
Inputs — 我会给你什么
Steps — 你应该按什么步骤来
Outputs — 产出格式 / 落到哪里
Constraints — 不要做什么 / 边界

这一份 ai-knowledge-hub.html 本身就是一个 Skill 的产物 — 每次说"更新 AI 资讯",这个页面就被增量刷新一次,而不需要每次重写规则。

4.9.5 Subagent — 长任务里"借另一个脑子"

Qoder / Claude Code 还引入了 Subagent:在主对话里 spawn 一个子 agent 去做有明确边界的活(代码审查、专项探索、深度研究),完成后只把结论带回来,不污染主对话上下文。

典型场景: code-review / explore-codebase / research / plan / browser-automation。
关键好处: 主对话保持简洁;subagent 上下文窗口独立,可以"烧"得更狠。
避坑: 不要 spawn 嵌套 subagent;不要让 subagent 自己去改你的代码(让它返回 plan,主 agent 来动手)。

4.10把 AI 嵌进每天的工作 — 一周习惯清单

Take-away · 让杠杆落地

每天: 起一个 Skill / 一个 prompt 模板,把今天最频繁的一类小活包进去。

每周: 看一次"我哪几件事还在手动做",问自己:这件事是 prompt 不够好、缺工具、还是任务本身不该自动化?

每月: 给自己做一份 AI 工作流复盘 — 哪些 Skill 在用、哪些已经废弃、有什么新的 IDE / Agent / MCP 工具可以补进来。

核心心智: 最值钱的不是会用 AI,而是能持续把"重复的脑力劳动"转成"一次性写好的 Skill"。这个习惯一旦养成,你的杠杆就和别人不在一个量级了。

4.11机器学习类型选型 — 给非算法同学的判断框架

当你和算法/工程师讨论方案时,常会听到"用监督学习训一个""走无监督聚类""上 RLHF"…这些不是技术黑话,而是不同任务条件下的方法选择。掌握这个判断框架,你就能在协作中判断对方方案的合理性,也能更精准地提出业务诉求。

🟡 通俗版

三种 ML 的差异,本质是你能给模型什么样的反馈:

监督学习 = 给"题目+答案" → 模型学会做题(像刷题考试)
无监督学习 = 只给题目无答案 → 模型自己找数据中的规律(像做田野调查)
强化学习 = 说不清答案,但能打分 → 模型试错+被反馈(像训练宠物)

🔵 严谨版

监督学习(Supervised Learning):有标签数据 (x, y),目标最小化预测损失。

无监督学习(Unsupervised Learning):仅有 x,目标发现潜在结构(聚类/降维/密度估计)。

强化学习(Reinforcement Learning):Agent 与 Environment 交互,通过 Reward 信号优化策略 π,最大化累积奖励 E[Σγ^t·r_t]。

选型决策树

判断条件	该用什么	典型场景
能给每条数据明确"正确答案",且标注成本可控	监督学习	情绪分类、垃圾邮件、医学影像、推荐系统
没答案,但想从数据中发现结构	无监督学习	用户分群、异常检测、话题聚类、降维可视化
没答案,但能判断结果好坏(给奖励信号)	强化学习	游戏 AI、自动驾驶、机器人控制、ChatGPT 的 RLHF
任务复杂 + 需要业务理解 + 数据有限	直接调 LLM	大多数业务冷启动,靠 prompt 和 few-shot

强化学习是怎么"运作"的

RL · 4 要素循环

Agent(智能体)做动作 → Environment(环境)返回新 State(状态) + Reward(奖励)→ Agent 调整策略 → 下一轮…

关键点:不需要告诉 AI"正确答案",只需要定义"什么是好结果"(奖励函数),让它自己探索 + 试错 + 总结策略。

ChatGPT 的 RLHF 就是这种模式:GPT 对一个问题生成 4 个回答 → 人工排序偏好 → 训练"奖励模型"模仿人类偏好 → 强化学习让 GPT 优化输出去拿高分。这就是为什么 ChatGPT 比 GPT-3 更"懂得讨好人"。

AI 产品的典型演进路径

冷启动(无数据) → 直接 LLM-as-Judge(用大模型当评估者),无需训练
积累数据(少量人工修正) → Human-in-the-Loop 持续优化 prompt,人参与回路
数据丰富(>3000 条标注) → 微调 BERT 类小模型降本(API 费用 → 本地推理免费)
用户反馈丰富 → 引入 RLHF,让模型符合用户偏好

给设计师的口诀

有答案 → 监督学习　 没答案 → 无监督学习

有反馈 → 强化学习　 都不想自己训 → 直接调大模型

设计师不需要自己训模型,但要理解什么任务该用什么方法 — 这样在和算法/工程师协作时,你能判断方案是否合理,也能更好地提出业务诉求。

← 上一章 03 词典下一章 → 05 工具

Tools · 05 工具

值得知道的 AI 工具地图

按"用途"组织,每类附"什么场景选什么"的快速决策提示。

国内可用需科学上网标签会简单提示访问性。

① 通用对话与全能助手最常用

怎么选: 严肃工作 / 长文 → Claude;创意 / 多模态 → ChatGPT;超长资料 → Gemini;中文办公 → 豆包 / Kimi;省钱 / 推理 → DeepSeek。

ChatGPT 需科学上网
OpenAI,综合能力顶级,生态最丰富。
Claude 需科学上网
Anthropic,长文 / 代码 / 安全感最强。
Gemini 需科学上网
Google,超长上下文。
DeepSeek 国内可用
国产开源,推理(R1)接近一线闭源,成本极低。
Kimi 国内可用
月之暗面,长文阅读见长。
豆包国内可用
字节,中文体验流畅。
通义千问国内可用
阿里,Qwen 系列开源。
智谱清言 GLM 国内可用
国产代表,有 AutoGLM。

② AI 编程与开发生产力革命

怎么选: 工程级深度协作 → Cursor / Qoder;企业兼容 → GitHub Copilot;命令行重度 → Claude Code;一句话出页面 → v0.dev。

Qoder
面向工程的 AI Coding IDE / CLI。
Cursor
最流行的 AI IDE 之一(Composer + Agent)。
GitHub Copilot
微软 / GitHub,集成度最深。
Windsurf
主打 Agent-style coding 的 IDE。
Claude Code
Anthropic 命令行编程 Agent。
v0.dev
Vercel,一句话生成 React 页面。

③ 图像生成与设计视觉

怎么选: 概念 / 海报 / 审美天花板 → Midjourney;中文人像 / 国风 → 即梦 / 可图;开源可控 → Flux / SD;商品图电商 → 通义万相。

Midjourney 需科学上网
审美天花板。
即梦国内可用
字节,中文语义好,人像稳。
可灵图像 / 可图国内可用
快手,东方审美。
Stable Diffusion / Flux
开源生态,本地部署。
Photoshop AI / 通义万相
嵌入设计软件 / 商品图电商。

④ 视频生成 2024–2026 爆点

怎么选: 行业基准 → Sora;中文场景 + 性价比 → 可灵 / 即梦;素材整合工作流 → Runway;带原生音轨 → Veo 3。

Sora 需科学上网
OpenAI,行业基准。
可灵 Kling 国内可用
快手,中文圈口碑佳。
即梦视频国内可用
字节,与素材生态打通。
Runway
老牌 AI 视频,工具流完整。
Veo / Veo 3 需科学上网
Google,带音轨生成。

⑤ 写作 / 文档 / 知识管理

怎么选: 海外协作 → Notion AI;国内办公 → 飞书 / 钉钉 / WPS AI;会议记录 → Otter / 通义听悟。

Notion AI
嵌入式知识协作。
飞书智能伙伴国内可用
企业内嵌入文档 / 会议 / IM。
钉钉 AI 助理国内可用
阿里生态。
WPS AI 国内可用
国产 Office 全家桶 AI。
Granola / Otter
会议自动转写 + 总结。

⑥ 检索 / 研究 / 资料

怎么选: 日常查带引用 → Perplexity / 秘塔;深度调研 → ChatGPT / Gemini Deep Research;读私人资料库 → NotebookLM。

Perplexity
AI 搜索引擎,带引用。
秘塔搜索国内可用
国产研究型搜索。
ChatGPT / Gemini Deep Research
长任务研究报告。
NotebookLM
Google,资料问答 + 播客。

⑦ Agent / 自动化

怎么选: 通用任务 → Manus;编程任务 → Devin;浏览器操作 → Operator;无代码搭 → Coze / Dify;企业流自动化 → n8n / Zapier。

Manus 国内
通用 Agent。
Devin
编程 Agent。
OpenAI Operator
浏览器型 Agent。
Coze 扣子国内可用
字节,无代码搭 Agent。
Dify
开源企业 LLM 应用平台。
n8n / Zapier with AI
工作流自动化。
Braintrust
LLM 评测平台,支持 Rubric 定义、A/B 对比、LLM-as-Judge 自动评分。

⑧ 语音 / 数字人

怎么选: 多语种克隆 → ElevenLabs;数字人视频 → Heygen;中文会议 → 通义听悟。

ElevenLabs
高质量克隆与多语种 TTS。
Heygen
数字人视频。
通义听悟国内
会议音频转文字 + 摘要。

← 上一章 04 技巧下一章 → 06 资讯

News · 06 资讯

常见误区 · FAQ · 延伸阅读

看完前 6 章,你应该已经在 AI 上"建立了框架"。这一章用来纠偏、答疑、推进一步。

7.1常见误区 — 听到这些话要警觉

"AI 已经具备意识 / 已经达到 AGI"

目前所有公开模型都还没有意识、没有持续记忆、没有跨任务的稳定目标。它们在某些 benchmark 上接近人类,但 AGI 的定义本身就有争议。看到"达到 AGI"的报道,先看具体在哪个测试上、谁说的、利益相关。

"参数越大模型越好"

早期成立。现在不一定:GPT-4o 比 GPT-4 小但综合体验更好;DeepSeek-V3 用 MoE 让有效参数与激活参数解耦,推理只激活一小部分。新的判断维度是训练数据质量、训练方法(RL / 推理训练)、推理算力分配,而不只是参数量。

"AI 会取代所有白领工作"

短期看会替代具体任务,而非整个工作。研究显示更可能的图景是"AI 把每个岗位中的可自动化任务剥离出去",剩下的部分交给人。结果不是"失业",而是"职责重组"——但伴随短期阵痛。

"开源模型一定不如闭源"

2024 之前是。2025 起,DeepSeek-V3 / R1、Llama 4、Qwen 系列在多数场景已能对齐顶级闭源,开源生态让"自部署 + 私有数据"成为可行选择。具体能力差距随模型迭代每月都在变,以最新评测为准。

"Prompt 越长越详细越好"

不一定。过长的 prompt 会:① 让模型注意力分散("中间被忽略"现象);② 增加成本;③ 给冲突指令时表现下降。原则是简洁、结构化、有优先级。

"Agent 已经可以替代员工"

2026 阶段,Agent 在边界清晰、可验证、低风险的任务上接近可用(资料整理、定期报告、简单查询),但在需要长链一致性、人际判断、模糊目标的任务上仍不稳。盲信 Agent 会带来真实业务损失。

"模型联网就不会幻觉了"

联网降低了"凭空编造"的概率,但不消除。模型会:误读检索结果、合成多篇资料导致错误推论、对低质量来源不警觉。RAG 系统必须配 reranker、引用要求、防注入,否则只是把幻觉问题换了个地方。

"中国 AI 落后美国 X 年"

"X 年"是个被滥用的简化。现实更像:顶级闭源能力美国领先 6–12 个月,开源 + 推理模型中国已经追平甚至局部领先,应用层 + 多模态各有所长。把 AI 视作单一指标"领先 N 年"会错过真实图景。

7.2高频问答

我做 AI 产品 / 写公司 AI 战略,应该最看重什么?

三件事的优先级:(1)定义清楚要解决的真实问题 —— 不是"我们要用 AI",而是"用户在什么场景下卡住了,AI 能帮上";(2)建立评测体系 —— 没评测就没改进;(3)算清成本曲线 —— 单次 token 成本 × 用户行为模式 = 单位经济模型,这决定了产品能不能跑通。

选模型时,看哪个排行榜最有参考价值?

对外:Chatbot Arena(LMSys,真人盲测投票,最接近实际体验);Artificial Analysis(性能 / 价格 / 速度三维对比)。对内:你应该用自己业务的 Golden Set 评测,公开榜单只是粗筛。

我们公司想私有化部署模型,从哪里开始?

基本路径:① 选开源基座(Qwen / DeepSeek / Llama)→ ② 评估算力(7B/14B 单卡可跑,72B+ 需多卡)→ ③ 部署框架(vLLM / SGLang / Ollama)→ ④ 加 RAG 接私有数据 → ⑤ 加 Guardrails 上线。不要从训练自己的模型开始,99% 的场景下用现成模型 + RAG / 微调就够。

普通用户日常用,该订阅哪一个?

如果只能选一个:海外可用且工作严肃 → Claude Pro;国内 + 综合性价比 → 豆包 / 通义 / Kimi 之一;编程或重度推理 → ChatGPT Plus 或 DeepSeek API。绝大多数人不需要订阅 3 个,集中用一个 + 清晰的工作流更重要。

我担心数据隐私,使用云端 AI 安全吗?

主流厂商都提供"数据不用于训练"的承诺(API 默认、ChatGPT Team / Enterprise、Claude for Work)。真正敏感的数据(医疗、金融、未公开商业)依然推荐私有化部署 + 本地向量库。中间档场景可用SaaS + 数据脱敏。

非技术人怎么持续跟上 AI?

每周固定 30 分钟做这三件事就够了:① 看 1 篇 Anthropic / OpenAI / Google DeepMind 官方博客(最权威);② 听 1 期 podcast(Lex Fridman / Dwarkesh / 黄祎杰);③ 真的用 AI 干一件以前不会让 AI 干的事(亲身经验远胜读 100 篇文章)。

7.3延伸阅读 — 想再深一层时看这些

视频系列(强烈推荐):
- Andrej Karpathy "Intro to LLMs" / "Let's build GPT" / "Deep Dive into LLMs"(YouTube,非技术友好的最佳起点)
- 3Blue1Brown "Neural Networks" 系列(可视化讲解)
关键演讲:
- Ilya Sutskever NeurIPS 2024 演讲(关于预训练终结与未来三个方向)
- Sam Altman / Dario Amodei 各类访谈(对前沿走向的判断)
论文(可读摘要):
- 《Attention Is All You Need》(2017,Transformer 原作)
- 《Scaling Laws for Neural Language Models》(2020,OpenAI,讲清"为什么变大就变强")
- 《Training language models to follow instructions with human feedback》(2022,InstructGPT,RLHF 起点)
- 《Chain-of-Thought Prompting》(2022) 与《Let's Verify Step by Step》(2023,推理监督)
- Anthropic《Building effective agents》(2024,Agent 设计模式综述)
每周必看的官方博客:
- Anthropic News — 关于安全、Agent、产品的高质量长文
- OpenAI News — 第一手发布与技术博客
- Google DeepMind Blog
- Hugging Face Blog — 开源社区与工程实现细节
资讯聚合(中文):
- 机器之心 / 量子位 / 智源 / 爱范儿 AI 频道(可批量浏览,但需要自己过滤营销稿)
- "AI 早报" 类播客(节奏快、信息密度高,适合通勤)
动手清单(亲身经验比阅读重要 10 倍):
- 把一周内 3 件让你"懒得做"的小事(整理纪要、写周报、查资料)交给 AI 干一次
- 挑一个你熟悉的领域,用 NotebookLM / Claude Projects 建一个"私人图书馆"
- 用 Cursor / Qoder 让 AI 帮你写一个能跑起来的小工具,哪怕只是一个 HTML 计算器
- 用 Sora / 可灵生成一段 5 秒视频,用 Suno 写一首歌,体会"创作门槛塌陷"是真的

7.4持续学习路径 — 从入门到自如

三阶段建议

阶段一(0–4 周)· 建立直觉: 把 01–04 章读两遍;每天用 AI 干一件具体的事;学会写一个"角色 + 目标 + 限制 + 例子"四件套的提示词。目标是不再害怕、不再仰视。

阶段二(1–3 个月)· 进入工作流: 选 1 个主力模型 + 1 个开源模型(用于隐私场景);在 1 个真实项目里使用 RAG 或 Agent;开始关注 token 成本与评测。目标是能为团队做出有效选型决策。

阶段三(3 个月+)· 形成判断: 跟踪 2–3 个一手信源(Anthropic/OpenAI/DeepMind 博客 + 一个独立 Newsletter);每月写一份"我们这个月在 AI 上学到了什么"的内部分享。目标是从使用者变成判断者,从跟随到引领。

"我相信能预测的人,会越来越接近真理。" —— Ilya Sutskever(意译)

看到这里的你,已经走过了大多数人愿意走的路。剩下的,是把"读完"变成"用好",再变成"做出"。

← 上一章 06 资讯下一章 → 08 我的笔记本

Notebook · 08 我的笔记本

我的 AI 学习沉淀

这是一份私人化的 AI 学习剪贴本。来源可能是文章、播客、视频、对话、自己的随笔。每条都尽量保留原文出处 + 一段 AI 自动生成的解读 + 我的标签。新条目会被 AI 解析后,把关键术语回流到「03 词典」、产品回流到「05 工具」、时效新闻回流到「06 资讯」,让笔记本不只是仓库,也是知识网络的入口。

08.1笔记列表

08.2如何往这里加内容

这个模块由 ai-knowledge-hub Skill 维护。给我以下任意一种输入,我会自动入库:

一段文字 / 一个链接 —— 我会抓取并提炼成一条笔记。
一个文件路径(如本地 PDF / Markdown) —— 我会读取并解析。
一段你自己的输出 —— 标为"原创沉淀"。

入库后,我会同步分析:

是否有未收录的 AI 术语 → 自动加进「03 词典」
是否提到具体产品 / 模型 → 自动加进「05 工具」
是否是时效新闻 → 自动加进「06 资讯」

每个对话回合结束时,如果我察觉你提到了 ≥3 个未收录概念,会在回复末尾灰色提示一行,你回"加"即可批量入库。少于 3 个时我会安静,不打断节奏。

← 上一章 07 进阶下一章 → 已是终点

AI 知识脉络

入门认知

查阅工具

技巧进阶

动态资讯

我的笔记

看懂 AI:从本质,而不是从新闻

0.1这份文档对谁有用

0.2这份文档的写作原则

0.3怎么读

0.4叙事立场

AI 在做的,只有一件事

1.1智能即压缩 — 反直觉的核心观点

1.2下一个 token 预测 — 唯一在做的机制

1.3神经网络与参数 — 一个巨大的可调函数

1.4三块基石与规模法则

1.5模型怎么"长成"现在的样子 — 训练流水线

1.6推理模型 — 让 AI 在回答前"先想想"

1.7多模态 — 把"看图"和"看文字"放在同一个空间

1.8Agent — 让 AI 真的会"做事"

从达特茅斯到 Agent — AI 的三次浪潮

2.1三次浪潮

2.2关键时间线

2.3正在发生的范式转变

2.4开源 vs 闭源 — 两条平行的进化线

2.5中美 AI 格局速写

必备概念词典

把 AI 用深 — 从心智模型到实战手感

4.1能力边界 — 用 AI 之前必须先承认的事

它真正擅长什么

它真正不擅长什么

4.2幻觉的真正原因(以及怎么对付)

4.3提示工程 6 要点(够用了)

4.4RAG vs Fine-tuning — 决策矩阵

4.5什么时候该用 Agent

4.6Token 经济学 — 你必须建立的成本心智

4.7评测 — 怎么知道你的 AI 应用真的好

4.8IDE 协作技巧 — 让 AI 真正进入你的开发流

4.8.1 四种工作模式 — 该用哪个不要混

4.8.2 上下文给得对,效果翻倍

4.8.3 八条避坑铁律

4.9Agent 与 Skill — 把工作流固化下来

4.9.1 Agent 的 4 个基本设计模式

4.9.2 写一个好 Agent 的 6 条经验

4.9.3 MCP — 让"工具"在不同 AI 之间通用

4.9.4 Skill — 把"反复要 AI 做的事"沉淀成一条命令

4.9.5 Subagent — 长任务里"借另一个脑子"

4.10把 AI 嵌进每天的工作 — 一周习惯清单

4.11机器学习类型选型 — 给非算法同学的判断框架

选型决策树

强化学习是怎么"运作"的

AI 产品的典型演进路径

值得知道的 AI 工具地图

① 通用对话与全能助手 最常用

② AI 编程与开发 生产力革命

③ 图像生成与设计 视觉

④ 视频生成 2024–2026 爆点

⑤ 写作 / 文档 / 知识管理

⑥ 检索 / 研究 / 资料

⑦ Agent / 自动化

⑧ 语音 / 数字人

最新资讯

常见误区 · FAQ · 延伸阅读

7.1常见误区 — 听到这些话要警觉

7.2高频问答

7.3延伸阅读 — 想再深一层时看这些

7.4持续学习路径 — 从入门到自如

08.1笔记列表

08.2如何往这里加内容

① 通用对话与全能助手最常用

② AI 编程与开发生产力革命

③ 图像生成与设计视觉