AI 是个大筐,装了 70 年东西
三波浪潮 · 两次寒冬 · 一条时间线
- 1
第一波 · 符号主义(1950s-1980s)
把人类知识写成规则给机器照着推。Dendral、MYCIN 这些专家系统是代表。规则越多越脆,后来撑不住,进入第一次寒冬。
- 2
第二波 · 统计机器学习(1990s-2000s)
支持向量机、决策树、随机森林,从数据里"学"规律,而不是手写规则。但仍然需要人工挑特征,效果天花板明显,进入第二次寒冬。
- 3
第三波 · 深度学习与大模型(2010s-)
神经网络深起来 + GPU 算力 + 大数据,机器自己提特征。2017 年 Transformer 提出,2022 年 ChatGPT 推到大众面前。
要点
"AI" 这个词本身不指任何具体技术,它是一个分类筐。日常说"AI 帮我做了什么",通常指的是这个筐里目前最火的一类 —— 也就是下面要讲的 LLM。
LLM 是 AI 里的一种,本质是"猜下一个词"
LLM 全称 Large Language Model(大语言模型),是 AI 这个筐里目前最被广泛使用的一类。它的工作原理一句话:根据已经看到的文本,猜下一个最可能出现的词,猜完接着猜下一个,直到生成一整段。
三步看懂"猜下一个词"
- 1
第一步:把文字变成数字
分词器(Tokenizer)把句子切成 Token,每个 Token 再被映射成一个稠密向量(Embedding)。语义近的词在向量空间里距离也近。
- 2
第二步:Transformer 跑注意力
2017 年提出的自注意力机制,让模型看一句话时每个词都能同时关注其他所有词,不再像老式 RNN 那样一个一个顺序处理。
- 3
第三步:输出下一个词的概率
模型对词表里几万个候选词各打一个概率,采样出一个,接到序列末尾,继续下一轮。
重要澄清:LLM 不是搜索引擎
这是新手最容易踩的认知坑。搜索引擎是"去数据库里查匹配项",LLM 是"按概率生成接下来的词"。两者的产出长得像,但底层是两件事。
| 维度 | 搜索引擎 | LLM |
|---|---|---|
| 底层动作 | 到索引里"查" | 按概率"猜"下一个词 |
| 结果是否真实存在 | 是,可点开原网页 | 不一定,可能是"听起来对"的编造 |
| 是否可追溯来源 | 可以,每条都有链接 | 默认没有,除非外挂检索 |
| 知识有没有截止时间 | 实时(看抓取) | 有训练截止日期,之后的事不知道 |
| 会不会胡说 | 不会(只会"找不到") | 会("幻觉"是机制副作用) |
问"2026 年 5 月最新发布的 iPhone 型号是?",直接采信回答,不核对。
问"帮我把这段需求拆成 5 个用户故事",或者"用联网检索给我找最新的 iPhone 型号并附链接"。
要点
要让 LLM 输出有据可查,业内办法是给它接外挂:RAG(检索增强生成)、联网搜索、调数据库。这些都属于下一关 Agent 的范畴。
Agent 是 LLM 装上了"手脚"
光会生成文本只能聊天,做不了事。Agent(智能体)= LLM + 工具 + 记忆 + 规划。它把模型从"被动应答"变成"能执行真实操作"。
Agent 的四件套
工具调用(Tools)
LLM 生成结构化指令(通常是 JSON),外部系统按指令执行 —— 查天气、读文件、调 API、跑代码,再把结果送回模型继续推理。
规划(Planning)
把"调研某主题并产出报告"这类大任务拆成搜索、阅读、提炼、撰写一串小步骤,中间结果不对了还能动态调整。
记忆(Memory)
三层:短期记忆(本轮对话)、工作记忆(当前任务变量)、长期记忆(用户画像、历史)。
核心循环
感知 → 决策 → 行动 → 观察,循环直到任务完成或触发停止条件。
Agent 跟普通聊天机器人差在哪
Chatbot 只能在文字框里来回 —— 你问一句它答一句,出了对话框它什么都做不了。Agent 能伸手到对话框外去操作。
同一个问题 · 两种回答方式
今天北京天气怎样?
(Chatbot 版)抱歉,我没有实时数据,无法告诉你今天的天气。你可以查询天气网站或者打开手机天气 App。
今天北京天气怎样?
(Agent 版)调用天气工具中……
北京今天多云转晴,最高 24°C,最低 15°C,空气质量优。
提醒一下,昼夜温差较大,出门可以备一件薄外套。
—— 差别不在"模型多强",而在"能不能伸手到对话框外"。
业内对 Agent 能力分了 L0 到 L5 六级:L0 纯聊天 → L1 单一固定工具 → L2 多工具选择 → L3 多步骤规划 → L4 自主反思迭代 → L5 多 Agent 协作。Claude Code、Cursor 这类 AI 编程助手大致在 L3-L4。
三者关系一张图记住
| AI | LLM | Agent | |
|---|---|---|---|
| 是什么 | 最大的分类筐 | AI 里最火的一种 | LLM 装上手脚后的形态 |
| 谁包含谁 | 包含 LLM 和 Agent | 是 AI 的子集 | 通常以 LLM 为大脑 |
| 典型例子 | 专家系统 / 推荐算法 / 自动驾驶 / LLM | GPT-4 / Claude / DeepSeek / Qwen | Claude Code / Cursor / 各类 AutoGPT |
| 能干啥 | "让机器表现出智能"的所有尝试 | 生成文本、对话、改写、翻译 | 调工具、读文件、跑代码、完成多步任务 |
| 不能干啥 | ——(太宽泛) | 没有"查"和"做"的动作 | 受限于工具范围和权限 |
AI 是筐 · LLM 是引擎 · Agent 是装了引擎能跑路的车。
展开看:Agent 一定基于 LLM 吗?
不一定。早在 LLM 之前,游戏 NPC、自动交易机器人、工业控制系统里就已经有各种"智能体"形态。它们靠规则、强化学习或者经典 AI 算法做决策,不依赖大语言模型。
2023 年之后说的 Agent,大多默认"以 LLM 作为大脑",再挂工具、记忆、规划。所以本关采用日常理解的版本,不展开严格定义。
小结 + 通关前自检
通关自检 · 注册后可做
本关 3 道题做对即拿 +100 分 + 徽章「入门第一步」
游客模式不能拿积分 · 1 分钟注册就能开始攒分。
注册 + 开始自测