Karpathy 2025 LLM 年度总结深度解读

AI报告解读 2026/3/29

Karpathy 的 2025 LLM 年度总结：6 大范式转变深度解读

封面图：Karpathy 2025 LLM 年度总结 - 六大范式转移

导语: 2025 年 12 月 19 日，AI 界传奇人物 Andrej Karpathy 发布了《2025 LLM Year in Review》。作为特斯拉前 AI 总监、OpenAI 创始成员，他的视角兼具学术深度和产业实践。本文深度解读他提出的 6 大范式转变，并探讨对从业者的启示。

信息图：2025 LLM 六大范式转移

引言：不均衡的进步之年

2025 年是 LLM 领域”强劲且充满事件”的一年。Karpathy 用”paradigm changes”（范式转变）来定义这一年的关键突破。值得注意的是他的措辞：“personally notable and mildly surprising”（个人显著且轻微惊讶）。这种克制的表达背后，是对技术发展的深刻理解：真正的范式转移往往不是戏剧性的”从 0 到 1”，而是在既有框架内的重构和优化。

一、RLVR 革命：训练栈的重构

从”三步配方”到”四阶段栈”

2025 年初，所有实验室的 LLM 生产栈看起来都一样：Pretraining → SFT → RLHF。这是经过验证的稳定配方。但 2025 年，Reinforcement Learning from Verifiable Rewards (RLVR) 成为事实标准的第四阶段。

RLVR 的核心机制

RLVR 的关键创新在于可自动验证的奖励函数。想象数学题或代码谜题：答案对错可以自动判断，无需人类标注。通过在这些环境中训练，LLM 自发涌现出类似”推理”的策略：学会将问题分解为中间计算步骤，学会来回探索的解题策略。

Karpathy 特别提到 DeepSeek R1 论文中的例子。这些策略在之前的范式中很难实现——因为我们不清楚”最优推理轨迹”应该是什么样子。LLM 必须通过对奖励的优化，自己找到有效的方法。

算力重新分配

这里有一个关键的经济账：SFT 和 RLHF 都是计算量相对较小的微调阶段。但 RLVR 针对的是客观的、不可博弈的奖励函数，这意味着可以进行更长时间的优化。

结果是什么？RLVR 被证明提供了极高的”能力/美元”比率，吞噬了原本用于预训练的算力。因此，2025 年大部分能力进步来自于实验室”咀嚼”这个新阶段的红利。外在表现：模型大小相似，但 RL 运行时间更长。

测试时算力：新的控制旋钮

RLVR 带来的独特创新是测试时算力（test-time compute）作为能力控制维度：生成更长的推理链，增加”思考时间”，伴随新的缩放定律。时间线上的里程碑：OpenAI o1 (2024 年末) 是首个 RLVR 模型演示，OpenAI o3 (2025 年初) 是明显拐点，可直观感受差异。

深层启示

RLVR 的兴起揭示了一个重要趋势：从”人类偏好对齐”转向”客观验证优化”。RLHF 依赖人类标注者的偏好，这既昂贵又主观。RLVR 则利用数学、代码等具有明确正确答案的领域，实现可扩展的、客观的优化。这不仅是技术优化，更是训练哲学的转变。

二、幽灵 vs 动物：智能形态的认知重构

隐喻的力量

2025 年是 Karpathy（以及他认为的整个行业）开始直观理解 LLM 智能”形状”的一年。他提出了一个强有力的隐喻：我们不是在”进化/培养动物”，我们在”召唤幽灵”。这个隐喻的力量在于它挑战了人类中心主义的认知框架。

为什么是”幽灵”？

LLM 栈的每一个层面都与人类不同：神经架构（Transformer vs 生物神经网络）、训练数据（文本语料 vs 感官体验）、训练算法（反向传播 vs 进化学习）、优化压力（模仿文本 + 收集奖励 vs 丛林生存）。

人类神经网络优化于在丛林中生存繁衍，而 LLM 神经网络优化于模仿人类文本、在数学谜题中收集奖励、在 LM Arena 获取人类点赞。当优化目标根本不同时，期望得到类似人类的智能形态是不合理的。

不均衡智能 (Jagged Intelligence)

由于 RLVR 在可验证领域的成功，LLM 在这些领域附近的能力出现”尖峰”。整体表现呈现出有趣的不均衡特征：它们同时是天才博学家和困惑的小学生，几秒内就可能被越狱 trick 泄露数据。

这种不均衡性让很多从业者感到困惑：为什么一个能解决复杂数学问题的模型，会在简单的事实问题上犯错？答案就在”幽灵”隐喻中：它的智能形态本来就不是均匀的。

Benchmark 的失效

Karpathy 对 2025 年的 Benchmark 表达了”普遍的冷漠和信任丧失”。核心问题：Benchmark 本质是可验证环境，易受 RLVR 攻击；Benchmaxxing 过程是实验室在 Benchmark 占据的嵌入空间”生长尖刺”；“在测试集上训练”成为新艺术形式。

这引出了一个深刻的问题：**碾压所有 Benchmark 但不获得 AGI，是什么样子？**这正是 2025 年行业面临的困境。

三、Cursor 与 LLM 应用层的崛起

”Cursor for X”现象

Cursor 在 2025 年的现象级增长之外，更重要的是它揭示了一个新层级：LLM App。人们开始谈论”Cursor for X”——这是一个范式级别的信号。

Karpathy 在今年的 Y Combinator 演讲中详细阐述了 LLM App 的四大特征：

1. Context Engineering（上下文工程）：不是简单的提示词工程，而是系统性地管理、组织、优化上下文，包括代码库索引、用户偏好、历史对话、外部数据源。

2. 多 LLM 调用编排：底层编排多个 LLM 调用，串联成日益复杂的 DAG（有向无环图），精心平衡性能和成本权衡。

3. 应用特定 GUI：人在回路的界面设计，不是通用聊天界面，而是针对垂直领域优化的交互方式。

4. Autonomy Slider（自主性滑块）：用户可控制 AI 的自主程度，从”完全手动”到”完全自动”的连续谱，让用户在信任和效率之间找到平衡点。

关键辩论：应用层有多”厚”？

2025 年行业热议：这个新应用层能有多大价值？Karpathy 的判断很清晰：LLM 实验室培养通识大学生，LLM Apps 组织、微调、激活成特定领域的专业团队。关键差异化因素：私有数据、传感器、执行器、反馈回路。

产业启示

这对创业者和企业意味着：不要与基础模型正面竞争，不要试图做”更好的聊天机器人”；深耕垂直领域，选择具体场景，深度整合；构建数据飞轮，私有数据 + 反馈回路形成壁垒；设计人在回路的体验，自主性滑块是关键创新点。

四、Claude Code：本地优先的 AI Agent

首个令人信服的 Agent 演示

Claude Code (CC) 在 2025 年 emerged 为第一个真正令人信服的 LLM Agent 演示。它展示了什么叫做”loop 式串联工具使用和推理，进行扩展性问题解决”。

本地优先的设计哲学

CC 最值得注意的是：它运行在你的电脑上，使用你的私有环境、数据和上下文。Karpathy 认为 OpenAI 在这里犯了错误：早期 Codex/Agent 努力聚焦于云端容器部署，从 ChatGPT 编排，而不是简单的 localhost。

核心区别不在”运行位置”

关键洞察：主要区别不在于”AI ops”运行在哪里（云端、本地或其他），而在于其他一切——已经启动的电脑、其安装、上下文、数据、秘密、配置和低延迟交互。

Anthropic 做对了几件事：CLI 极简形态（开发者友好的命令行界面）、本地运行（直接访问开发者环境）、上下文感知（理解项目结构、依赖、配置）。结果是什么？它不再是你访问的网站（像 Google），而是”住在你电脑上的小精灵/幽灵”。这是一个全新的、独特的 AI 交互范式。

五、Vibe Coding：自然语言即代码

能力阈值的跨越

2025 年是 AI 跨越能力阈值的一年：仅通过英语就能构建各种令人印象深刻的程序，忘记代码的存在。有趣的是，Karpathy 在一条”shower of thoughts”tweet 中创造了”vibe coding”这个词，完全没料到它会走多远。

编程民主化

Vibe Coding 的核心意义：编程不再仅限于高度训练的专业人士，它是任何人都可以做的事情。这符合 Karpathy 在”Power to the people”一文中阐述的观点：与迄今为止所有其他技术形成鲜明对比，普通人从 LLM 中获益远超专业人士、公司和政府。

专业人士的增益

但 Vibe Coding 不仅是普通人的工具，它也赋能专业人士：训练有素的专业人士能写出更多（vibe coded）原本永远不会写的软件。Karpathy 自己的实践包括：用 Rust vibe code 自定义高效 BPE tokenizer、快速 demo 应用、为找单个 bug vibe code 整个应用用完即弃。

代码的新属性

Vibe Coding 改变了代码的本质：从昂贵→免费、从持久→短暂、从刚性→可塑、从复用→一次性。这种转变的深远影响：Vibe coding 将”地球化”软件行业，改变职位描述。想象一下：产品经理可以直接 vibe code 原型，研究人员可以 vibe code 数据分析脚本，设计师可以 vibe code 交互 demo。这不是取代程序员，而是扩大软件创作的边界。

六、Nano Banana：LLM GUI 的早期形态

历史类比的力量

Karpathy 将 LLM 类比为 1970-80 年代的个人电脑革命：LLM 是下一个主要计算范式。因此，我们将看到类似创新：个人电脑、微控制器（认知核心）、互联网（Agent 网络）等。

从 CLI 到 GUI 的必然性

在 UI/UX 层面，Karpathy 指出：与 LLM”聊天”有点像 1980 年代向计算机控制台 issuing 命令。文本是计算机的 favored 格式，但不是人类的。人类偏好视觉化、空间化消费信息。这就是为什么 GUI 在传统计算中被发明。同样，LLM 也应该用人类偏好的格式与我们交流：图像、信息图、幻灯片、白板、动画/视频、Web App。

Nano Banana 的意义

Google Gemini Nano banana 是 2025 年最令人难以置信的范式转移模型之一。关键不是图像生成本身，而是文本生成 + 图像生成 + 世界知识的联合能力，全部纠缠在模型权重中。这意味着不是”先生成文本，再调用图像模型”，而是原生的多模态理解与生成。

Karpathy 抛出了一个问题：**但谁会真正构建 LLM GUI？**这是一个价值巨大的机会空间。

总结与启示

2025 年的主题

Karpathy 的总结很精辟：2025 年是令人兴奋且轻微惊讶的一年。LLM 正在涌现为一种新型智能，同时比我预期的聪明得多，也比我预期的愚蠢得多。这种”同时聪明又愚蠢”正是”幽灵智能”和不均衡特性的体现。

未实现的潜力

无论如何，它们极其有用。我不认为行业已经实现了当前能力的 10% 潜力。

这句话值得深思。如果当前能力只实现了 10%，那么剩下的 90% 在哪里？答案可能在：更好的应用层设计（Cursor/Claude Code 方向）、更自然的交互方式（Vibe Coding/Nano Banana 方向）、更有效的训练方法（RLVR 方向）。

对从业者的建议

接受不均衡：不要期望 LLM 在所有任务上表现一致，在可验证领域（数学、代码）最大化利用，在开放领域保持谨慎。

深耕垂直场景：基础模型是通识大学生，应用层要培养专业人才，私有数据 + 工具链 + 反馈回路是壁垒。

本地优先思维：考虑 Agent 如何在用户环境中运行，重视上下文、数据、低延迟，信任建立比功能更重要。

拥抱自然语言交互：Vibe Coding 是未来，降低使用门槛，扩大用户群体。

投资视觉化输出：文本不是人类偏好格式，探索图像、图表、交互式输出，LLM GUI 是蓝海。

结语：系好安全带

Karpathy 在文章结尾说：我同时（表面上矛盾地）相信，我们既会看到快速持续进步，又有大量工作要做。系好安全带 (Strap in)。

这句话完美捕捉了 2025 年 LLM 领域的状态：兴奋、不确定、充满可能性。对于从业者来说，最重要的是保持学习和适应。范式在转变，工具在演进，但核心原则不变：理解技术本质，找到真实需求，创造实际价值。

2025 年已经过去，2026 年会带来什么？让我们拭目以待。

关于作者: Andrej Karpathy，特斯拉前 AI 总监、OpenAI 创始成员、CS231n 课程创建者。