Karpathy 2025 LLM 年度总结深度解读
Karpathy 的 2025 LLM 年度总结:6 大范式转变深度解读

导语: 2025 年 12 月 19 日,AI 界传奇人物 Andrej Karpathy 发布了《2025 LLM Year in Review》。作为特斯拉前 AI 总监、OpenAI 创始成员,他的视角兼具学术深度和产业实践。本文深度解读他提出的 6 大范式转变,并探讨对从业者的启示。

引言:不均衡的进步之年
2025 年是 LLM 领域”强劲且充满事件”的一年。Karpathy 用”paradigm changes”(范式转变)来定义这一年的关键突破。值得注意的是他的措辞:“personally notable and mildly surprising”(个人显著且轻微惊讶)。这种克制的表达背后,是对技术发展的深刻理解:真正的范式转移往往不是戏剧性的”从 0 到 1”,而是在既有框架内的重构和优化。
一、RLVR 革命:训练栈的重构
从”三步配方”到”四阶段栈”
2025 年初,所有实验室的 LLM 生产栈看起来都一样:Pretraining → SFT → RLHF。这是经过验证的稳定配方。但 2025 年,Reinforcement Learning from Verifiable Rewards (RLVR) 成为事实标准的第四阶段。
RLVR 的核心机制
RLVR 的关键创新在于可自动验证的奖励函数。想象数学题或代码谜题:答案对错可以自动判断,无需人类标注。通过在这些环境中训练,LLM 自发涌现出类似”推理”的策略:学会将问题分解为中间计算步骤,学会来回探索的解题策略。
Karpathy 特别提到 DeepSeek R1 论文中的例子。这些策略在之前的范式中很难实现——因为我们不清楚”最优推理轨迹”应该是什么样子。LLM 必须通过对奖励的优化,自己找到有效的方法。
算力重新分配
这里有一个关键的经济账:SFT 和 RLHF 都是计算量相对较小的微调阶段。但 RLVR 针对的是客观的、不可博弈的奖励函数,这意味着可以进行更长时间的优化。
结果是什么?RLVR 被证明提供了极高的”能力/美元”比率,吞噬了原本用于预训练的算力。因此,2025 年大部分能力进步来自于实验室”咀嚼”这个新阶段的红利。外在表现:模型大小相似,但 RL 运行时间更长。
测试时算力:新的控制旋钮
RLVR 带来的独特创新是测试时算力(test-time compute)作为能力控制维度:生成更长的推理链,增加”思考时间”,伴随新的缩放定律。时间线上的里程碑:OpenAI o1 (2024 年末) 是首个 RLVR 模型演示,OpenAI o3 (2025 年初) 是明显拐点,可直观感受差异。
深层启示
RLVR 的兴起揭示了一个重要趋势:从”人类偏好对齐”转向”客观验证优化”。RLHF 依赖人类标注者的偏好,这既昂贵又主观。RLVR 则利用数学、代码等具有明确正确答案的领域,实现可扩展的、客观的优化。这不仅是技术优化,更是训练哲学的转变。
二、幽灵 vs 动物:智能形态的认知重构
隐喻的力量
2025 年是 Karpathy(以及他认为的整个行业)开始直观理解 LLM 智能”形状”的一年。他提出了一个强有力的隐喻:我们不是在”进化/培养动物”,我们在”召唤幽灵”。这个隐喻的力量在于它挑战了人类中心主义的认知框架。
为什么是”幽灵”?
LLM 栈的每一个层面都与人类不同:神经架构(Transformer vs 生物神经网络)、训练数据(文本语料 vs 感官体验)、训练算法(反向传播 vs 进化学习)、优化压力(模仿文本 + 收集奖励 vs 丛林生存)。
人类神经网络优化于在丛林中生存繁衍,而 LLM 神经网络优化于模仿人类文本、在数学谜题中收集奖励、在 LM Arena 获取人类点赞。当优化目标根本不同时,期望得到类似人类的智能形态是不合理的。
不均衡智能 (Jagged Intelligence)
由于 RLVR 在可验证领域的成功,LLM 在这些领域附近的能力出现”尖峰”。整体表现呈现出有趣的不均衡特征:它们同时是天才博学家和困惑的小学生,几秒内就可能被越狱 trick 泄露数据。
这种不均衡性让很多从业者感到困惑:为什么一个能解决复杂数学问题的模型,会在简单的事实问题上犯错?答案就在”幽灵”隐喻中:它的智能形态本来就不是均匀的。
Benchmark 的失效
Karpathy 对 2025 年的 Benchmark 表达了”普遍的冷漠和信任丧失”。核心问题:Benchmark 本质是可验证环境,易受 RLVR 攻击;Benchmaxxing 过程是实验室在 Benchmark 占据的嵌入空间”生长尖刺”;“在测试集上训练”成为新艺术形式。
这引出了一个深刻的问题:**碾压所有 Benchmark 但不获得 AGI,是什么样子?**这正是 2025 年行业面临的困境。
三、Cursor 与 LLM 应用层的崛起
”Cursor for X”现象
Cursor 在 2025 年的现象级增长之外,更重要的是它揭示了一个新层级:LLM App。人们开始谈论”Cursor for X”——这是一个范式级别的信号。
Karpathy 在今年的 Y Combinator 演讲中详细阐述了 LLM App 的四大特征:
1. Context Engineering(上下文工程):不是简单的提示词工程,而是系统性地管理、组织、优化上下文,包括代码库索引、用户偏好、历史对话、外部数据源。
2. 多 LLM 调用编排:底层编排多个 LLM 调用,串联成日益复杂的 DAG(有向无环图),精心平衡性能和成本权衡。
3. 应用特定 GUI:人在回路的界面设计,不是通用聊天界面,而是针对垂直领域优化的交互方式。
4. Autonomy Slider(自主性滑块):用户可控制 AI 的自主程度,从”完全手动”到”完全自动”的连续谱,让用户在信任和效率之间找到平衡点。
关键辩论:应用层有多”厚”?
2025 年行业热议:这个新应用层能有多大价值?Karpathy 的判断很清晰:LLM 实验室培养通识大学生,LLM Apps 组织、微调、激活成特定领域的专业团队。关键差异化因素:私有数据、传感器、执行器、反馈回路。
产业启示
这对创业者和企业意味着:不要与基础模型正面竞争,不要试图做”更好的聊天机器人”;深耕垂直领域,选择具体场景,深度整合;构建数据飞轮,私有数据 + 反馈回路形成壁垒;设计人在回路的体验,自主性滑块是关键创新点。
四、Claude Code:本地优先的 AI Agent
首个令人信服的 Agent 演示
Claude Code (CC) 在 2025 年 emerged 为第一个真正令人信服的 LLM Agent 演示。它展示了什么叫做”loop 式串联工具使用和推理,进行扩展性问题解决”。
本地优先的设计哲学
CC 最值得注意的是:它运行在你的电脑上,使用你的私有环境、数据和上下文。Karpathy 认为 OpenAI 在这里犯了错误:早期 Codex/Agent 努力聚焦于云端容器部署,从 ChatGPT 编排,而不是简单的 localhost。
核心区别不在”运行位置”
关键洞察:主要区别不在于”AI ops”运行在哪里(云端、本地或其他),而在于其他一切——已经启动的电脑、其安装、上下文、数据、秘密、配置和低延迟交互。
Anthropic 做对了几件事:CLI 极简形态(开发者友好的命令行界面)、本地运行(直接访问开发者环境)、上下文感知(理解项目结构、依赖、配置)。结果是什么?它不再是你访问的网站(像 Google),而是”住在你电脑上的小精灵/幽灵”。这是一个全新的、独特的 AI 交互范式。
五、Vibe Coding:自然语言即代码
能力阈值的跨越
2025 年是 AI 跨越能力阈值的一年:仅通过英语就能构建各种令人印象深刻的程序,忘记代码的存在。有趣的是,Karpathy 在一条”shower of thoughts”tweet 中创造了”vibe coding”这个词,完全没料到它会走多远。
编程民主化
Vibe Coding 的核心意义:编程不再仅限于高度训练的专业人士,它是任何人都可以做的事情。这符合 Karpathy 在”Power to the people”一文中阐述的观点:与迄今为止所有其他技术形成鲜明对比,普通人从 LLM 中获益远超专业人士、公司和政府。
专业人士的增益
但 Vibe Coding 不仅是普通人的工具,它也赋能专业人士:训练有素的专业人士能写出更多(vibe coded)原本永远不会写的软件。Karpathy 自己的实践包括:用 Rust vibe code 自定义高效 BPE tokenizer、快速 demo 应用、为找单个 bug vibe code 整个应用用完即弃。
代码的新属性
Vibe Coding 改变了代码的本质:从昂贵→免费、从持久→短暂、从刚性→可塑、从复用→一次性。这种转变的深远影响:Vibe coding 将”地球化”软件行业,改变职位描述。想象一下:产品经理可以直接 vibe code 原型,研究人员可以 vibe code 数据分析脚本,设计师可以 vibe code 交互 demo。这不是取代程序员,而是扩大软件创作的边界。
六、Nano Banana:LLM GUI 的早期形态
历史类比的力量
Karpathy 将 LLM 类比为 1970-80 年代的个人电脑革命:LLM 是下一个主要计算范式。因此,我们将看到类似创新:个人电脑、微控制器(认知核心)、互联网(Agent 网络)等。
从 CLI 到 GUI 的必然性
在 UI/UX 层面,Karpathy 指出:与 LLM”聊天”有点像 1980 年代向计算机控制台 issuing 命令。文本是计算机的 favored 格式,但不是人类的。人类偏好视觉化、空间化消费信息。这就是为什么 GUI 在传统计算中被发明。同样,LLM 也应该用人类偏好的格式与我们交流:图像、信息图、幻灯片、白板、动画/视频、Web App。
Nano Banana 的意义
Google Gemini Nano banana 是 2025 年最令人难以置信的范式转移模型之一。关键不是图像生成本身,而是文本生成 + 图像生成 + 世界知识的联合能力,全部纠缠在模型权重中。这意味着不是”先生成文本,再调用图像模型”,而是原生的多模态理解与生成。
Karpathy 抛出了一个问题:**但谁会真正构建 LLM GUI?**这是一个价值巨大的机会空间。
总结与启示
2025 年的主题
Karpathy 的总结很精辟:2025 年是令人兴奋且轻微惊讶的一年。LLM 正在涌现为一种新型智能,同时比我预期的聪明得多,也比我预期的愚蠢得多。这种”同时聪明又愚蠢”正是”幽灵智能”和不均衡特性的体现。
未实现的潜力
无论如何,它们极其有用。我不认为行业已经实现了当前能力的 10% 潜力。
这句话值得深思。如果当前能力只实现了 10%,那么剩下的 90% 在哪里?答案可能在:更好的应用层设计(Cursor/Claude Code 方向)、更自然的交互方式(Vibe Coding/Nano Banana 方向)、更有效的训练方法(RLVR 方向)。
对从业者的建议
接受不均衡:不要期望 LLM 在所有任务上表现一致,在可验证领域(数学、代码)最大化利用,在开放领域保持谨慎。
深耕垂直场景:基础模型是通识大学生,应用层要培养专业人才,私有数据 + 工具链 + 反馈回路是壁垒。
本地优先思维:考虑 Agent 如何在用户环境中运行,重视上下文、数据、低延迟,信任建立比功能更重要。
拥抱自然语言交互:Vibe Coding 是未来,降低使用门槛,扩大用户群体。
投资视觉化输出:文本不是人类偏好格式,探索图像、图表、交互式输出,LLM GUI 是蓝海。
结语:系好安全带
Karpathy 在文章结尾说:我同时(表面上矛盾地)相信,我们既会看到快速持续进步,又有大量工作要做。系好安全带 (Strap in)。
这句话完美捕捉了 2025 年 LLM 领域的状态:兴奋、不确定、充满可能性。对于从业者来说,最重要的是保持学习和适应。范式在转变,工具在演进,但核心原则不变:理解技术本质,找到真实需求,创造实际价值。
2025 年已经过去,2026 年会带来什么?让我们拭目以待。
关于作者: Andrej Karpathy,特斯拉前 AI 总监、OpenAI 创始成员、CS231n 课程创建者。