offbook.press
Issue 01 · Apr 22, 2026

AI 时代的真正分化

The Real Divide

大部分人把知识、经验、熟练度错当成了认知能力本身。他们从未识别过什么是真正的认知活动。

约 60 分钟 Read essay ↓

反刍、去耦,与真正的认知活动

第一章 · 四个现象

如果人们在过去一年去审视自己的信息消费,会发现几个现象同时发生。单看每一个都不算稀奇,把它们并在一起看,会指向一个没被充分讨论的结构性事实。

先看四个现象。

一、反刍链

每天打开小红书、公众号、X 的时候看到的 AI 相关内容,大部分是这样生产出来的:原始信息——一篇论文、一段代码、一次实验结果、某个从业者的一手观察——先被某个账号用 AI 初次总结;然后被另一个营销号挑选并加上一个留住注意力的钩子标题;然后被下一个账号用 AI 再重新加工成自己语气的版本;最后推送到终端读者面前。

你一定见过这样的标题:“又变天了”、“Gemini 杀疯了”、“百万失业倒计时”、“OpenAI 刚刚曝光”、“00 后用 AI 月入百万”、“硅谷连夜震动”、“这次是真的不一样了”——每一条都在制造紧迫感,点进去是几百字的空话。

这就是反刍链。每经过一层,三件事同时发生:信息密度下降(细节、条件、不确定性被摘要吃掉),误差累积(每次总结都会引入小偏差,多层之后还会相互强化),情绪浓度上升(为了在算法分发里活下来,每一层都必须加戏)。到达终端读者手里的是一个经过处理、营养降低、但变得更易消化的东西——一种内容形态的预制垃圾食品。

过去,这个链条上都是人,且速度和数量远远没有爆发。但今天我们看到,巨量的反刍垃圾正在被快速重新发明和制造出来。

人们每天以为自己在“接触信息”的时候,接触的是这条链的末端,距离原始信息可能已经有三四层加工。这个事实本身不算新闻,有人说过很多次。它是接下来三层现象的前提。

二、反刍消费的工具化

更值得盯着看的,不是反刍链本身,是消费者的反应

面对无限供应的反刍内容,一部分人的反应不是“少消费点、去找一手源”,而是“我需要更高效的工具来消费更多”。

OpenClaw ——其本身的能力远不止于此,但它最广为传播的使用场景不是“帮我写代码”“帮我分析数据”,而是“帮我每天整理 AI 圈发生了什么”。用户在社交媒体上兴奋地展示自己的工作流:AI 帮我每天读几十个信息源、自动生成摘要、给我推送关键更新。

这件事表面看是提升效率,实际是一个奇怪的自我强化循环:一个 AI 工具,帮助我更高效地消费另一个 AI 吐出来的反刍物。主动吞食反刍物的效率本身成为了一种被宣传的成就。

读者的位置发生了一个微妙的变化——从“被动接受反刍”升级到“主动优化反刍消费管道”。看起来是主动性的提升,本质是消费量的放大。

三、生产者的分化

同时,在另一个不太重叠的圈子里,有一批人在做完全不同的事。

Andrej Karpathy 在 X 上曾经精确地描述过这个分化:对 AI 能力的判断,在不同人群里呈现极端的两极化。一边是主要用免费或旧版 ChatGPT 的人,他们的印象停留在“这东西会产生幻觉、会写出一堆 AI 垃圾内容”——社交媒体上那种“AI 连该走路还是开车去洗车都搞不清楚”的翻车例子,就是这群人每天看到的 AI。另一边是每月花几百美元、每天用 Claude Code / Codex 做真实技术工作的人,他们看到的是“一小时内重构整个代码库”“自主找出系统漏洞”——这个能力上限在过去一年里是爆炸式增长的。

两群人所处的现实差异巨大。前者的信息来源是反刍链末端的总结;后者的信息来源是自己和模型实时协作的体验。前者通过“我读了什么”判断 AI,后者通过“我让它做成了什么”判断 AI。

两群人用同一个词——“AI”——但指的不是同一件事。一方说“AI 也就那样”,另一方说“这东西正在爆炸”,两句话都是真的。差别不在模型,在使用者在做什么。

四、三层叠在一起看

单看任何一层,都只是一个局部观察。把三层并在一起看——反刍链、反刍消费的工具化、生产者分化——会出现一个没被单独拎出来讨论的问题。

消费反刍的人,不是在缺信息。他们接触的信息比任何时代的任何人都多。他们也不是“学不到东西”,因为产品设计就不是为了让他们学到。他们真正在做的,是用“消费信息”这个动作管理“我没跟上时代”的恐惧——一种焦虑的自我缓解。

做真正认知活动的人(Karpathy 说的第二群),不是因为他们消费的信息更多,而是因为他们在做另一件性质完全不同的事——他们的认知活动在启动。面对一个问题,他们会去推一推、试一试、验证一下,然后形成自己的判断。消费反刍的人不会做这些——他们只是读成品、记关键词、关掉、下一条。

所以三层现象合起来指向的不是“信息过载”(这是个陈词滥调),也不是“AI 让人变懒”(这是一种回避)。指向的是一件更尖锐的事实——大部分人把知识、经验、熟练度错当成了认知能力本身。他们从未识别过什么是真正的认知活动。

什么叫真正的认知活动?先排除几种常见的错认——它不是脑子在转(脑子一直在转,人活着就在转);不是读了很多、记了很多(那是知识储备);不是某个领域做久了很熟练(那是经验);不是表达流畅(那是语言能力)。这些东西过去被误认为认知能力,是因为在老环境里它们常常和认知能力一起出现——但它们不是认知能力本身。

真正的认知活动指的是:产生可以被现实校准的、结构性判断的那种活动。形成具体的、能被后来的事实验证或反驳的判断。在一个陌生问题上识别深层结构。把自己此刻的判断和现实之间的距离,看成一个可以操作的对象。这个意义上的认知活动才是 AI 时代被剥离出来单独标价的东西。大部分人从未意识到这个区别的存在——没有意识到,就没有机会做。

过去的评价体系不需要它启动。经验、模式、熟练、博闻强记、流畅表达、社交灵敏度——这些旧的“聪明”和“能力”的表达方式,没有一项需要真正的认知活动。一个精明的生意人、一个博学的编辑、一个能干的中层经理,他们的认知系统里真正的反思可能从未发生过一次。但在老环境里,他们确实是高能力者——因为老环境就是奖励这些的,而且奖励得不错。

AI 时代的变化不是“让人变懒”,而是第一次把“认知活动本身”从其他所有能力里剥离出来、单独标价。当知识储备被模型摊平、重复性任务被吃掉、判断成品的生产成本降到零之后,剩下的那部分——把现实切成结构、识别输出里的错误、在陌生问题上做真正的抽象——大部分人根本没有。而他们自己从前的成功经验告诉他们“我是有能力的”。

这不是一个新问题。它是一个一直存在但被旧评价体系遮盖的事实,第一次在新技术条件下暴露出来。不是因为人突然变蠢了,而是因为**旧的“有能力感”的来源正在消失。


第二章 · AI 其实没那么均匀强

在进入主话题之前,有一个常见的误解需要先处理

这个误解是:AI 已经全方位超过了人类,所以大部分人在它面前变得渺小也是正常的、被动消费反刍也算理所当然。

这个判断只对了一半,另一半完全错。

AI 强在哪里。在结构化、可测量的任务上,AI 已经稳定超过中位数人类,甚至超过很多专家。数学奥赛(AIME)、博士级科学题(GPQA)、真实软件工程任务(SWE-Bench)、各种语言理解测试——这些基准在过去一年里被前沿模型陆续突破。加上知识检索、流畅表达、按指令执行这类能力,AI 远超大部分人。对于这些方向的工作,最好的用法是把 AI 当一个超级杠杆——它能把一个有能力的人的产出放大十倍以上。

AI 弱在哪里。同样多的证据显示,AI 的强是尖锐的、不均匀的。把一道题的条件稍微改一下(换成表面不相关但结构相同的场景),模型的表现会突然崩溃——这种脆弱在 SimpleBench、BrainBench 这类基准里反复出现,模型在日常常识问题上连中位数成人都不如。还有一整类任务它做得不好:没有清晰对错的判断(这个设计好不好、这个决策对不对)、处理模糊的现实(一段混乱的反馈到底在说什么)、在完全陌生的结构上做抽象(一个从未见过的问题类型如何拆解)。

为什么是这样不均匀。有一个技术上的原因。前沿模型的主要进步来自强化学习——给模型“这个对、那个错”的信号让它校准。这种训练在有明确对错的领域极其有效:代码跑不跑、数学答案对不对、测试过不过——可验证奖励,信号清晰,训练效率高。反过来,没有清晰对错的领域——好的判断、恰当的分寸、审美——根本没办法给可靠的奖励信号。你怎么教一个模型“这段文字感觉不对”?没法。所以这些领域的进步远慢于可验证领域。再叠加商业动机:代码和结构化任务直接带来 B2B 收入,所以算力和研究资源绝大部分投在这里。结果是 AI 的能力在“可验证 + 商业价值高”的领域指数增长,在其他领域进步缓慢。这个技术解释也是 Karpathy 在 X 上反复讲过的——第一章提到的两群人对 AI 能力的判断差异,本质是他们在用同一个模型的不同维度。

真正的推论AI 是放大器,不是均衡器。它放大的不是“人类的整体能力”,而是“使用者这一侧能向它输入什么结构”。给一个已经能拆解问题、能判断输出对错的人,AI 能把他的产出放大十倍以上;给一个只会让 AI “写点东西”的人,AI 吐出来的是反刍物,放大的是他的焦虑管理频率。

最关键的:AI 没有替代“构造问题”这件事

这里需要主动处理一个合理的反驳——“AI 在强化学习里已经展现出结构抽象能力了:o 系列推理模型解数学大题时会自己推翻错误假设、重构解题框架;AlphaGo 早就走出过人类从未见过的新定式。你说 AI 不能做结构抽象,是不是过时了?”

这个观察是对的。但这里有一个致命的区分必须讲清楚。

AI 的结构抽象永远发生在给定的奖励函数之下。围棋的目标是赢、数学题的目标是对、代码的目标是跑通——在这些边界清晰、胜利条件已经被人类定义好的封闭空间里,AI 可以比人类更好地寻找结构。这是一种工具性的去耦——在已定义的游戏里找最优解。AI 在这一层已经在超过人类,也会继续超过。

但还有另一层去耦——定义什么是值得追求的东西、什么问题值得问。这个产品到底解决了什么隐秘的人类需求?这项政策会引发何种人性反弹?一段混乱的用户反馈到底在说什么?一个组织长期问题的真正根源在哪里?这一层没有现成的奖励函数——因为“什么是对的”这件事本身要先由人来裁决。AI 可以生成一万种逻辑严密的结构,但判断哪一种真正对应了现实世界里的痛点,这一步的裁决者必须是一个处在现实中、要承担后果、有肉身的主体。没有这个主体,奖励函数从何而来?

所以 AI 抢走的是“在已定义的游戏里寻找最优结构”这件事(这件事人类本来也不擅长,让给 AI 是合理的);它没有抢走、也无法自发产生“决定玩哪个游戏”这件事——后者的结构性本身就不属于 AI 能触达的层。

回到分工层面——什么问题值得问、哪个方向是对的、输出是否真的解决了问题——这些判断现在仍然完全依赖人。而这类判断恰好是第一章最后一节说的那件事——需要真正的认知活动参与才能做的事。

所以“AI 太强、我跟不上”是一个偷懒的叙事。它在你该放弃的事情上(记忆、流畅表达、按指令执行)确实超过你了;但它在你真正该参与的事情上(判断、构造、审美、结构抽象)并没有。那些在能参与的地方选择放弃的人,才是真正被 AI 甩开的人。而他们常常不自知——因为反刍消费给了他们一种“我还在跟上”的错觉。


第三章 · 反刍链里人的位置:学习还是焦虑管理?

如果 AI 是放大器而不是均衡器,“不同使用者的产出差距在拉大”就是一个必然推论——放大器把使用者这一端的原有差距按倍数放出。但这还不足以解释为什么两群人的差距如此之大、而且方向完全相反:一边是通过 AI 做出复杂系统的人,另一边不是“AI 用得少”,是通过 AI 消费越来越多却产出越来越少。

这个反向动力学需要一个额外的解释。它不是“能力差”或“使用技巧差”的问题。真正的原因是——在反刍链的末端,大部分人做的根本不是学习。他们在做另一件看起来很像学习、但机制完全相反的事。

学习和焦虑管理

先把两件事的定义干净地放在一起。

学习是这样一个闭环:遇到一件不明白的事 → 自己先形成一个初步判断 → 带着具体问题去找信息 → 用信息校准判断 → 形成新的、自己拥有的理解。四个动作缺一不可。其中前置判断校准动作是整个过程的核心——没有这两步,进来的信息不会被任何已有结构吸收,就像水倒进没有容器的地方,过一会儿就干了,什么都没留下。

焦虑管理是另一个闭环:感到落后 → 消费信息 → 产生“我在跟上”的感觉 → 焦虑短暂缓解 → 因为没有任何东西被内化,一段时间后再次感到落后 → 再次消费。这个循环里没有前置判断、没有校准、没有内化。它的运行逻辑和学习完全不同——学习的产物是认知结构,焦虑管理的产物是情绪缓和。

两件事在表面上很像,因为都伴随“读了东西”这个动作。但在机制上完全相反。更麻烦的是——大脑无法区分“读到一个结论”和“自己想到一个结论”。读一篇总结得头头是道的文章,大脑会产生一种“我现在理解了这件事”的感觉,和自己真正推导出一个结论时的满足感几乎一致。但前者只是一瞬间的错觉,文章关掉几天后什么都留不下;后者是真实的认知内化,会长期改变一个人对这件事的判断方式。

这个脑内机制是整条反刍链能够持续运转的基础——它让焦虑管理感觉上和学习一样,所以消费者每天都有“今天没白过”的确认,而实际上什么都没有被真正吸收。

反刍链的真正目的

第一章已经讲过反刍链的机制——每一层加工都在让信息密度下降、误差累积、情绪浓度上升。但更关键的事实是:这整条生产链的设计目标不是传递信息,是留住注意力

这个区分很重要。一个为传递信息而生产的东西(比如学术论文、严谨的实证报告、技术文档),它在设计上会优先保留“让读者能真正理解和使用”的内容——定义、条件、反例、不确定性。这些东西在注意力经济里是负资产,因为它们降低阅读流畅度、增加认知负担。所以一个为留住注意力而生产的东西,在设计上会系统性地删掉这些东西。

这意味着——即使花再多时间认真读这些内容,也学不到东西。不是读者不够努力,是这个产品从设计上就不是为让人学到东西而造的。你读得越认真,越是在一个不设输出口的房间里转圈。

人在这个闭环里的位置

现在把焦虑管理的循环和反刍链叠在一起看,可以精确地描述大部分人每天在做的事:

打开一个 app → 刷到一个带钩子标题的判断成品 → 快速读完 → 记住一两个关键词或情绪印象 → 关掉 → 获得“我今天跟上了”的感觉 → 焦虑短暂缓解。

这整个过程里,没有任何一步是学习。没有前置判断(读之前不知道自己要验证什么),没有校准(没有拿信息和任何已有判断对照),没有内化(关掉之后什么都没留下,下次被问起复述不出来)。全部的动作都是情绪调节——用一次“接触信息”的动作,完成一次“我没落下”的心理仪式。

这里有一个残酷的验证方法:随便找一个每天刷 AI 动态的人,让他复述三天前读到的任何一条内容的核心观点和他对它的判断。

绝大多数人做不到。

这不是记忆力问题。是那些内容从来没有被加工过,所以没有任何东西可以被记住。大脑只记得住被自己处理过的东西——被判断过、被反驳过、被对照过已有理解的东西。被动流过去的信息,不管当时感觉有多“信息量大”,几天之后都不存在。

对照着看真正在做 AI 相关工作的人,会发现一个完全相反的现象。他们不消费反刍内容——因为每天手上的实验、模型反馈、代码调试,已经在提供远高于任何二手总结的信息密度。他们对一个模型能做什么、不能做什么的判断,来自昨天自己让它做失败的一件事,而不是别人写的评测。

更反常的是:消费反刍的人越消费越感觉落后,做事的人越做越感觉清晰。这不是因为做事的人懂更多——是因为两种活动的信息处理方向完全相反。焦虑管理是只进不出,信息变成情绪消耗掉了;真正的工作是处理输入并产生输出,每一次处理都在加固认知结构。前者的人对 AI 的印象是“东西太多了、跟不上了、又出新的了”;后者的人对 AI 的印象是“我昨天发现它在 X 上特别好、在 Y 上还是不行”——具体、清晰、有边界。

两群人用同一个词,但背后对应的是完全不同的心智对象。

当消费反刍变成成就

把这个诊断推到底,会遇到一个值得盯着看的现象。

OpenClaw 这类工具最广为传播的用途,是“帮我每天整理 AI 圈发生的事”。看起来是提升了效率,这是以前做不到事情,但仔细想——这是一件值得被自豪宣传的成就吗?

在前面的分析框架下,它的意义变成了:一个工具帮我更高效地、持续地消费反刍出的低密度内容;而我把这件事当作值得分享的使用案例。主动吞食反刍物的效率本身成为了一种生产力表达

这不是某个工具的问题。这是一个更深的集体信念的外化:跟上信息等于有能力。在前 AI 时代这个信念有一定依据——信息稀缺,能持续获取一手信息本身是稀缺技能。但在 AI 让判断成品的生产成本降到零之后,这个信念变成了一个纯粹的伪需求。你能消费的内容无穷多,但没有一份是为了让你学到什么而造的

于是出现了一个结构上很讽刺的画面:AI 让信息供给从匮乏变成无限,一部分人的反应不是“终于可以从消费信息转向产生判断”,而是“我需要更强的工具来消费更多信息”。工具越强,消费得越快;消费得越快,接触的信息维度越大;接触维度越大,焦虑就越深——因为每消费一条都在暗示还有十条没消费到。

当判断成品的生产成本降到零,“消费判断成品的效率”就成了伪需求的最后堡垒。这个堡垒之所以还立着,不是因为它提供任何真正的价值,而是因为它提供了一种可以被展示的忙碌——一种在 AI 时代看起来像“跟上了”的表演。

而做真正认知活动的人,早已不在这个表演里。他们甚至根本不观看这个表演。


第四章 · 一个更隐蔽的陷阱:知识管理

反刍消费是明显的形态——刷、读、下一条。但它还有一个更隐蔽的变体:不是被动吸收,而是主动建构;不是刷信息,而是整理信息。因为它伪装得更像“正经事”,所以对认真的人杀伤力更大。

这个变体叫知识管理。

为什么它在 AI 时代变成伪命题

“知识管理”这个词里藏着一个旧时代的假设——知识是一种可以被管理的静态对象,像图书馆里的书一样,能被归类、索引、检索。过去几十年的整个知识管理工具链(Evernote、Notion、Roam、Obsidian、Logseq)都建立在这个假设上。

但真实的认知过程不是这样的。脑子里的“知识”不是静态存储的信息,是一张不断被重构的关系网络。“理解”不等于“记住”,“能用”不等于“能找到”。这个错位让知识管理从一开始就在做一件错位的事。

几个机制在过去几年同时发生,让这件错位的事彻底变成了伪命题:

检索问题被 AI 解决了。过去整理笔记的核心目的之一是“以后能找到”。现在的 AI 几乎了解世界上所有的文本信息,检索成本降到几乎为零。整个“为检索而整理”的传统目的,80% 已经不成立。

记忆外置的陷阱。心理学上有个现象叫 Google effect——知道“信息被保存了”会让大脑更少真的记住它。这个效应在重度笔记用户身上特别明显:笔记里有 ≠ 脑子里有。能被调用的知识是脑子里的活跃模型,不是笔记里的标签。大量重度笔记用户的脑内活跃知识反而在退化,因为他们把大脑当成了索引而不是工作台。

整理笔记是最高级的焦虑管理。这件事在焦虑缓解量表上得分极高——它看起来像工作、有成就感(“今天新增了 12 个 backlink”)、不需要承担任何判断风险、提供“我在成长”的感觉但完全不需要输出。这比刷反刍内容更危险,因为它有更强的“我在做正经事”的伪装。

整理笔记和形成判断是两件不同的活动。Luhmann 的 Zettelkasten 之所以产生了他 70 多本书的核心材料,关键不是他用了什么系统,而是他每张卡片写的都是自己的思考——每张卡片都是一个小判断、一次对已有知识的校准。这个系统的本质不是“管理知识”,是“强制思考”。现代人用 Obsidian 大多是在管理别人的思考——高亮、摘抄、引用——这和 Luhmann 做的事没有任何共同点,只是借了同一个视觉形式。

Karpathy 的 wiki 方案:它真正在解决什么

在这个背景下,Andrej Karpathy 在 2026 年 4 月初提出过一个 LLM Wiki 的方案:把原始资料扔到 raw/ 文件夹、让 LLM 自动编译成结构化的 markdown wiki、人只负责策展输入内容。他自己一个研究话题的 wiki 已经生长到约 100 篇文章、40 万字,他几乎不亲手编辑。

这个方案核心解决三件事:session 之间的上下文丢失、笔记维护的不可持续性(LLM 做 bookkeeping 比人强)、知识不复利(每次新资料进来自动更新多个已有页面、建立 cross-reference)。

听起来像是对“知识管理是伪命题”的反驳——毕竟他做的是一种知识管理,而且在他身上真的管用。

但这里有一个最底层的事实决定了它对他管用的真实原因:Karpathy 是科学家

他的 raw sources 是 arxiv 论文、实验结果、代码、他自己还没发表的工作——这些都是大模型训练数据里没有或者已经过时的内容。模型训练数据有 cutoff,前沿研究的最新进展模型常常不知道,而科学家恰好生活在这个 cutoff 之后的信息空间里。他不是在“管理知识”,是在维护一个模型知识的 delta——把前沿补充到已有底座之上。

这和知识管理社区那套“我要管理我读过的所有内容”完全是两件事。

普通人复制它为什么失败

理解了 Karpathy 的前提,就能理解普通追随者复制他方案时为什么会变成新的焦虑管理。

普通人感兴趣的内容——商业新闻、AI 动态、科普、管理方法论、行业分析——模型基本都知道得比他们多。他们试图“管理”的“知识”其实是模型训练数据里早就有的东西的反刍版本。

在这种情况下复制 Karpathy 的方案会变成什么?让 AI 从已经被反刍过的内容里生成一个看起来结构化的 wiki——这是在给反刍链又加了一层。产物看起来更像“知识”、更像“系统”、更像“研究”——但离原始信息更远、更空。

而且由于 wiki 的视觉结构感比笔记更强,它产生的“我在学习”的错觉也更强。一个人每天看着自己的 wiki 在变大、cross-reference 在增加,会比刷小红书有更强的“我在成长”的感觉。但真正发生的事情,和小红书读者本质上一样——他都在消费自己不能真正调用的信息

区别只在于一个是在公开产品上消费,一个是在自己搭建的系统里消费。后者更 cope,不是更健康。

什么是合理的个人信息基础设施

要避开这个陷阱,需要问一个根本的问题:模型相对于我,到底缺什么?

大部分知识管理实践从来不问这个问题。他们只问“我应该记录点什么”,然后记录了一堆模型其实知道得比他们更多、更准的东西。

这个问题的合理答案只有两类:

第一类 · 学科前沿的 delta。你在一个快速变化的前沿领域工作——研究、尖端工程、未被训练数据覆盖的新兴实践。在这种情况下,维护一个持续更新的知识底座有真实价值,因为你积累的是模型不知道的东西。Karpathy 的 wiki 方案适合这类场景。前提是——你真的在做前沿工作、你的 raw sources 是一手的、你有判断能力去检验 wiki 是否偏了。

第二类 · 个人独特认知的 delta。你不在前沿工作,但你有自己对具体事物的判断、偏好、非共识模型、个人经验教训——这些是通用模型从训练数据里无法生成的。这种情况下合理的做法是最小对齐层:只记录“模型不已然知晓的东西”,让下次和模型协作时它能从你的上一次终点开始,而不是从零。

两类方案看起来很不同,底层逻辑完全一致——都是在回答同一个问题:“模型相对于我,缺什么?”只是两种人的“缺”落在不同的信息分布上。

第二类方案有一个反直觉但重要的特性:它无法被表演。因为它的准入门槛是“我能识别什么是模型不知道的”——不具备这个判断力的人用不了这个方法(他们会发现自己其实没什么可记的);具备这个判断力的人记录下来的内容一定有效。这个自我筛选机制比方法本身还值钱——它从结构上就防止了这个方法变成新的反刍仪式。

对大多数人,第二类方案是合理的起点。在使用过程中如果发现“模型在我的领域里知识不够用”,再考虑加一层 Karpathy 式的学科底座。顺序反过来则容易陷入仪式式的知识管理陷阱——这也是整个知识管理社区犯的最大错误:他们建议新人先建底座,结果新人花几个月整理别人的判断,认知活动反而被整理动作本身替代。

一个更通用的原则

把知识管理这个具体话题推到最一般的层面,会得到一个能用来评估几乎所有未来“新方案”的原则:

在 AI 时代,任何不要求使用者具备独立判断能力的方法论,都已经或正在变成反刍消费的一种变体。

区别不在方法论的内容——它可以是提升效率、促进学习、组织知识、加强创造力。区别在使用者是不是把判断外包给了这个方法论。

这也解释了一个普遍现象:所有“方法论的流行”本质上都是认知外包的集体仪式。一个方法论越流行,就越说明它满足的不是具体的工具需求,而是“不用自己判断”的需求。真正有效的方法论往往不流行,因为它们太依赖使用者的具体情境,无法被批量复制。

Karpathy 的 wiki 方案本身——在他自己身上——是有效的。但它流行起来之后产生的那批“Karpathy Wiki 教程”、“Second Brain 2.0”、“AI 知识管理工作流”等等已经在变成新一轮的表演方案。区别的判断标准很简单:这个方案在你身上用多久之后,开始让你感觉“我不用亲自判断”? 这一刻就是它开始腐烂的时间点。


第五章 · 他们都说对了什么:通才、品味、智力的重新折叠

到这里,反刍消费的两种形态(被动刷信息与主动整理知识)都拆过了。它们看起来不同,本质都在做焦虑管理而不是学习。浮上来的就是那个一直被绕开的根本问题——什么才是真正重要的能力?

这个问题其实在 AI 之前就已经被多次触及。不同的圈子里,有几种流行的说法在从不同角度描述同一件事——但每一种都只描述了其中的一部分,而且都没意识到自己在描述的其实是同一个东西。把它们放在一起看,会出现一个更完整的图景。

通才论

近几年在创作者和独立开发者圈子里,“通才”这个概念被重新推到前台。最常被引用的版本来自 Dan Koe——他的核心论点是:专业化正在贬值,多领域的通才反而在变得稀缺且有价值。

他说对的那部分:广度不是杂学。真正的通才不是“什么都知道一点”,而是在多个领域都积累到足够深度,因此能看到不同领域之间的同构结构。一个同时深入研究过经济激励、生物进化、组织行为的人,会发现这三个领域的底层机制大量重叠——因为它们都在讲“多个行动者在约束条件下追求自身目标时,系统层面会涌现出什么”。识别出这种跨域同构,是通才的真正价值所在,也是把广度转化为判断力的唯一路径。

他没说清的那部分:什么样的深度才算数。这是通才论最模糊的一块,也是追随者最容易踩坑的地方。有人按通才论去扩展自己的阅读,读了十个领域各一本入门书,最后脑子里装的是十个领域的表面叙事——这种“深度”对跨域映射毫无用处,因为表面叙事在不同领域里本来就不一样,没有同构可言。真正能被映射的是深层结构——一个领域里真正决定行为的因果机制、激励约束、反馈回路。一个可操作的深度标准是:你能不能说出一个领域的从业者集体相信但实际上是错的一件事。说得出的,是有深度;说不出的,还停在标准叙事层。

他留下的漏洞:通才论没把做跨域映射的底层机制单独拎出来。它读起来像一个方法论——多读几个领域的书、建立联系——但它暗含一个前提:读者有能力做这种映射。而这个能力本身才是稀缺的。这解释了为什么同样的方法论,有人用出来了、有人用不出来:差的不是努力,是映射能力本身。

品味(taste)

另一条线来自创作者和设计圈——Paul Graham、乔布斯、Rick Rubin 这一路反复谈论的 taste。这个词被翻译成中文的“品味”之后容易被理解成一种模糊的审美感受,但他们实际在描述的是一个更具体的机制。

他们说对的那部分:在你能清楚说出理由之前,你已经能判断一个东西好不好。这种前语言的判断不是神秘主义,它来自大量高质量样本的长期内化。一个从小在博物馆里长大的人,看到一幅画能在几秒内判断它的好坏——不是因为他懂艺术史,而是因为他的视觉系统已经被大量高质量画作校准过了。这种校准的产物就是品味。

但他们描述的是低阶品味——纯粹的模式识别。一个人能判断“这个字体不好看”,但让他解释为什么,他说不出。这种品味是真实的、也有用——它能让一个人在自己熟悉的领域快速过滤大量选项——但它有一个严重的限制:不可迁移、不可教、不可验证。你没办法把你的品味传给别人,也没办法在一个新领域从零建立品味,因为没有足够的样本。

他们没说清的那部分:品味其实有两层。低阶品味是前语言的模式识别,高阶品味是模式识别 + 需要时能拆出结构化理由。一个真正厉害的设计师不仅能说“这个字体难看”,还能分析“是因为它的 x-height 和字重的比例破坏了视觉节奏”。高阶品味之所以重要,是因为它可教、可迁移、可在新领域加速建立新品味——它把直觉背后的结构显式化了,于是结构可以被学习。

高阶品味和通才论在底层其实是同一个能力——都是把一个具体判断抽象成可操作的结构,然后把这个结构用在新的地方。不同的是,通才论从“跨域”的角度谈它,品味论从“审美直觉”的角度谈它。两者说的是同一个机制的两个侧面。

认知折叠论

第三条线在技术圈和独立创作者圈子里越来越常见。它的核心论点简单粗暴:AI 不会让差距缩小,只会让差距以前所未有的速度拉开。类比的对象通常是工业革命——蒸汽机和后来的装配线让体力劳动的相对价值急剧下降,能设计机器、能组织生产、能调度系统的人,和只能出卖体力的人之间的差距从线性扩大变成了指数分化。现在轮到认知了。AI 正在摊平一批认知能力(知识、记忆、检索、流畅表达),剩下那一部分不被摊平的会被爆炸式放大。结果不是“贫富差距变大”,是“不同人群的产出在同一个单位时间里被折叠到完全不同的量级”。

他们说对的那部分:差距会拉开,且速度前所未有。这个判断是对的,而且类比工业革命非常合适。历史上每一次通用技术跃迁之后,掌握了新杠杆的人和没掌握的人之间的差距都不是线性扩大,是指数分化——蒸汽机如此、电如此、互联网如此,AI 只会更极端,因为它是第一次直接作用于认知本身,而认知恰好是判断、创造、决策的源头。被放大的那部分,会比历史上任何一次都显眼。

他们没说清的那部分:被放大的到底是哪种认知能力

这是整条论述最模糊的一块,也是大部分追随者会踩坑的地方。他们默认的假设通常是“高认知 = 高 IQ”——所以结论变成“高 IQ 的人会越来越富、低 IQ 的人会越来越被甩开”。这个结论的前半句大致对,但原因完全错。

被放大的那件事不是 IQ。IQ 测的是原始处理能力——工作记忆、处理速度、信息提取、按规则推演——这些 AI 现在已经比绝大多数人强。一个单纯 IQ 高但从不做真正认知活动的人,在 AI 时代反而会被最快淘汰——因为他过去用 IQ 做的那些事(快速学习、记忆调取、流畅推理),AI 都做得更快更准更便宜。他的优势直接被摊平。

真正被放大的是另一层——在一个陌生问题上识别深层结构、判断什么问题值得问、在模糊的现实里切出可操作的对象。这件事和 IQ 相关但不等同。一个 IQ 中等但识别出了真正的认知活动是什么、并持续投入去做的人,比一个 IQ 高却一辈子活在模式识别舒适区里的人,会被 AI 放大得更多。

他们留下的漏洞:“高认知”被当成了一个先天的、固定的属性。这让整个“折叠”叙事听起来像一个不可抗力——高认知的人会赢,低认知的人会被甩开,没有中间地带、没有可操作空间。

但真正的分化不是“高认知 vs 低认知”的先天分化,是“识别出了 vs 没识别出”的意识分化。前者是一个不可改变的命运,后者是一个可以跨越的门槛——虽然跨越这个门槛本身不容易,但它在原理上是开放的。认知折叠论里最让人绝望的那种命运感,大部分来自于把“可跨越的门槛”误认成了“不可改变的先天属性”。

三条线在说同一件事

把三条线放在一起看。

通才论说的“跨域映射能力”——那个让多领域深度变成判断力的底层机制——其实就是把多个领域的表象剥离、抓住它们共同的深层结构的能力。没有这种能力,读十个领域只能得到十堆碎片;有了它,三个领域就能跨出新的判断。

品味论说的“高阶品味”——那个把直觉背后的结构显式化的能力——其实是同一种能力作用在大量样本内化之上的结果。低阶品味只需要样本,高阶品味需要样本加上把模式抽象成结构的能力。

认知折叠论说的“不被 AI 替代、反而被 AI 放大”的那一层——其实也是这个能力。AI 摊平了知识、记忆、流畅表达、按指令执行之后,唯一没被摊平的就是把现实从它的表象里剥离、当作结构来操作的那个动作。被放大的就是它。

三条线从完全不同的角度触及了同一件事,只是给它起了不同的名字——通才、品味、折叠。核心都是同一件东西:把具体情境抽象成可操作结构的能力

认知科学里有一个专门的名字给它:认知去耦——把一个表征从它所指的现实里剥离、当作独立对象来操作。所有抽象、假设、反事实推理、自我审视都建立在它上面。三条流行说法都在从不同角度描述它,只是每一条都只摸到了其中一部分。

这件事过去一直存在,但一直没有被单独标价。因为在前 AI 时代,它和大量其他能力混在一起——和知识储备混、和记忆力混、和流畅表达混、和熟练度混。一个“聪明”的人通常这些都有,但没人知道其中哪一项才是真正起作用的。所以每一种流行说法都在盲人摸象——摸到哪一部分就用哪一部分的语言去描述它。

AI 时代第一次让这件事可见。因为 AI 替代了知识储备(它知道的比任何人多),替代了记忆力(它能随时调取),替代了流畅表达(它写得比大部分人好),替代了熟练度(它不疲劳、不出错、不需要练习)。这些能力一个个被剥离之后,剩下的就是那个一直被遮盖的底层机制——把现实切成结构、判断哪个结构是对的、在陌生领域里建立新结构的能力

这就是通才论、品味论、认知折叠论三条线共同指向的那件事。它不是新出现的能力,是一直存在但第一次被独立命名的能力。

AI 能干什么,人剩下什么,要学什么

把这个判断推到实用层面。

AI 现在能干的事情范围在迅速扩大:模式合成、信息检索、流畅表达、按指令执行,以及在可验证奖励领域(代码、数学、结构化推理)里的复杂任务。这个范围每隔几个月都在扩张,且没有明显的边界。

AI 做不了的事情范围在缩小,但有几件事它现在做不了、近期也做不了:把模糊的现实切成可操作的问题(问题构造)、识别自己输出里的结构性错误(元判断)、在没有外部奖励信号时判断什么是好的(审美和价值权衡)、在完全陌生的结构上做真正的抽象(去耦本身)。

前三条都依赖最后一条。没有真正的去耦能力,前三条都只是在高维表征空间里做插值模拟——看起来像,但本质不是。

所以 AI 时代人真正剩下的是什么?指挥模型的那一层——提出正确的问题、判断输出是否真的解决了那个问题、在模型走偏时把它拉回来、对最终结果做价值决定。这一层的全部工作,都建立在认知去耦这个底层机制上。

然后是最关键的问题:要学的到底是什么?

不是更多知识——模型知道的比任何人多。 不是更流畅的表达——模型写得比大部分人好。 不是更多的“思维框架”——市面上大部分思维框架是装成工具的话术。

真正要学的是少数几件具体的事:几种核心的推理工具(让判断不靠直觉也能做)、几个非本行领域的规律性理解(让跨域映射有东西可映射)、把自己放进会被现实校准的环境(让所有这些不会慢慢腐烂)。加上那个部分不可训练的底层机制——认知去耦。

四件事各自独立,相互作用。构成一个完整的系统。


第六章 · 四元公式:逐项讲透

去耦本身只是一个算子。一个人的认知产出能力由四项东西共同决定,它们之间的关系不是加法,是乘法。

硬件 × 软件 × 数据库 × 运行环境。

任何一项为零,整体就是零。这解释了为什么绝大多数“提升认知”的努力失败——那些努力通常只作用于四项里的一项,而乘法意味着其他三项的短板会彻底抵消这项的增益。一个天生聪明但从不学推理工具的人,和一个装了一堆推理工具但从不让判断碰到反馈的人,两者的产出都会接近零,只是失败的方式不同。

下面把四项分别拆开。

第一项 · 认知去耦(硬件)

认知去耦是把一个表征从它所指的现实里剥离、当作独立对象来操作的能力。所有抽象、假设、反事实推理、自我审视都建立在这个能力之上。没有它,一个人永远和眼前的具体刺激绑在一起思考——“我的想法”和“事实”混在一起,“这个情境”和“它背后的结构”无法分开。

心理学上这项能力最接近的概念叫流体智力——面对完全陌生问题时、在没有任何先验经验的情况下识别结构的能力。注意它和“知识储备”没有关系。一个博学的人流体智力不一定高,一个读书不多的人流体智力也可能很高。它是纯粹的“遇到没见过的东西能不能自己想出结构”的底层能力。

去耦能力在日常中有几个可观察的信号。给两个表面描述不同但底层结构相同的问题,去耦强的人在两者上表现接近,弱的人会随着表面差异的增大而崩溃,且自己意识不到崩溃。反事实推理的稳定性是另一个信号——“如果 X 没发生、其他保持不变,你能推出什么”——能稳定持有“X 没发生”这个假设并推演的人,去耦在线;立刻被现实覆盖掉假设的人,去耦不在线。还有一个极简单的代理:面对完全陌生的问题时的第一反应。去耦强的人会开始做结构抽象(“这类问题的一般形式是什么”),弱的人会卡在“这我不懂”,或者用最表面的相似性硬套。

这里必须无情。

流体智力的上限由基因决定了大部分。大量比较双胞胎(一组是同卵双胞胎,基因几乎完全相同;一组是异卵双胞胎,基因差异和普通兄弟姐妹一样)的研究显示,这项能力的遗传度远高于人们愿意承认的程度。而且有一个反常的现象——越老越像遗传决定的。童年和青少年阶段还有环境的空间,但随着年龄增长,基因的决定作用反而越来越强,成年之后这项能力基本锁定。

过去二十年有大量号称能“提升智力”的训练产品,各种大脑训练游戏、工作记忆训练 app、思维训练课程。后续的大规模研究基本否定了这条路径:你练什么就在什么上进步,但这个进步无法迁移到真正的推理任务上。练大脑训练游戏会让你更擅长这个游戏,但不会让你面对陌生问题时想得更清楚。

这意味着市面上几乎所有承诺“提升认知能力”“训练思维”“提高智商”的课程和产品,都在出售幻觉。成年之后,这一项基本锁定。

所以能做的只有两件事。

第一,诚实识别自己在这一项的位置。不是为了放弃,是为了合理分配后面三项的投入——一个流体智力中等的人和一个流体智力很高的人,装上同样的推理工具之后,输出的复杂度上限不同。假装上限不存在,只会让人在错误的目标上消耗自己。

第二,不要让这一项的限制污染对其他三项的判断。后面三项都可训练,而且它们决定了一个人距离自己上限还有多远——这个距离对绝大多数人来说远大于上限本身的差距

这里必须加一个诚实的附注:流体智力不仅决定去耦能力的上限,也影响后面三项的训练效率本身。装推理工具的速度、装到什么深度、能不能迁移到新领域——这些不是匀速发展的,流体智力高的人会装得更快、理解得更深、迁移得更广。这个规律在认知科学里有扎实的实证支持:学习任务越复杂,流体智力和学习速率的相关性越强;在技能习得的早期阶段,流体智力解释复杂问题解决能力差异的 30% 到 40%。

所以更诚实的表述是——这不是“每个人努力一下就能追平那些聪明人”。天花板之下的空间对所有人都开放,但空间的形状和攀爬的斜率不同。流体智力中等偏下的人,装齐推理工具可能需要比后文给的数字(6 到 12 个月)更长的时间;最终能达到的深度也会比流体智力高的人浅一些。

但这并不改变核心的事实:绝大多数人——包括流体智力高的人——都没有把自己可达到的空间用完。不去用,是真正的浪费。至于“能不能用到最顶端”,那是另一个话题,而且对大多数人来说不相关。

过去那些让人感觉“我其实很聪明只是没发挥”的自助文学,主要功能是焦虑管理,不是帮助。真正有用的信息是冷的:天花板存在,且成年后基本不动;但天花板之下的空间,绝大多数人远远没有用完。

第二项 · 推理工具(软件)

推理工具是装载在认知系统里、可随时调用的具体思考方法。它和去耦的关系类似软件和硬件——硬件决定能跑多复杂的程序,软件决定这台硬件在具体问题上实际输出什么。

这是整个四元公式里最被严重低估的一项。大部分自称“爱思考”的人,推理工具装备是空的。他们所谓的思考,是用直觉对现象做合理化,然后用流畅的语言把合理化表达出来——过程里没有工具参与,所以产出主要是情绪和模式匹配的副产品,不是判断。

覆盖最广、回报最高的四门推理工具是:

概率与不确定性推理——真正理解基准率、条件概率、样本偏差、选择效应、校准这些东西。不是学统计课程,是把它们变成判断的反射。

因果推理——区分相关和因果,理解混淆变量、反事实对照。大部分人把“A 伴随 B 发生”等同于“A 导致 B”,这一门就是系统地纠正这个习惯。

博弈论与激励结构——不需要数学深度,要的是在任何现象里自动识别“谁在为谁的决策买单”的反射。这一门装上后看新闻、看政策、看商业现象的方式会完全不一样。

系统动力学——理解非线性、延迟反馈、涌现。大部分复杂问题的错误归因,都是因为没在脑子里跑反馈回路的模拟。

每一门都有经典的入门读物(见文末附录)。四门装齐后,面对任何现象,认知系统会自动把它拆成“这里面哪些变量、因果方向如何、各方激励如何分布、反馈回路在哪里”——这不是思考技巧,是一种反射。

装没装上,有一个极简单的测试:面对新现象时,此人是直接给一个结论,还是会自动把它放进某个推理框架。前者贫乏——他的结论可能对可能错,但他自己分不清。后者已经内化——他会先问基准率、因果方向、激励分布、反馈延迟。

另一个诊断更直接:让他估算一个完全不熟悉的量,比如“一个城市里一年被雨淋湿过的自行车有多少辆”。装备完整的人会自发拆解成几个独立因子相乘;装备空的人会直接给一个数字,或者说“我怎么知道”。这个差异不是知识差,是工具差。

这一项完全可训练,而且训练回报在四项里最高——因为大部分人起点接近零。装齐最小集大约需要 6 到 12 个月的认真阅读加上刻意在日常判断里套用。这个时间跨度对大部分人来说短得惊人,远短于任何学位课程,远短于学一门手艺,但回报大得多。

关键不是读完书,是在日常判断里能自动调用。验证方法:下次对某个现象有判断时,暂停一下,问自己“这里面哪个工具在起作用”。答得上且答得准——装上了。答不上——还没装上。答得上但发现自己的判断其实绕过了工具、直接走了直觉——这是最常见的中间状态,需要刻意练习把工具前置到直觉之前。

这一项和第一项的关系必须讲清楚。学术上反复验证的一个结论是:智商和实际判断质量的相关性低得惊人——高智商完全不保证不做蠢事,因为智商测的是算力,不测有没有装上推理工具。流体智力中等但工具装齐的人,实际产出可以稳定超过流体智力高但工具空缺的人。

这对在第一项上没拿到好起点的人是真正的好消息。对在第一项上拿到好起点却懒得装第二项的人,是坏消息。

第三项 · 跨域规律深度(数据库)

去耦能力需要有东西可操作——这个东西就是对多个领域的规律性理解。但“深度”需要精确定义,因为它极容易被误解成“精通”或“博学”。

这里有个核心区分。一个领域的深层结构是真正决定行为的因果机制和约束关系;表面特征是术语、流程、案例、行业黑话。真正能被去耦调用的是深层结构,不是表面特征。

所以跨域规律深度不是精通。精通是能执行一个领域的工作——会开庭、会做手术、会写生产级代码。规律深度是能解释为什么这个领域的事情是这样发生的——背后的激励结构、信息不对称、反馈延迟、幸存者偏差、标准叙事在哪里撒谎。前者需要十年以上的专门投入;后者,好的观察者几个月可以到位。

最严厉的一个诊断:能不能说出一个领域的从业者集体相信但实际上是错的一件事。

这个诊断的背后逻辑是——每个领域都有自己的“标准叙事”,那是利益相关者构造出来的、自我美化的、有时是反向的。真正抓住一个领域规律的人,能识别这套叙事在哪里撒谎。说得出的,是真懂;说不出或者复述的都是行业里已经人尽皆知的元吐槽(“资本逐利”“体制问题”之类)的,说明还停在标准叙事层,没进入深层结构。

另一个诊断:听到这个领域的新现象时,能不能在不查资料的情况下预测它的走向,且在预测错时知道自己错在什么假设上。能做到这一点,说明脑子里已经建立了这个领域的因果模型。做不到的——你知道这个领域的事情,但你没有它的模型。有事情没模型,对去耦能力完全没有帮助。

这一项完全可训练,但门槛比推理工具高——需要时间和持续的好奇心投入。每个领域大约需要 6 个月到一年才能到“能预测并识别错误”的深度。

选领域有三类分布回报最高:

激励扭曲明显的领域——医疗、教育、学术出版、政府采购、保险、慈善。这些领域的表象和真实动力差距最大,每理解一个都能装上一批可迁移的思考工具。

历史数据丰富的领域——金融市场、战争史、流行病史、技术迭代史。有真实反馈、可证伪、规律经过长时间压力测试。

与主场邻接的领域——你已有深度的领域的相邻学科。学习斜率最快,且迁移回主场的价值最高。

每个领域的最小学习路径:读一本内部人吐槽本行的书(不是入门教材),读 2 到 3 篇实证研究或系统综述,定期追一个高信息密度的来源(不是新闻,不是 KOL,是行业内的深度 newsletter 或研究者博客),做至少 10 条可验证预测并跟踪。没有最后这一步,前面三步全是娱乐。

需要主动避开的是主要靠故事和叙事驱动的领域——时尚、娱乐八卦、政治评论、鸡汤商业书。它们的“规律”大部分是事后合理化,学了之后脑子里装的是更多表面特征,不是深层结构。

第四项 · 反馈暴露(运行环境,作为指数)

前三项决定瞬时能力。第四项决定前三项能不能长期维持且持续增长。

反馈暴露指的是一个人的判断在多大程度上被现实系统性地检验。高反馈环境里,每个判断都会被事实打脸或确认;低反馈环境里,判断可以无限期飘在空中而不被校准。

为什么这是指数项而不是加法项——因为没有反馈,前三项的任何水平都会随时间腐烂。去耦能力会退化成自嗨(以为自己在做结构抽象,实际在产出听起来深刻的废话);推理工具会变成仪式(用贝叶斯的语言但从没真的更新过先验);跨域规律会变成学究式的收集(知道各种规律但分不清哪些在当前情境下适用)。反之,即使前三项中等,在高反馈环境里会持续自我校准,时间拉长后产出质量远超前三项满配但活在低反馈环境里的人。

最简单的一个诊断:过去一年你做的重要判断里,有多少被现实明确地验证或推翻过?

数量接近零的人,无论他自认为多会思考、读过多少书、表达多么流畅,认知系统实际上已经很久没被校准过了。他可能在某个阶段达到过相当高的水平,但那个水平正在缓慢失真,而他自己察觉不到——低反馈环境的定义就是没东西来告诉他失真了。

有一个著名的长期研究,跟踪了近 300 位各领域“专家”在二十年里的大量预测。核心发现不是“哪些人预测得准”,而是绝大多数专家的预测准确率接近抛硬币,但他们对自己准确率的自我评估远高于实际。二者的差距来自同一件事——这些人从未被系统记录过自己的预测。没有记分板,所以没有校准。

严格说这一项不在训练层面,而在环境选择层面。反馈暴露不能通过努力提高,只能通过进入什么环境、拒绝什么环境来选择。这让它成为四项里最隐蔽的一项——前三项的水平别人能从交流中大致判断,反馈暴露是结构性的,外人看不出来,当事人也经常自己看不出来。一个在大公司做了十年“战略”的人可能前三项都很高,但如果这十年里他的判断从未被市场、被用户、被具体结果检验过,那他这十年的“思考”产出大部分是噪音。

值得进入的环境是这些:创业(产品卖不卖、用户留不留,每周都在验证判断);交易和投资(每个决策带着盈亏作为真实反馈);实证研究(假设被实验证伪是常态);做面向真实用户的产品(不是做给 KPI 的产品);竞技博弈(围棋、扑克、电竞——结果清晰)。

以上是以“职业”为单位的反馈环境。但反馈闭环不只存在于职业生活里——日常生活里有大量同样严苛的反馈结构,只是容易被忽略做饭(菜咸了淡了、火候过了不过,每一餐都在对一个具体判断打分);带孩子(孩子的反应是几秒内的反馈,你的每个判断都在被哭声、笑声、行为反应即时校准);锻炼身体(动作对不对、强度合不合适、饮食调整有没有效果,身体会用很短的周期告诉你);养宠物(和带孩子类似的结构,周期更短,因为反应更直接);学乐器(每个音是不是对、节奏是不是稳,耳朵即刻反馈);修理东西(修好了还是没修好,毫无空间让你自我美化);谈判(对方的反应就是你判断有没有对齐他们实际想法的校准);园艺(植物不会给你面子,它活或者死)。

这些都是极高密度的反馈闭环。相比之下,一个在大公司会议室里做战略 PPT 十年、从不下场执行的人,在反馈暴露这一项上,可能远远输给一个每天给两个孩子做饭同时带一只狗的家长。这不是修辞,是结构——前者的判断从不接触现实,后者的每个判断都在几小时之内被现实打脸或确认。

文化上我们倾向于把“认知能力”和特定职业绑定(科学家、工程师、投资人),但反馈暴露这一项完全不尊重职业标签。一个真正投入在一件需要持续反馈的生活实践里的人——哪怕那件事是做饭、带孩子、锻炼身体——认知系统保持在线的概率,反而高于很多在“体面白领岗位”上做着永远不被结果验证的工作的人。前三项(去耦、推理工具、跨域深度)确实需要专门训练,但第四项——让自己的判断持续碰到现实——在任何生活形态里都是可得的

应该避开的是纯观点生产(KOL、评论、专栏),咨询式“战略思考”(建议给出就结束,不跟踪执行),低频决策长延迟反馈的大公司岗位,以及任何“说得好就赢”的领域——说服力和判断准确性在这些领域完全脱钩。

如果暂时不能改变主环境,可以自己建反馈机制。但要先破除一个常见的幻觉——市面上流传的那套“预测日志、决策日志、对抗性同伴小组”基本没人能坚持。不是它们错,是它们把反馈机制从真实生活里剥离成了一个附加仪式。一个每天忙着工作、生活的人,靠意志力每月写 5 条预测,两周之内就会停。缺反馈的人缺的不是表格,是一种让自己的判断必须接触现实的生活结构。表格解决不了结构问题。

真正可持续的反馈来自两件事——在自己已经关心的领域里完成判断-验证闭环,以及进入新领域时把学习本身变成有验证的过程。两件都不是日志,是行动。

第一种 · 在已有领域里完成闭环。大部分人在自己的领域里其实已经每天都在做判断——只是这些判断没有被明确化,所以无法验证。同事问“这个方案行不行”、朋友问“这家公司值得跳吗”、自己决定“这个功能做不做”、看到一条新闻觉得“这事过两周会反转”——每一个都是判断,每一个都可能被后来的事实检验,但绝大多数人从不把这些判断说出口或写下来。它们以一种模糊的“我觉得”的形式存在,之后不管结果如何,都可以被大脑重写成“我当时就是这么想的”。

要做的事情只有一件——在判断发生的那一刻,把它具体化。和同事说方案有问题时,明确说“我觉得它会在 X 上卡住,两个月内”;做产品决策时,直接在文档里写“我们预期做完之后 DAU 会涨 Y,如果到时没涨我错了”;看新闻做预测时,告诉身边一个具体的人“我赌 X 不会发生”。不需要日志、不需要打分、不需要 Brier score——把判断说出口这个动作本身就强制了后续的自我校准,因为说过的话会在几个月后被对方或被自己记起来。

这个做法的门槛是承担被打脸的风险。大部分人不把判断说出口,不是因为懒,是因为说出口之后错了会丢脸。正是这个“丢脸”的压力让判断变得真实——它强制你在发出判断之前再想一遍。每一次这样的具体化,都是一次小型的认知校准。

第二种 · 把学习新领域变成验证过程。想理解一个新领域时,大部分人的默认路径是先读、再读、再读,读到某个模糊的“我觉得懂了”为止——然后这个“懂”从未被验证过。正确的路径是先形成一个能错的预判,再去验证

具体做法:选一个你最近想搞懂的领域,不读任何东西的情况下,先写下三到五句你对这个领域的基础假设——你觉得它是怎么运作的、哪些因素在驱动它、近期会怎么变化。写下来之后再去找材料读。读的过程不是“吸收信息”,而是持续拿材料和自己的预判撞——哪些假设被证实、哪些被推翻、哪些需要修正。读完之后,你脑子里不是一堆别人的结论,是一个被校准过的自己的模型

这个方法的核心不是效率,是信息的加工路径。先读后想是被动吸收,产物是别人判断的复述;先想后读是主动校准,产物是自己的因果模型。花费的时间其实差不多,但输出质量完全不同——前者几个月后什么都记不住,后者在这个领域里建立了一个可持续使用的判断工具。

为什么这两种方法管用而日志方法失败。日志方法要求你为“记录”本身投入额外的精力,这件事除了少数格外有纪律性的人之外对绝大多数人不可持续。上面这两种方法不需要额外精力——它们只是改变你本来就在做的动作的方式。你本来就在和同事讨论、做决定、读东西、关心新闻;这些方法做的事是让这些动作自带验证环节,而不是在它们之外另起一个仪式。

可持续性来自不新增生活内容,只改变已有内容的结构。这个原则比任何具体工具都重要。


四项里只有一项决定了上限,另外三项决定了一个人离自己上限还有多远。

绝大多数人距离自己的上限差得非常远。

这是坏消息,对不想动的人。这是好消息,对愿意动的人。


第七章 · 最后

一个愿意动的人,读完前面的框架,自然会问——“所以我应该从哪里开始?”

这个问题本身值得警惕。

如果读完四项公式之后第一个动作是索要一份“开始的步骤清单”,说明还在用消费方法论的方式消费这篇文章。清单再好,拿清单的人大概率两周内停下来——因为清单所描述的那些动作都建立在一件更底层的事情之上,而那件事不是靠清单能启动的。

这件底层的事只有一件:

停止把“消费反刍”当作学习。

这不是“少刷半小时手机”,不是“每天早起读书”——这些都是把问题理解成纪律问题。真正要停的是一种自我欺骗:把“我今天跟上了 AI 圈”的感觉误认成“我今天学到了东西”。承认前者只是情绪管理、和刷剧放松同属一类——这个承认本身就是第一步。

承认之后,会发生一件具体的事:未被反刍占据的认知带宽开始出现。这个带宽一旦出现,它会自己找到用处——不是因为你“决心学习”,是因为一个不被噪音淹没的头脑本来就会朝自己真正关心的问题走。

接下来的问题——怎么和模型打交道、什么问题值得问、怎么用 AI 打磨自己的判断、怎么在已有经验上长出跨域深度——不在本篇的范围里。本篇只做诊断:讲清楚你面前的分化是什么、它由什么组成、大部分人距离自己的上限差多远。


这套东西不是给所有人的。

认知去耦的硬天花板决定了有些人装不进这个系统——这是残酷但必须说的事实。这篇文章从头到尾没有提供希望的普惠,它提供的是一个能让人判断自己位置的框架

但能读到这里的人不是那群人。能识别出“我在消费反刍”这件事、能跟着一路读到这里而没有关掉页面的人,已经完成了基础自测——前面那些残酷的话里,有一部分没有打中你。

AI 时代真正的重新分层正在发生。过去的评价体系奖励晶体智力和模式库,所以把知识和经验错当成认知能力的人也可以显得“有能力”。AI 把那些东西摊平之后,剩下的那部分——真正的认知活动——第一次被单独标价。大部分人还没意识到这件事。等他们意识到的时候,差距已经不是可追赶的量级。

最后一个自检,比前面任何框架都更有杀伤力——

回想你最近一次真正改变重要看法是什么时候、因为什么改变。

答得出具体的、近期的、非鸡毛蒜皮的——这套系统在你身上已经在运转。

答不出的——问题不在 AI,不在时代,在自己。而且问题从来就在这里,只是过去没有暴露而已


附录 · 入门书单

第六章提到的四门核心推理工具,各有经典的入门读物。按难度从低到高排列,从第一本开始读就好。

概率与不确定性推理

  • 《思考,快与慢》Daniel Kahneman
  • 《超越智商》Keith Stanovich

因果推理

  • 《为什么:关于因果关系的新科学》Judea Pearl
  • 《因果推断实用指南》Scott Cunningham

博弈论与激励结构

  • 《冲突的战略》Thomas Schelling
  • 《大脑中的大象》Robin Hanson & Kevin Simler

系统动力学

  • 《系统之美》Donella Meadows

关于反馈暴露和判断质量(第六章第四项的理论基础)

  • 《专家的政治判断》Philip Tetlock
  • 《超预测》Philip Tetlock & Dan Gardner

读的时候有个实用提示:每本书读完先不要读下一本,花 1 到 2 周在日常判断里刻意用这本书的思考方式。没有这一步,读完等于没读,因为知识没有在脑子里跑过实际推理,不会形成反射。


引用与出处

本文涉及的主要事实性断言的来源。

关于 AI 能力分化(第一、二章)

  • Andrej Karpathy 关于 “growing gap in understanding of AI capability” 的 X 推文(2026 年 4 月),原文提到免费 ChatGPT 用户和付费 Claude Code / Codex 用户对 AI 能力判断的两极分化,以及强化学习 + 可验证奖励的技术解释。相关二手报道:The New Stack, “Karpathy says developers have ‘AI Psychosis’”(2026 年 4 月)
  • “该走路还是开车去洗车”例子不是 Karpathy 提出的,是 2026 年 2-3 月在 Threads / Twitter 上独立流传的 viral test,被多家媒体报道(Newsweek, Cybernews 等)
  • SimpleBench:simple-bench.com(Philip AI Explained,2024),213 道多选题,人类 baseline 约 84%,持续高于 SOTA 模型
  • BrainBench:Exposing the Commonsense Reasoning Gap in Large Language Models(arXiv:2603.14761,2026)——系统化 LLM 在常识推理上的失败模式

关于反刍链与知识管理(第三、四章)

  • Google effect / digital amnesia:Sparrow, Liu, Wegner, “Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips,” Science 333 (2011): 776-778(注:该研究的效应量在后续复制中有争议)
  • Karpathy 的 LLM Wiki 方案:https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f(2026 年 4 月 3 日发布,wiki 规模约 100 篇文章、40 万字)
  • Luhmann 的 Zettelkasten 系统:一生积累约 90,000 张卡片,发表 70+ 本书、400+ 篇论文。参考 zettelkasten.de 和 Sönke Ahrens, How to Take Smart Notes(2017)

关于通才、品味、认知折叠(第五章)

  • Dan Koe 的通才论:thedankoe.com 上多篇相关文章,如 “The Rise of the Generalist”、“The Future of Work”
  • Paul Graham 的品味理论:paulgraham.com/taste.html(“Taste for Makers”, 2002)
  • Rick Rubin:The Creative Act: A Way of Being(2023)
  • 认知去耦、反思心智、IQ 与理性判断相关性低:Keith E. Stanovich, Rationality and the Reflective Mind(Oxford, 2011)和 What Intelligence Tests Miss(Yale, 2009)。Stanovich & West 系列研究显示思考倾向和 IQ 的相关性通常 < 0.30
  • 流体智力与结构抽象能力:François Chollet, “On the Measure of Intelligence”(arXiv:1911.01547, 2019)

关于认知能力的可塑性(第六章第一项)

  • IQ 遗传度随年龄增长的 Wilson Effect:Haworth et al., “The heritability of general cognitive ability increases linearly from childhood to young adulthood,” Molecular Psychiatry 15 (2010): 1112-1120;Plomin & von Stumm, “The new genetics of intelligence,” Nature Reviews Genetics 19 (2018): 148-159。成年期 IQ 遗传度估计在 0.70-0.80
  • 脑训练无法迁移到流体智力:Melby-Lervåg & Hulme 等多项 meta-analysis;Simons et al., “Do ‘Brain-Training’ Programs Work?” Psychological Science in the Public Interest(2016)

关于专家预测与反馈暴露(第六章第四项)

  • Philip E. Tetlock, Expert Political Judgment: How Good Is It? How Can We Know?(Princeton University Press, 2005/2017)——从 1985 到 2003 年,284 位各领域专家,共 27,451 条可验证预测。核心结论:专家预测准确率接近随机,且对自身准确率的自评远高于实际

关于 AI 前沿能力基准(第二章)

  • AIME(American Invitational Mathematics Examination):数学奥赛初选级别基准
  • GPQA(Graduate-Level Google-Proof Q&A):博士级科学题基准
  • SWE-Bench:真实 GitHub issue 软件工程任务基准
  • 这些基准在 2025-2026 年间被前沿模型(OpenAI o 系列、Anthropic Claude 4/4.5/4.6 系列、Google Gemini 2.x/3.x 系列等)陆续逼近或达到专家水平

本文对上述来源做了概念上的转述而非直接引用。如需核查原文表述,请参考原始链接与出版物。