Harry 的个人网站・文章

我们常常陷入一种悖论：你明明没想刷手机，手却自动伸向了口袋；你明明不饿，深夜却还是打开了零食柜。

大多数时候，我们以为自己在做决定，但实际上，我们只是在一遍又一遍地运行“预录好”的脚本。这并非意志上的薄弱，也不是道德上的堕落，而是大脑的聪明设计：节能。既然如此，这种不由自主的习惯是如何在大脑中形成并自动化的？这种省力模式与 AlphaZero 在棋局中选择性搜索有何异曲同工？更重要的是，坏习惯既然不受大脑“前台”监管，我们要怎样识别并改变它们？苏格拉底曾说“未经审视的生活不值得过”，这句话或许正道出了破解之道。

两种智能模式：直觉 vs 模拟

要理解习惯的机制，我们先看两种决策模式：一种是直觉反应，凭经验值直接行动；另一种是模拟推演，在脑海中预演后果再做选择。

人工智能的两种范式

在人工智能领域类似地有无模型（model-free）策略和有模型（model-based）策略。前者不进行内部推演，只根据积累的经验价值直接决策；后者则会在行动前模拟未来情境再决定。比如早期一些棋类 AI 完全凭经验评分走棋，而 AlphaZero 这类 AI 会在每一步落子前模拟大量可能走法，选出胜率最高的一着。

特性	无模型强化学习 (Model-Free RL)	基于模型的强化学习 (Model-Based RL)
代表案例	TD-Gammon (类似西洋双陆棋 AI)	AlphaZero (围棋/国际象棋 AI)
运作方式	时序差分学习。只看当前的局面，凭“感觉”直接反应。	内部模拟。在行动前，先在脑海中“推演”未来的可能性。
生物对应	旧脑/基底神经节 (本能、习惯)	新皮质/前额叶 (规划、推理)
核心差异	不需要了解世界如何运作，只需试错。	学习一个世界模型，了解行动如何影响世界。

大脑中的对应系统

人类大脑同样有这两套系统。一方面，基底神经节等结构就像经验驱动的“自动驾驶仪”，在熟悉情境下以高速低耗方式执行习惯化动作。另一方面，前额叶皮质负责有意识的深度思考和计划，但它运转耗能高、容易疲劳。因此，大脑倾向让习惯系统处理常规事务，只有遇到新情况或冲突时才调用前额叶接管“手动驾驶”。

维度	系统 1 (快)	系统 2 (慢)
思维模式	习惯 (Habit)	目标导向 (Goal-Directed)
AI 类型	无模型 (Model-Free)	基于模型 (Model-Based)
核心算法	缓存的值 (Cached Value)	树搜索/模拟 (Tree Search)
大脑区域	基底神经节 / 旧皮质	前额叶 / 新皮质
触发条件	熟悉环境、高频重复	遇到新情况、预测误差、困难
能耗	低	高 (容易疲劳)

习惯如何建立：从用脑到自动

习惯的起点：刻意的目标导向行为

每个习惯最初都是需要费脑的。有了明确目的，我们往往经过认真思考才采取行动——这是目标导向的刻意行为。彼时前额叶投入大量注意力规划步骤、预测结果。如果行动带来满意的奖励，大脑就会记住这种选择。

重复与缓存：前额叶逐渐退出

接下来，通过重复，大脑开始将行为过程逐步移交给自动系统。就像电脑缓存常用数据一样，多次强化后，特定情境下某动作的“价值”被存储起来。再遇到类似情境时，无需前额叶费心计算，基底神经节直接调用这个“经验方案”执行。换言之，原本需要刻意抉择的行为，逐渐变成了条件反射式的自动反应。

感知钝化：坏习惯变成“不被看见”的行为

一旦行为自动化，我们对它的觉察就降低了。习惯在运行时，只要没有明显错误，大脑不会主动审视它是否合理。即使环境或目标已改变，我们也常常浑然不觉。习惯一旦养成，我们往往沿用旧模式自动驾驶，而忽略情境已变，需要及时调整方向。

大脑的节能策略：向 AlphaZero 学习

模拟思考很烧能量

前额叶的深度思考能力代价高昂：每次在脑中模拟方案、权衡选项，都消耗大量注意力和能量。如果事无巨细都用前额叶，人早就被“烧脑”烧垮了。所以大脑遵循节能原则：非必要不启动耗能的模拟系统。多数情况下由省力的习惯系统当家，只有在重要关头才调用“计算”资源。

AlphaZero 的启示：关键时刻才搜索

围棋的变化量高达 10^17万亿种，如果 AlphaZero 试图计算每一步的所有可能性（全量模拟），用超级计算机也要计算 100 万年。因此，AlphaZero 下棋并非穷举万法，而是借助神经网络预选少数最有希望的招法（1000 种），再集中算力深入分析。也就是说，它大多数时候凭直觉走棋，只有局面复杂难料时才动脑深算。我们的大脑也是类似：平时由习惯应对，碰到情况复杂不确定时，前额叶才跳出来审思。

坏习惯为什么难以察觉

坏习惯之所以顽固，是因为它们巧妙地避开了前额叶的监管机制。前面提到了，前额叶通常只有在检测到“预测误差”（Prediction Error）时才会介入。也就是说，只有当现实与你的预期不符时，大脑才会惊醒：“等一下，好像不对劲。”

坏习惯的可怕之处在于：它往往没有即时的预测误差。 你刷短视频，预期是获得即时快感，实际上你也确实获得了。你熬夜，预期是获得片刻安宁，实际上你也确实获得了。

至于长期的恶果（复利损失），那是未来的事。当下的预测与结果完全吻合。因此，前额叶判定：一切正常，继续执行。

这就是为什么我们不仅要有习惯，还需要“审视”。

”未经审视的人生不值一提“

两千年前，苏格拉底说：“未经审视的人生不值一提。”（The unexamined life is not worth living.）

在神经科学和算法的语境下，这句话有了全新的含义：未经审视的人生，就是全盘由 Model-Free（习惯系统）托管的人生。

如果你不审视，你就是一台仅仅依赖缓存数据运行的机器。你的喜怒哀乐、你的偏见、你的反应，都是过去经验的简单重演。

例如，父母的教育方式，有时是带着上一代人的创伤的，比如打骂、贬低或是冷暴力。很多父母在被孩子激怒的那一瞬间，会下意识地吼叫甚至动手。其实，他们不想这样，但那一刻，基底神经节接管了身体，播放了他们童年时从父母那里录制的“缓存脚本”。如果父母不去反思这个问题，伤害就会自动遗传给下一代。

所谓的“审视”，本质上是一种人为安装的触发器。

既然坏习惯不会自动触发“预测误差”，我们就必须通过主动思考，强行制造“冲突”。我们需要强行插入一个断点，强迫前额叶启动。

如何发现并改变坏习惯

我们要想“唤醒”前额叶来审视习惯，必须人为制造“预测误差”（Prediction Error） 或者 强行引入“模拟机制”。

1. “逆向工程法”：从结果倒推，做复盘

前额叶虽然不管过程，但它负责处理结果。当习惯处于“自动驾驶”时，我们感觉不到异常，但结果会诚实地积累。

原理：利用前额叶的“逻辑分析”能力，去检查那些让你感到“不舒服、不满意”的现状。

如何做：不要试图监控你的每一分钟（太累了，前额叶做不到），而是定期做复盘：

“我最近总是觉得累。”（现状）
倒推：我是不是睡太晚了？
抓捕习惯：原来我每晚睡前都会无意识地刷 30 分钟视频。（哪怕当时你觉得很爽，但“累”这个预测误差是真实的）。
做出改变

2. “人为制造摩擦”：破坏流畅感

习惯之所以能绕过前额叶，是因为 “环境线索”太顺畅了。

原理：只有当“预测”和“现实”不一致，或者遇到困难时，前额叶才会启动“模拟”。所以我们可以故意制造“困难”。

如何做：

坏习惯隐形时：把手机充电器放到另一个房间；把零食锁在需要钥匙的柜子里；把浏览器的“自动登录”取消。
效果：当你下意识伸手拿手机却摸了个空（预测误差），或者需要输密码觉得麻烦（阻力），基底神经节的自动化流程就被打断了。
觉醒时刻：就在那一瞬间，你的前额叶会被强制唤醒：“诶？我为什么要拿手机？我现在真的需要看吗？” —— 这就是你审视它的机会。

3. 语言的介入

日本铁路系统的员工在工作时会用手指着信号灯大喊“信号确认，绿灯！”（指差确认）。这看起来很傻，但极度有效。

原理：语言是前额叶的高级功能。当你被迫把一个动作“说出来”时，你就无法通过基底神经节“无脑”执行它。你必须调用皮层来处理语言。