蒙特祖玛的复仇
早期的强化学习算法(Reinforcement Learning),比如 IBM 的 TD-Gammon,利用了强化学习中的时序差分学习(在最终结果出现之前预测未来奖励的可能性)取得了人工智能领域的一个重要里程碑。它们能横扫弹球、赛车这些游戏。原因是这些游戏的反馈是单一且即时的。你击中一个球,得分;你撞墙,扣分。算法只需要做一个的“分数收集器”,就能表现完美。

但在很长一段时间里,面对一个叫《蒙特祖玛的复仇》(Montezuma’s Revenge)的游戏,所有 AI 都成了傻瓜。
在这个游戏里,玩家身处一个充满障碍的房间,周围有无数扇门。最难的是,你跳跃、移动、甚至拿到钥匙,分数都不会变。只有当你经历了漫长的探索,找到遥远的隐藏房间时,才会有第一个奖励。
这种“奖励稀疏”的环境,让传统的 AI 彻底崩溃。因为它们是功利的,如果一步操作没有回报,它们就判定这步操作是“错”的。它们在第一关里像无头苍蝇一样乱撞,得分永远是零。

直到 2018 年,DeepMind 做了一个改变。他们不再只给 AI 喂食“分数”,而是加入了一个人类才有的古老机制——好奇心。
这个新算法被赋予了一个简单的逻辑:如果遇到“新奇、不可预测”的情境,哪怕没有分数,系统也会给你一个“内在奖励”(Intrinsic Reward)。

结果令人震惊。AI 开始主动探索那些危险的房间,不是为了分,而是纯粹出于好奇,想“看看那里有什么”。最终,它通关了。
我在《智能简史》这本书里看到这个故事,我觉得它不仅仅是关乎于计算机,其实它更加关乎于我们人类自己,因为:
原来人类的好奇心不是多出来的“奢侈品”,而是一种改善长期生存表现的学习策略。
进化的赌注:为什么“闲心思”没被淘汰?
2.1 探索与利用的永恒困境

在强化学习中,有一个经典的问题叫“探索-利用困境”(Exploration-Exploitation Dilemma)。
比如,你要去一家你最喜欢的餐厅吃饭(利用,Exploit),还是去一家新开的、可能很难吃也可能很惊艳的餐厅(探索,Explore)?如果你永远只“利用”,你的生活是安全的,但你永远发现不了更好的东西;如果你永远在“探索”,你可能会饿死。
2.2 好奇心是长期的生存策略
《智能简史》的作者Bennett 曾提出一个精彩的论证:如果好奇心只是“想玩”的闲心思,它早就被残酷的自然选择淘汰了。它之所以被刻进我们的神经结构里,是因为它有用。
强化学习基于在试错中找到奖励,这就需要智能体进行大量的尝试并从中学习。而如果智能体只是利用那些预测会带来奖励的结果,虽然够用,但无法做到比如,发现新的食物来源;发现新的躲避天敌方式;或者更快适应环境变化。为了不被淘汰,智能体还必须具备探索未知的驱动力,这就成了我们每个人类内置的部分:好奇心。
在简单的环境里,你只需要盯着眼前的食物。但在复杂、变化剧烈的环境里,那些愿意冒点险、去看看“山那边有什么”的个体,虽然可能因为误食毒蘑菇而死,但更有可能发现新的水源和猎物。
因此好奇心不是奢侈品,它是一种“改善长期生存表现”的高级算法。 它是一种能在没有外在奖励时,依然驱动你前进的燃料。
为何生命充满好奇,长大后却渐渐失去?
3.1 当“外在指标”接管大脑

孩子天生充满好奇——好奇心是学习最原始的驱动力。如果你观察过 3 岁的孩子,你会发现他们就是那个装载了“好奇心模块”的 AI,不知疲倦地探索房间。他们对一切问题都想问“为什么?”。他们对世界的一切都饶有兴趣。然而,许多孩子在进入学校几年后,那股探索欲却逐渐消退了。他们开始变得不再提问,学习变成了一种任务而非乐趣。为什么会这样?
在理想状态下,学习的动机应该源自内驱力:因为对问题本身感兴趣而去钻研,因为探索未知本身能带来满足。然而,现实中的学校教育更加看重可量化的外在指标,如分数、名次、奖项等。当教育只承认外在结果,孩子的动机结构就发生了错位。

好奇并不等同于贪玩,好奇指的是对“不确定、未知、未弄懂的东西”本身,怀有强烈的探究欲望。当我们大脑发现一个新奇的问题,或者获取了一条信息,神经回路会分泌多巴胺等化学物质,让我们产生愉悦感和满足感。换句话说,我们会因为“想知道这是怎么回事”而获得心理奖励。这种机制带来的内驱力非常强大:有了好奇心,探索本身就变得有奖赏,我们不需要别人督促就会一看再看、一试再试。相比之下,外在驱动力(如考高分或得到表扬)带来的动力往往短暂且脆弱。内驱的好奇心是一口源源不断的深水井,而外在激励更像一瓶瓶需要反复提供的矿泉水。

当孩子长时间认为“问这些对考试没用的问题是浪费时间。我感兴趣的东西,跟‘该学的东西’无关。”时,大脑里的“好奇 → 奖励”这条路径被削弱,取而代之的是“分数/排名/表扬 → 奖励”。 最后学习的目的发生了根本性转变:不再是因为问题本身而学习,而是仅仅为了考出好成绩、避免惩罚或赢得认可去学习。
学习本身的乐趣就荡然无存。许多学生最终呈现出一种典型状态:如果没有外部压力,他们就不会主动去学;一旦有了外部压力,他们也只是机械地完成任务,内心对学习内容毫无兴趣。
一位教育研究者在对美国高中尖子生的调查中发现,那些成绩最好的学生往往好奇心更弱,因为他们视好奇提问为影响成绩的风险。这些学生提问只为弄清考试会考什么或如何得高分,而不是出于对知识本身的兴趣。更令人担忧的是,当学习完全失去内在意义,学生只能靠意志力硬撑着学习时,随之而来的就是疲惫感、厌学感和逃避心理。学习从一件令人愉悦的事情沦为了苦差事,不少孩子在心理上对学习产生了抵触甚至畏惧。(关于这方面的主题,可以阅读《要有光》这本书)
3.2 为什么现实教育“天然不太满足好奇心”?

这不是老师的错,也不是家长的错,这是一个更大范围上的矛盾。现代教育系统的设计初衷是为了筛选,为了把人培养成工业化生产的标准件,它天然地与好奇心为敌。正如爱因斯坦在自传中感叹的:“现代教育方法几乎扼杀了探索的神圣好奇心,这简直是个奇迹;好奇心如同娇嫩的植物,需要自由才能存活,否则必将枯萎凋零”。
时间强约束(Time Constraint):
好奇心需要“发呆”,需要“绕路”。但学校的进度条是锁死的。全班必须在 45 分钟内学完这一章。当一个孩子的思绪飘向“为什么天空是蓝的”这种课标之外的问题时,老师只能把他拉回来。因为系统没有时间给他探索。
极高的错误成本(High Cost of Error):
真正的探索必然伴随失败。但在考试系统里,错误意味着扣分,意味着排名下降,意味着羞辱。孩子很快就学会了:不要冒险,不要提奇怪的问题,背标准答案是最安全的。 求稳的策略战胜了探索的欲望。
内容的强标准化(Standardization):
只有能被量化的东西才会被奖励。难以量化的“思考”、“兴趣”和“洞察”,在试卷上毫无价值。

成年人的焦虑传递
再加上成年人自己的焦虑。家长和老师自己就活在 KPI 的高压下,他们没有心理余量去容忍孩子的“无效探索”。最后就变成了那句“别问那么多,先把作业写完。”于是最后培养出了一代又一代擅长做题、却在离开学校后立刻停止学习的“空心人”。
即时多巴胺
与此同时,手机短视频、游戏提供了”更快、更强的即时多巴胺”。于是在心理账本里,“学习”成了一件:又累、又慢见效、又没有自己选择权、还经常被评价的事情。
重拾好奇心:迈向激发终身学习的教育
他们讨厌的不是“学习”,而是这种形式的学习

我们常听到有人把孩子标签为“不爱学习”。可事实真是如此吗?
不尽然。
想一想我们身边所谓的“学渣”,也许在课堂上注意力不集中、作业马虎应付,但你要是让他沉浸在自己热爱的领域——比如篮球、绘画——他可能会表现出惊人的专注和钻研精神。他会为了投好一个三分球日复一日地练习;为了画好一幅漫画废寝忘食。这些投入和执着本质上都是学习!由此可见,很多成绩不佳的孩子并非真的对“学习”这件事毫无热情,而是讨厌那种自己完全无法参与定义、没有半点好奇可言、没有掌控感、只有被动灌输和严格评判的学习。换句话说,他们抗拒的不是知识本身,而是被剥夺了内驱力的学习形式。理解了这一点,我们对“厌学”的看法就会有所不同:并非孩子懒惰或愚钝,而是我们的教育没能提供让他们燃起好奇和热情的土壤。
为好奇心留出一席之地

面对这样的困局,我们该如何在现实中为好奇心留出一席之地,让孩子重拾对学习的热爱?这不仅关系到儿童时代的幸福感,更关系到他们未来作为终身学习者的能力。正如《要有光》中的阿叔所说:“我最关心的是孩子适应社会的能力和终身学习的能力。”
在人工智能时代,知识更新日新月异,今天学会的技能明天可能就被淘汰。我们无法预知未来需要的具体知识,但可以肯定的是:拥有好奇心、善于自我驱动学习的人,将更从容地应对变化。因此,培养孩子的内驱力,让他们保有那双对世界闪闪发光的眼睛,比传授任何具体知识都更为重要。
这就是为什么我非常推荐《内驱式学习》这本书的原因。
要实现“内驱式学习”,必须先打开学习的黑箱,深入理解大脑学习的本质,才能从根本上做出改进。本书结合脑科学、认知科学和心理学的研究,提出了科学的学习理念和实践指南,帮助人们摆脱机械的、贫乏模式的学习,用丰富的学习模式找回内在的驱动力和探索知识的好奇心。书里提到了一个核心观点:真正的学习,是将学习者视为一个有情感、有偏好、独一无二的个体,而不是一个等待填充的铁皮罐头。
结语
在进化的长河里,那些只盯着脚下食物的生物,最终都灭绝了或者成了被圈养的家畜。而那些仰望星空、对未知充满好奇的物种,走出了非洲,登上了月球。正如《内驱式学习》这本书的封面所言:
让内驱的孩子,心中有热爱,眼里有光芒。