当 RL 黑话入侵生活，我重新理解了决策的本质

作者：0xWelt，kimi-k2.5 思考

最近我发现一个有趣的现象：RL（强化学习）的黑话正在悄然入侵日常对话。

朋友失恋，另一位朋友”安慰”道：”你得到了一个负回报（negative reward），关键是你准备怎么更新策略？” 讨论学习时，有人说：”第一性原理就是要同策略（on-policy），只有亲身经历才算经验，别人的经验你无法直接复用。”

作为一个在 RL 领域有几年经验的研究者，我非常乐于看到曾经的小圈子逐渐有了登堂入室的迹象，因此不请自来分享一些我对于 RL 哲学的粗浅理解，权当抛砖引玉。

一、无常：接受环境的随机性，放下对单步回报的执念

佛学讲”无常”，RL 则用一个更冷酷的术语描述：环境具有随机性（stochastic environment）。

在 RL 框架里，即使你做出了完全相同的选择（动作），世界给你的反馈（回报）也可能天差地别。市场不会因为你的努力就必然上涨，感情不会因为你的付出就必然善终。这种随机性不是 bug，而是环境的固有属性。

这带来第一个生活哲学：不要我执于单次交互的结果。

很多人陷入焦虑，是因为把每一次”负回报”都理解为”我不行”或”世界错了”。但在 RL 视角下，回报（reward）只是环境给你的一个标量信号，它反映的是”这次交互”，而非”你的本质”。一次面试失败、一段关系破裂、一场投资亏损，这些都只是你与复杂环境采样（sampling）后的瞬时反馈。

理性的做法是什么？是追求累积回报（return）的期望最大化——换句话说，不要纠结于某一步得到了 +1 还是 -1，而是关注长期来看，你的策略是否在不断积累正收益。这种视角转换，让人从”这次为什么倒霉”的受害者叙事，转向”我的策略哪里可以迭代”的建设者叙事。

珍惜当下，在 RL 里意味着：充分观察当前状态（state），接受它的不确定性，然后做出当下最优的动作选择，而非沉溺于上一步的得失。

这是 RL 中最著名的困境：探索（Exploration）与利用（Exploitation）的权衡。

利用很直观：基于你现有的认知，选择当前看起来最好的动作。去常去的那家餐厅，做你擅长的工作，待在舒适区。这没问题，它确保了你的策略（policy）在当前信息下不犯大错。

但危险在于局部最优陷阱。如果你从不尝试新餐馆，你可能永远错过那家更棒的；如果你从不尝试新领域，你可能永远不知道自己的天赋在哪。探索的本质，是主动选择那些当前价值估计不确定、甚至可能带来短期负回报的动作，以获取新的信息，更新你对世界的认知模型。

生活中，这对应着：

太多人的人生策略是”纯利用”（pure exploitation）的——他们在 25 岁就找到了一个局部最优解，然后用接下来 40 年不断强化这个局部最优，直到环境剧变（行业消失、身体垮掉）将他们强行踢出舒适区。那时的策略更新成本极高。

聪明的策略是 ε-贪婪（ε-greedy）式的：大多数时候做当下最确定的正确的事（利用），但保留一个小的概率（比如 10% 的时间、精力、金钱）专门用于随机探索。这种”不为什么”的尝试，看似浪费，实则是为了防止你被困在人生的某个局部最高点，而错过那个真正的高峰。

记住：后悔（regret）最小化的秘密，不在于永远选对，而在于尽早发现哪些选项真的不对。

RL 的核心理论框架可以概括为一句话：先看清自己在哪，再找更好的路。

这对应两个交替进行的过程：策略评估（Policy Evaluation）和策略改进（Policy Improvement）。

在 RL 里，一个状态的价值（Value）不是客观属性，而是依赖于你当前的策略。同样的处境（state），如果你的应对方式（policy）不同，它的价值就完全不同。

这解释了为什么有些人能在低谷中反弹，有些人却一蹶不振。失业对策略 A（积极学习新技能的人）而言，可能是一个高价值状态（因为获得了自由时间）；对策略 B（消极抱怨的人）而言，则是低价值状态。环境的客观状态没变，变的是策略赋予它的价值。

因此，”低头做事”的第一层含义是：随着你的策略升级，不断重新评估你当前所处的状态。不要因为过去某个状态给你带来了负回报，就永久性地给它打上”坏”的标签。当你变强了，那个曾经困扰你的问题可能就不再是问题。

这是我想重点反驳的一个迷思。开头提到朋友说学习要”同策略（on-policy）”，只有自己的经验才作数。这在 RL 理论里其实过于严格。

同策略（如原始的策略梯度方法）要求你必须用”当前策略”产生的数据来更新当前策略，这在数学上很优雅，但样本效率极低。现实中更高效的算法（如 Q-learning）往往是异策略（off-policy）的——它们可以从别人的经验、历史的经验、甚至随机的经验中学习。

对应到生活：你不需要也不应该只从自己的错误中学习。读书、请教前辈、观察他人的失败，这些都是异策略学习，是极高性价比的策略改进方式。

更重要的是 RL 中的策略改进定理：只要你能找到一个动作，它的期望回报比当前策略下的动作更好，那么这个改进就是有效的，你就在向最优策略靠近。

这带来极强的生活指导意义：我们不需要追求完美的、一步到位的人生规划（exactly on-policy），也不需要等待”完全准备好”才行动。任何能带来正向期望收益的小改变，都是好的策略改进。

今天比昨天早睡 10 分钟，这周比上周多写了 1000 字，这次沟通比上次多倾听了一点——这些微小的策略梯度（policy gradient），虽然步子小，但只要期望为正，经过足够的迭代（iteration），终将收敛到一个远优于现在的局部最优解。

抬头看天，就是不断问自己：有没有哪个维度，我可以做一个微小的、正向的策略改进？

RL 术语的流行，本质上反映了当代人面对不确定性时的一种认知升级：我们开始接受世界是一个巨大的部分可观测的马尔可夫决策过程（POMDP），接受自己是一个在与环境交互中不断学习、不断犯错的智能体（agent）。

但别让这些”黑话”变成新的焦虑源。记住，RL 中最强大的思想不是那些复杂的数学推导，而是几个朴素的生存原则：

当朋友再和你说”你得到了一个负回报”时，你可以笑着回问：”那我的价值函数更新了吗？策略什么时候能收敛？”毕竟，在这个充满不确定性的环境里，唯一确定的最优策略，就是永远保持学习的能力。