当 RL 黑话入侵生活,我重新理解了决策的本质
作者:0xWelt,kimi-k2.5 思考
最近我发现一个有趣的现象:RL(强化学习)的黑话正在悄然入侵日常对话。
朋友失恋,另一位朋友”安慰”道:”你得到了一个负回报(negative reward),关键是你准备怎么更新策略?” 讨论学习时,有人说:”第一性原理就是要同策略(on-policy),只有亲身经历才算经验,别人的经验你无法直接复用。”
作为一个在 RL 领域有几年经验的研究者,我非常乐于看到曾经的小圈子逐渐有了登堂入室的迹象,因此不请自来分享一些我对于 RL 哲学的粗浅理解,权当抛砖引玉。
一、无常:接受环境的随机性,放下对单步回报的执念
佛学讲”无常”,RL 则用一个更冷酷的术语描述:环境具有随机性(stochastic environment)。
在 RL 框架里,即使你做出了完全相同的选择(动作),世界给你的反馈(回报)也可能天差地别。市场不会因为你的努力就必然上涨,感情不会因为你的付出就必然善终。这种随机性不是 bug,而是环境的固有属性。
这带来第一个生活哲学:不要我执于单次交互的结果。
很多人陷入焦虑,是因为把每一次”负回报”都理解为”我不行”或”世界错了”。但在 RL 视角下,回报(reward)只是环境给你的一个标量信号,它反映的是”这次交互”,而非”你的本质”。一次面试失败、一段关系破裂、一场投资亏损,这些都只是你与复杂环境采样(sampling)后的瞬时反馈。
理性的做法是什么?是追求累积回报(return)的期望最大化——换句话说,不要纠结于某一步得到了 +1 还是 -1,而是关注长期来看,你的策略是否在不断积累正收益。这种视角转换,让人从”这次为什么倒霉”的受害者叙事,转向”我的策略哪里可以迭代”的建设者叙事。
珍惜当下,在 RL 里意味着:充分观察当前状态(state),接受它的不确定性,然后做出当下最优的动作选择,而非沉溺于上一步的得失。
二、探索与利用:跳出局部最优的人生算法
这是 RL 中最著名的困境:探索(Exploration)与利用(Exploitation)的权衡。
利用很直观:基于你现有的认知,选择当前看起来最好的动作。去常去的那家餐厅,做你擅长的工作,待在舒适区。这没问题,它确保了你的策略(policy)在当前信息下不犯大错。
但危险在于局部最优陷阱。如果你从不尝试新餐馆,你可能永远错过那家更棒的;如果你从不尝试新领域,你可能永远不知道自己的天赋在哪。探索的本质,是主动选择那些当前价值估计不确定、甚至可能带来短期负回报的动作,以获取新的信息,更新你对世界的认知模型。
生活中,这对应着:
- 利用:深耕现有赛道,积累复利
- 探索:跨界学习、尝试副业、认识不同类型的人、去陌生的地方
太多人的人生策略是”纯利用”(pure exploitation)的——他们在 25 岁就找到了一个局部最优解,然后用接下来 40 年不断强化这个局部最优,直到环境剧变(行业消失、身体垮掉)将他们强行踢出舒适区。那时的策略更新成本极高。
聪明的策略是 ε-贪婪(ε-greedy)式的:大多数时候做当下最确定的正确的事(利用),但保留一个小的概率(比如 10% 的时间、精力、金钱)专门用于随机探索。这种”不为什么”的尝试,看似浪费,实则是为了防止你被困在人生的某个局部最高点,而错过那个真正的高峰。
记住:后悔(regret)最小化的秘密,不在于永远选对,而在于尽早发现哪些选项真的不对。
三、策略评估与策略改进:低头做事,抬头看天
RL 的核心理论框架可以概括为一句话:先看清自己在哪,再找更好的路。
这对应两个交替进行的过程:策略评估(Policy Evaluation)和策略改进(Policy Improvement)。
1. 策略评估:事情本身无好坏,好坏来自你的回应
在 RL 里,一个状态的价值(Value)不是客观属性,而是依赖于你当前的策略。同样的处境(state),如果你的应对方式(policy)不同,它的价值就完全不同。
这解释了为什么有些人能在低谷中反弹,有些人却一蹶不振。失业对策略 A(积极学习新技能的人)而言,可能是一个高价值状态(因为获得了自由时间);对策略 B(消极抱怨的人)而言,则是低价值状态。环境的客观状态没变,变的是策略赋予它的价值。
因此,”低头做事”的第一层含义是:随着你的策略升级,不断重新评估你当前所处的状态。不要因为过去某个状态给你带来了负回报,就永久性地给它打上”坏”的标签。当你变强了,那个曾经困扰你的问题可能就不再是问题。
2. 策略改进:不要追求完美,只要正向增量
这是我想重点反驳的一个迷思。开头提到朋友说学习要”同策略(on-policy)”,只有自己的经验才作数。这在 RL 理论里其实过于严格。
同策略(如原始的策略梯度方法)要求你必须用”当前策略”产生的数据来更新当前策略,这在数学上很优雅,但样本效率极低。现实中更高效的算法(如 Q-learning)往往是异策略(off-policy)的——它们可以从别人的经验、历史的经验、甚至随机的经验中学习。
对应到生活:你不需要也不应该只从自己的错误中学习。读书、请教前辈、观察他人的失败,这些都是异策略学习,是极高性价比的策略改进方式。
更重要的是 RL 中的策略改进定理:只要你能找到一个动作,它的期望回报比当前策略下的动作更好,那么这个改进就是有效的,你就在向最优策略靠近。
这带来极强的生活指导意义:我们不需要追求完美的、一步到位的人生规划(exactly on-policy),也不需要等待”完全准备好”才行动。任何能带来正向期望收益的小改变,都是好的策略改进。
今天比昨天早睡 10 分钟,这周比上周多写了 1000 字,这次沟通比上次多倾听了一点——这些微小的策略梯度(policy gradient),虽然步子小,但只要期望为正,经过足够的迭代(iteration),终将收敛到一个远优于现在的局部最优解。
抬头看天,就是不断问自己:有没有哪个维度,我可以做一个微小的、正向的策略改进?
结语:做成长的智能体,而非完美的智能体
RL 术语的流行,本质上反映了当代人面对不确定性时的一种认知升级:我们开始接受世界是一个巨大的部分可观测的马尔可夫决策过程(POMDP),接受自己是一个在与环境交互中不断学习、不断犯错的智能体(agent)。
但别让这些”黑话”变成新的焦虑源。记住,RL 中最强大的思想不是那些复杂的数学推导,而是几个朴素的生存原则:
- 接受随机性:世界无常,单次回报说明不了什么
- 保持探索:用 10% 的疯狂对抗局部最优
- 持续迭代:不需要完美的计划,只需要持续正向的小改进
当朋友再和你说”你得到了一个负回报”时,你可以笑着回问:”那我的价值函数更新了吗?策略什么时候能收敛?”毕竟,在这个充满不确定性的环境里,唯一确定的最优策略,就是永远保持学习的能力。
