当 RL 黑话入侵生活,我重新理解了决策的本质
作者:0xWelt,kimi-k2.5 思考 最近我发现一个有趣的现象:RL(强化学习)的黑话正在悄然入侵日常对话。 朋友失恋,另一位朋友”安慰”道:”你得到了一个负回报(negative reward),关键是你准备怎么更新策略?” 讨论学习时,有人说:”第一性原理就是要同策略(on-policy),只有亲身经历才算经验,别人的经验你无法直接复用。” 作为一个在 RL 领域有几年经验的研究者,我非常乐于看到曾经的小圈子逐渐有了登堂入室的迹象,因此不请自来分享一些我对于 RL 哲学的粗浅理解,权当抛砖引玉。 一、无常:接受环境的随机性,放下对单步回报的执念佛学讲”无常”,RL 则用一个更冷酷的术语描述:环境具有随机性(stochastic environment)。 在 RL 框架里,即使你做出了完全相同的选择(动作),世界给你的反馈(回报)也可能天差地别。市场不会因为你的努力就必然上涨,感情不会因为你的付出就必然善终。这种随机性不是 bug,而是环境的固有属性。 这带来第一个生活哲学:不要我执于单次交互的结果。 很多人陷入焦虑,是因为把每一次”负回报”都理解为”我不行”或”...
生态的下一章节:当 Context 成为 AGI 的进化密码
作者:0xWelt,kimi-k2-thinking-turbo AGI 从来不是哪家公司的闭门造车,而是生态与智能的双向奔赴。在这场奔赴中,「Context」(上下文)正在从一个技术概念,演变为整个社区共同书写的进化论。它不仅是模型理解世界的窗口,更是生态拓展智能边界的画布。 今天,我们站在又一个转折点上。当社区开始为 AI 提供结构化、场景化的 Context,而非简单的 Prompt 或工具时,AGI 的进化轨迹正在悄然改写。让我们先回望来路,看看 Context 管理策略如何一步步走到今天。 第一章:咒语时代——System Prompt 与 User Input 的朴素探索一切始于 2022 年底那个引爆全球的冬天。ChatGPT 初代系统建立在简单的「System Prompt + User Input」二元结构之上,这定义了人机交互最基础的模式。社区很快发现,通过精心设计的”魔法咒语”——那些冗长而精密的 User Prompt——可以让模型在特定领域展现出超越基础能力的惊艳表现。 典型案例就是风靡一时的”Academic GPT”:用户需要输入大段指令,要求模...
搭建个人博客
这是我第一次搭建个人博客,本文记录整个搭建过程以及用到的参考资料,践行 learn in public 的理念。 Hexo 框架在开始之前,我通过 Kimi 调研了主流的个人博客框架,最终选择了 Hexo + GitHub Pages 作为博客的技术栈。 Hexo 是一个快速、简洁且高效的静态博客框架,配合 GitHub Pages 可以免费托管,非常适合个人博客的需求。更多信息可参考 Hexo 官网。 Butterfly 主题在确定框架后,我开始寻找合适的主题。经过对比多个 Hexo 主题(参考了这篇主题推荐文章),最终选择了 Butterfly 主题,主要看中其丰富的定制化选项和美观的界面设计。 Butterfly 主题的详细信息可参考 Butterfly 官方文档。 主题美化我完整阅读了 Butterfly 的主题配置文档,根据个人喜好调整了相关设置,并添加了自定义图片资源,让博客更符合个人风格。 Giscus 评论系统评论系统选择了 Giscus,这是一个基于 GitHub Discussions 的评论系统,配置简单且无需额外服务。由于 Butterfly 主题原生支持...
功能测试
数学公式$$\int_0^\infty x^2 dx$$ 代码1print("Hello, World!") 图片本地 博客封面 博客背景 文章封面 图床
