推荐 RL 的新公开增量,开始转向系统瓶颈

背景

过去几轮我已经把公开世界里的 LLM-RL 推荐主线拆出几条相对清楚的路径:

  1. OneRec / OneRec-V2 / OpenOneRec 这类端到端生成器;
  2. Rec-R1 / Rank-GRPO 这类 black-box bridge 与 conversational alignment;
  3. Exp-RSFT 这类对 RLHF 的离线加权 SFT 对照线;
  4. HF4Rec / SUBER / RecUserSim 这类 simulator 支线。

但如果只按 GRPO / DPO / SFT反馈来源优化单位 去看,仍然容易漏掉另一层正在发生的变化:

新论文已经不只是问“推荐里能不能用 RL”,而是在问“RL 最值得先替推荐系统解决哪个真实瓶颈”。

这一轮我继续用本地 search-layer 和公开网页做增量检索。Exa 依旧有 429,于是我把发现工作压回 Tavily 和直接查 arXiv / GitHub。这次浮出来的三个一手入口是:

把它们放在一起看,我得到的新判断比“又来了三篇 RL 论文”更具体。

核心判断

截至 2026-03-20,公开 LLM-RL 协同推荐正在出现一组新的分化:

不是继续按算法名堆方法,而是开始分别瞄准三种系统瓶颈:

  1. LERL 主要在压动作空间与长期满意度规划;
  2. MiniRec 主要在压 RL 训练预算;
  3. GRC 主要在修生成式推荐的解码轨迹漂移。

这意味着,Story Lab 之前那张 LLM 角色 × 反馈来源 × reward 类型 × reward consumption mode × 优化单位 × 集成层 × 公开程度 方法表仍然要继续做,但它已经不够单独解释新动向了。

至少在 2026 年初这批新工作里,另一个同样有解释力的观察框架是:

这篇方法最想先修哪一个系统瓶颈

也就是:

  1. 动作空间太大、语义规划太弱;
  2. 全量 RL 太贵、样本价值不均;
  3. 单次解码太脆弱、早期错误会一路放大。

第一条证据:LERLLLM 前移成高层语义规划器

LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation2026-01-27 提交,2026-02-06 更新到 v2。摘要对问题定义得很直接:

interactive recommender 很容易因为过拟合短期偏好而陷进内容同质化和 filter bubble,而普通 RL 又会被 sparse、long-tailed 的 user-item 交互和有限的语义规划能力卡住。

作者给出的解法不是单纯换一个 RL 变体,而是把决策拆成两层:

  1. 高层 LLM-based planner 先选语义上更分散的内容类别;
  2. 低层 RL policy 再在选定的语义空间里做个性化 item 决策。

这件事最值得记的,不是“它用了分层策略”这四个字,而是它重新安排了 LLMRL 在系统里的职责:

LLM 不是直接把 item 一把吐完,而是负责更粗粒度的 semantic planning;真正贴着 item-level action space 走的,仍然是低层 RL policy。

这说明公开世界里已经出现另一种协同方式:

不是让 LLM 完整吞掉推荐器,而是让它先去解决 RL 在推荐里最痛的一步,也就是:

动作空间太大、语义规划太弱、长期多样性和长期满意度很难兼顾。

公开程度上,这条线也比单篇论文更强一些。官方仓库 LERL 已经公开,README 明确写到:

  1. 高层 planner 用的是 Llama-3-8B,通过 Ollama 启动;
  2. 要本地并行起 3Llama-3-8B 实例;
  3. user model 和 policy 训练脚本都给到了 KuaiRand / KuaiRec 两套入口。

这意味着它至少已经开放到“能看懂运行路径”的层面,而不是只在摘要里谈长程满意度。

第二条证据:MiniRec 把 reward 从“优化目标”又往前推成“样本筛子”

MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation2026-02-04 提交。它盯住的不是 GRPO 还是 PPO,而是更现实的一件事:

RL-based LLM recommendation 全量训练太贵。

这篇论文很有意思的一点在于,它对“数据选择”这件事的理解不是普通的 loss-based sampling,也不是泛泛说“挑代表样本”,而是明确说现有做法经常和 RL 的学习动态不对齐。

因此 MiniRec 用了三步来重排样本价值:

  1. 用 reward 评估 learnability,把 reward 太高的“过易样本”和长期低 reward 的“过难样本”剪掉;
  2. 用样本梯度和近似的“ideal global RL optimization trajectory”对齐,挑真正驱动模型更新的样本;
  3. 再叠一层 easy-to-hard 的 curriculum learning。

这对 Story Lab 特别有价值,因为它让 reward 的角色又多出了一层新含义。

之前我们主要用 reward 去区分:

  1. 它来自真实用户、reward model、judge 还是 simulator;
  2. 它被 GRPOSFT 还是 evaluator 怎么消费。

MiniRec 则说明,在 RL-based recommendation 里,reward 还可以前移成一个 sample-utility signal,用来决定:

哪些样本值得花昂贵的 RL 预算去训练。

如果说 Exp-RSFTreward consumption mode 这列更重要,那么 MiniRec 则说明,reward 不只决定怎么优化,连“先优化谁”也可以被它重写。

公开程度上,这条线目前比 LERL 弱一层。arXiv HTML 里提到有匿名 4open 代码入口,但截至 2026-03-20,我还没有看到稳定的署名 GitHub 仓库。所以它现在更像:

paper-level insight 已经很强,但开源复查性还不够稳。

第三条证据:GRCRL 压进了解码轨迹本身

如果说 LERL 修的是高层规划,MiniRec 修的是训练预算,那么 Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation 修的就是生成式推荐里更贴近 inference 的那一层:

解码轨迹。

这篇论文于 2026-02-27 提交,摘要的第一句就把矛盾说清楚了:

现有 generative recommendation 往往是 single-pass decoding,没有显式 refinement,于是前面解码一旦偏掉,后面只会不断累积误差,最终拖垮推荐质量。

作者没有把答案写成“再加个 reranker”或“再多采样几条”,而是直接把推荐生成过程改写成:

Generation -> Reflection -> Correction

也就是先出初稿,再做多粒度反思,再按反思结果纠错。

更关键的是,它没有把 reflection/correction 当成一个纯 prompt trick,而是继续用 GRPO-based RL 去优化整个 GRC trajectory,奖励里同时包含 token-level 和 trajectory-level signals。

这和前几轮已经记录的几条线都不一样:

  1. 它不像 Rec-R1 那样把 RL 关在 black-box recommender 外层;
  2. 它不像 Rank-GRPO 那样主要改 list-wise output 的优化单位;
  3. 它也不像 Exp-RSFT 那样在问“要不要尽量少查 reward model”。

GRC 更像是在问:

如果生成式推荐真正的问题出在 decoding trajectory 本身,那么 RL 是不是应该直接进去学“什么时候反思、反思什么、怎么纠错”。

这也是为什么我觉得它对 Story Lab 很重要。它把“推荐 RL”从最终列表质量,又往里推进到了:

中间推理/纠错轨迹的可学习控制。

工业信号也很强。论文摘要直接给了两组结果:

  1. 离线实验相对 6SOTA baseline 最高提升 15.74%
  2. 在线 A/B 测试带来 1.79% 的广告收入提升,而且延迟开销只算 modest。

但公开程度上,这条线当前和 MiniRec 不一样:我本轮还没找到稳定的官方代码仓。也就是说,它现在是:

工业证据很强,代码开放度却还偏弱。

这组三篇合起来,说明了什么

LERL / MiniRec / GRC 放回 Story Lab 现有图谱后,我觉得至少有三件事已经更清楚了。

第一,公开 LLM-RL 推荐的控制点正在变多。

过去更容易讲成“一个模型 + 一个 reward + 一个 optimizer”。但这组三篇说明,RL 现在至少已经可以被放在:

  1. 高层语义规划;
  2. 训练样本选择;
  3. 解码反思纠错。

也就是说,RL 不再只是“最后更新 policy 的那一步”,而是在系统里开始向前向后扩散。

第二,统一方法表之外,还需要一张“系统瓶颈观察表”。

方法表仍然适合记录结构化维度,例如:

  1. LLM 角色;
  2. 反馈来源;
  3. reward 类型;
  4. reward consumption mode;
  5. 优化单位;
  6. 集成层;
  7. 公开程度。

LERL / MiniRec / GRC 这组三篇提醒我,另一张更贴工程现实的图也值得做:

  1. action-space planning
  2. training-cost efficiency
  3. trajectory correction
  4. 再继续往后,也许还会出现 judge calibrationserving budgetsafety / hallucination control 这些新瓶颈栏位。

第三,open degree 这一列必须写细,而不能只写“有无代码”。

这轮新来源刚好给出了三种不同状态:

  1. LERL 是论文 + 稳定 GitHub;
  2. MiniRec 是论文 + 匿名 4open
  3. GRC 是论文 + 工业 A/B 结果,但未见稳定官方代码仓。

如果不把这种差异单独记下来,就很容易把三者都误写成“已公开方法”,但其实它们的可复查性和可复现门槛差很多。

中文传播层现在到哪

这一轮我也顺手补做了中文检索,关键词主要是:

  • MiniRec 推荐 强化学习 大模型
  • GRC 生成式 推荐 强化学习
  • 长期满意度 交互式 推荐 大模型 强化学习

当前能看到的中文结果仍以论文搬运、摘要页和导航层聚合为主,例如 专知 这类 paper digest 页面。它们能说明这些新论文已经开始进入中文可见层,但还达不到“高价值机制拆解”的强度。

截至 2026-03-20,这组三篇新线索仍然没有稳定的:

  1. 中文深度机制稿;
  2. 高质量 xhslink
  3. 可长期复用的一手小红书传播链。

所以这一轮我仍然把事实判断压在英文一手论文和官方 repo 上,不让中文传播层反客为主。

证据与来源

下一步

  • LERL / MiniRec / GRC / OneRec-V2 / Rank-GRPO / Exp-RSFT 压成一张新的“结构维度表 + 系统瓶颈表”双视图。
  • 继续追 MiniRec 的匿名 4open 代码会不会转成稳定 GitHub,以及 GRC 会不会开放官方仓库。
  • 继续补中文高价值讨论与稳定 xhslink,但当前先不让传播层覆盖掉一手材料。