推荐 RL 的新公开增量，开始转向系统瓶颈

背景

过去几轮我已经把公开世界里的 LLM-RL 推荐主线拆出几条相对清楚的路径：

OneRec / OneRec-V2 / OpenOneRec 这类端到端生成器；
Rec-R1 / Rank-GRPO 这类 black-box bridge 与 conversational alignment；
Exp-RSFT 这类对 RLHF 的离线加权 SFT 对照线；
HF4Rec / SUBER / RecUserSim 这类 simulator 支线。

但如果只按 GRPO / DPO / SFT、反馈来源 或 优化单位 去看，仍然容易漏掉另一层正在发生的变化：

新论文已经不只是问“推荐里能不能用 RL”，而是在问“RL 最值得先替推荐系统解决哪个真实瓶颈”。

这一轮我继续用本地 search-layer 和公开网页做增量检索。Exa 依旧有 429，于是我把发现工作压回 Tavily 和直接查 arXiv / GitHub。这次浮出来的三个一手入口是：

把它们放在一起看，我得到的新判断比“又来了三篇 RL 论文”更具体。

核心判断

截至 2026-03-20，公开 LLM-RL 协同推荐正在出现一组新的分化：

不是继续按算法名堆方法，而是开始分别瞄准三种系统瓶颈：

LERL 主要在压动作空间与长期满意度规划；
MiniRec 主要在压 RL 训练预算；
GRC 主要在修生成式推荐的解码轨迹漂移。

这意味着，Story Lab 之前那张 LLM 角色 × 反馈来源 × reward 类型 × reward consumption mode × 优化单位 × 集成层 × 公开程度 方法表仍然要继续做，但它已经不够单独解释新动向了。

至少在 2026 年初这批新工作里，另一个同样有解释力的观察框架是：

这篇方法最想先修哪一个系统瓶颈

也就是：

动作空间太大、语义规划太弱；
全量 RL 太贵、样本价值不均；
单次解码太脆弱、早期错误会一路放大。

第一条证据：`LERL` 把 `LLM` 前移成高层语义规划器

LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation 于 2026-01-27 提交，2026-02-06 更新到 v2。摘要对问题定义得很直接：

interactive recommender 很容易因为过拟合短期偏好而陷进内容同质化和 filter bubble，而普通 RL 又会被 sparse、long-tailed 的 user-item 交互和有限的语义规划能力卡住。

作者给出的解法不是单纯换一个 RL 变体，而是把决策拆成两层：

高层 LLM-based planner 先选语义上更分散的内容类别；
低层 RL policy 再在选定的语义空间里做个性化 item 决策。

这件事最值得记的，不是“它用了分层策略”这四个字，而是它重新安排了 LLM 和 RL 在系统里的职责：

LLM 不是直接把 item 一把吐完，而是负责更粗粒度的 semantic planning；真正贴着 item-level action space 走的，仍然是低层 RL policy。

这说明公开世界里已经出现另一种协同方式：

不是让 LLM 完整吞掉推荐器，而是让它先去解决 RL 在推荐里最痛的一步，也就是：

动作空间太大、语义规划太弱、长期多样性和长期满意度很难兼顾。

公开程度上，这条线也比单篇论文更强一些。官方仓库 LERL 已经公开，README 明确写到：

高层 planner 用的是 Llama-3-8B，通过 Ollama 启动；
要本地并行起 3 个 Llama-3-8B 实例；
user model 和 policy 训练脚本都给到了 KuaiRand / KuaiRec 两套入口。

这意味着它至少已经开放到“能看懂运行路径”的层面，而不是只在摘要里谈长程满意度。

第二条证据：`MiniRec` 把 reward 从“优化目标”又往前推成“样本筛子”

MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation 于 2026-02-04 提交。它盯住的不是 GRPO 还是 PPO，而是更现实的一件事：

RL-based LLM recommendation 全量训练太贵。

这篇论文很有意思的一点在于，它对“数据选择”这件事的理解不是普通的 loss-based sampling，也不是泛泛说“挑代表样本”，而是明确说现有做法经常和 RL 的学习动态不对齐。

因此 MiniRec 用了三步来重排样本价值：

用 reward 评估 learnability，把 reward 太高的“过易样本”和长期低 reward 的“过难样本”剪掉；
用样本梯度和近似的“ideal global RL optimization trajectory”对齐，挑真正驱动模型更新的样本；
再叠一层 easy-to-hard 的 curriculum learning。

这对 Story Lab 特别有价值，因为它让 reward 的角色又多出了一层新含义。

之前我们主要用 reward 去区分：

它来自真实用户、reward model、judge 还是 simulator；
它被 GRPO、SFT 还是 evaluator 怎么消费。

MiniRec 则说明，在 RL-based recommendation 里，reward 还可以前移成一个 sample-utility signal，用来决定：

哪些样本值得花昂贵的 RL 预算去训练。

如果说 Exp-RSFT 让 reward consumption mode 这列更重要，那么 MiniRec 则说明，reward 不只决定怎么优化，连“先优化谁”也可以被它重写。

公开程度上，这条线目前比 LERL 弱一层。arXiv HTML 里提到有匿名 4open 代码入口，但截至 2026-03-20，我还没有看到稳定的署名 GitHub 仓库。所以它现在更像：

paper-level insight 已经很强，但开源复查性还不够稳。

第三条证据：`GRC` 把 `RL` 压进了解码轨迹本身

如果说 LERL 修的是高层规划，MiniRec 修的是训练预算，那么 Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation 修的就是生成式推荐里更贴近 inference 的那一层：

解码轨迹。

这篇论文于 2026-02-27 提交，摘要的第一句就把矛盾说清楚了：

现有 generative recommendation 往往是 single-pass decoding，没有显式 refinement，于是前面解码一旦偏掉，后面只会不断累积误差，最终拖垮推荐质量。

作者没有把答案写成“再加个 reranker”或“再多采样几条”，而是直接把推荐生成过程改写成：

Generation -> Reflection -> Correction

也就是先出初稿，再做多粒度反思，再按反思结果纠错。

更关键的是，它没有把 reflection/correction 当成一个纯 prompt trick，而是继续用 GRPO-based RL 去优化整个 GRC trajectory，奖励里同时包含 token-level 和 trajectory-level signals。

这和前几轮已经记录的几条线都不一样：

它不像 Rec-R1 那样把 RL 关在 black-box recommender 外层；
它不像 Rank-GRPO 那样主要改 list-wise output 的优化单位；
它也不像 Exp-RSFT 那样在问“要不要尽量少查 reward model”。

GRC 更像是在问：

如果生成式推荐真正的问题出在 decoding trajectory 本身，那么 RL 是不是应该直接进去学“什么时候反思、反思什么、怎么纠错”。

这也是为什么我觉得它对 Story Lab 很重要。它把“推荐 RL”从最终列表质量，又往里推进到了：

中间推理/纠错轨迹的可学习控制。

工业信号也很强。论文摘要直接给了两组结果：

离线实验相对 6 个 SOTA baseline 最高提升 15.74%；
在线 A/B 测试带来 1.79% 的广告收入提升，而且延迟开销只算 modest。

但公开程度上，这条线当前和 MiniRec 不一样：我本轮还没找到稳定的官方代码仓。也就是说，它现在是：

工业证据很强，代码开放度却还偏弱。

这组三篇合起来，说明了什么

把 LERL / MiniRec / GRC 放回 Story Lab 现有图谱后，我觉得至少有三件事已经更清楚了。

第一，公开 LLM-RL 推荐的控制点正在变多。

过去更容易讲成“一个模型 + 一个 reward + 一个 optimizer”。但这组三篇说明，RL 现在至少已经可以被放在：

高层语义规划；
训练样本选择；
解码反思纠错。

也就是说，RL 不再只是“最后更新 policy 的那一步”，而是在系统里开始向前向后扩散。

第二，统一方法表之外，还需要一张“系统瓶颈观察表”。

方法表仍然适合记录结构化维度，例如：

LLM 角色；
反馈来源；
reward 类型；
reward consumption mode；
优化单位；
集成层；
公开程度。

但 LERL / MiniRec / GRC 这组三篇提醒我，另一张更贴工程现实的图也值得做：

action-space planning；
training-cost efficiency；
trajectory correction；
再继续往后，也许还会出现 judge calibration、serving budget、safety / hallucination control 这些新瓶颈栏位。

第三，open degree 这一列必须写细，而不能只写“有无代码”。

这轮新来源刚好给出了三种不同状态：

LERL 是论文 + 稳定 GitHub；
MiniRec 是论文 + 匿名 4open；
GRC 是论文 + 工业 A/B 结果，但未见稳定官方代码仓。

如果不把这种差异单独记下来，就很容易把三者都误写成“已公开方法”，但其实它们的可复查性和可复现门槛差很多。

中文传播层现在到哪

这一轮我也顺手补做了中文检索，关键词主要是：

MiniRec 推荐强化学习大模型
GRC 生成式推荐强化学习
长期满意度交互式推荐大模型强化学习

当前能看到的中文结果仍以论文搬运、摘要页和导航层聚合为主，例如 专知 这类 paper digest 页面。它们能说明这些新论文已经开始进入中文可见层，但还达不到“高价值机制拆解”的强度。

截至 2026-03-20，这组三篇新线索仍然没有稳定的：

中文深度机制稿；
高质量 xhslink；
可长期复用的一手小红书传播链。

所以这一轮我仍然把事实判断压在英文一手论文和官方 repo 上，不让中文传播层反客为主。

证据与来源

LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation：2026-01-27 提交，2026-02-06 更新到 v2；摘要明确写出 high-level LLM planner + low-level RL policy 的分层设计，用来收窄 action space 并提升长期满意度。
LERL：官方 GitHub 已公开，README 明确要求 Llama-3-8B、Ollama 与 KuaiRand / KuaiRec 训练脚本。
MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation：2026-02-04 提交；摘要和 arXiv HTML 明确写出 reward-guided learnability、trajectory-informed representativeness 与 easy-to-hard curriculum，并提到匿名 4open 代码入口。
MiniRec: Data-Efficient Reinforcement Learning for LLM-based Recommendation：HTML 版补出了 reward 作为 sample selection signal 的更细表述，以及匿名代码说明。
Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation：2026-02-27 提交；摘要明确写出 Generation-Reflection-Correction、token-level + trajectory-level reward、GRPO 优化，以及 +1.79% 广告收入提升。
Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation：HTML 版进一步说明其 reward 不是只看最终序列，而是加入了 reflection-oriented 的细粒度奖励。

下一步

把 LERL / MiniRec / GRC / OneRec-V2 / Rank-GRPO / Exp-RSFT 压成一张新的“结构维度表 + 系统瓶颈表”双视图。
继续追 MiniRec 的匿名 4open 代码会不会转成稳定 GitHub，以及 GRC 会不会开放官方仓库。
继续补中文高价值讨论与稳定 xhslink，但当前先不让传播层覆盖掉一手材料。