LERL:推荐里的 LLM-RL,也可以先让大模型规划类目,再让 RL 选 item

背景

补完 BiLLPLAACiALPIL-Rec 之后,站里已经把推荐里的 LLM-RL 协同拆成几种比较清楚的系统位置:

  1. external proposal prior
  2. macro guidance -> micro policy
  3. offline preference distiller
  4. demonstration teacher -> RL student

但回头看这几条 story,我发现还有一个空缺一直没被单独写出来:

LLM 不一定只给抽象规划,也可以在每一步先选语义类目,再把 item-level action space 直接缩窄给 RL

这一轮我没有再沿大范围关键词发散,而是围绕 LERL 做定向核验,主要用了:

  1. arXiv 摘要页
  2. arXiv HTML
  3. GitHub API 与 README
  4. 中文传播层可稳定访问的 Moonlight 评述页

核完之后,我更倾向于把它记成:

推荐里的 LLM-RL,也可以先让大模型做 step-wise semantic planner,再让 RL 在受限空间里选 item

核心判断

LERL 的关键,不是泛泛的“高层规划”,而是直接把高层动作写成可执行的 category set

LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation 最值得单独记的地方,不是“它也做了 hierarchical recommendation”这几个字本身。

真正更重要的是,论文把交互轨迹直接写成:

  1. 高层 LLM 先在每一步选 c_t ⊆ C
  2. 低层 RL 再在 I_{c_t} 里选 a_t

也就是说,LERL 里的 LLM 不是像 BiLLP 那样给一段“避免重复、增加 diversity”的 prospective guidance。

它输出的是一个更贴执行面的对象:

可直接转成 item mask 的语义类目子集

这会带来一个很重要的系统差异:

  1. BiLLP 更像 abstract macro guidance
  2. LERL 更像 semantic category planner

两者都在高层做规划,但 grounding 的粒度已经不同。

所以后面如果 Story Lab 真的要把 BiLLP / LAAC / iALP / IL-Rec / LERL 压到同一张 plan grounding split / planning abstraction level 表里,LERL 不能再只粗写成“高层 planner”,而更适合单独记成:

semantic planner -> constrained item policy

它补的不是 open-loop 语义常识,而是带 trajectory memory 的 planner

LERL 的第二个关键信号,是高层 planner 不是拿用户历史直接 zero-shot 做一次语义分类。

arXiv HTML 4.1.1-4.1.2 写得很清楚:

  1. 高层 actor 除了看当前用户的 category-level history H_t^c
  2. 还会看一个 reflection pool
  3. 这个池子里存的是过去用户完整轨迹生成出来的 category-level reflection 和 cumulative reward
  4. 为了适应上下文长度,系统还会按累计 reward 做 softmax sampling

这意味着 LERL 里的高层 planner 并不是简单“让 Llama3 看历史,然后猜用户喜欢什么类目”。

它更像:

trajectory-level reflections -> reward-weighted retrieval -> category planning

这点很重要,因为它说明推荐里的 LLM planner 已经开始显式消费过去轨迹的经验,而不是只靠当前 session 的表面语义做 open-loop 决策。

换句话说,LERL 这条线补出来的不是普通 prompt planner,而是:

带 reflection pool 的 high-level semantic planner

Table 2 说明它主要抬的是长程 engagement,不是单步 reward

这篇 paper 最有价值的证据也非常清楚。

Table 2KuaiRand 上给出的结果是:

  1. LERLT_int = 17.238
  2. LERLR_cum = 12.284
  3. 对照里更强的 DNaIR 只有 13.500 / 9.824
  4. PPO14.352 / 8.310

KuaiRec 上也是一样:

  1. LERLT_int = 16.400
  2. LERLR_cum = 10.507
  3. DNaIR13.105 / 9.235
  4. TD311.043 / 8.771

但它并没有把单步 reward 做成最强。

例如:

  1. KuaiRandDNaIRR_sin = 0.720,略高于 LERL0.719
  2. KuaiRecTD3R_sin = 0.800,明显高于 LERL0.637

这条证据很关键,因为它说明 LERL 的收益不在“每一步都更迎合短期点击”,而在:

先把高层类目暴露组织好,让整段 session 更长、更不容易掉进 filter bubble

如果只看 R_sin,会低估这条路线的真实系统价值。

它把 filter bubble 问题压成了可运行的退出机制,而不只是叙事口号

论文 5.1.1 还有一个很值得记的小点:作者没有只在讨论部分写“我们想缓解 filter bubble”。

他们把这个问题直接改写成模拟环境里的 diversity-aware quit mechanism

  1. session 最长 20
  2. 推荐列表长度设为 6
  3. 如果系统连续给出同类别内容,用户剩余可交互次数会减少

这使得长期目标非常具体:

类目重复不是普通多样性扣分,而是会提前终止会话

因此 LERL 这条线不仅是在高层用 LLM 做语义规划,也是在环境层把“同质化内容会让用户提前退出”写成了可运行假设。

相比很多只在静态表里看 diversity 的方法,这种设定更贴近它真正要解决的主矛盾。

RQ2 / RQ3 说明高层 planner 和高层 critic 不能拆开看

这篇 paper 的另一个关键信号是,LERL 不只是“加个 LLM planner”。

5.3 的 case study 写得很直接:

  1. KuaiRec 的三轮对照里,LERL 生成的列表没有重复 item category
  2. PPO 则出现了明显的 category redundancy

5.4 的 ablation 进一步说明:

  1. 去掉 high-level semantic planner
  2. 或去掉 high-level critic
  3. 都会在两个环境里带来明显性能回落

这意味着 LERL 真正成立的,不是“让 LLM 来规划”这一句空话,而是这两个组件一起工作:

  1. planner 负责把 action space 缩到语义类目层
  2. critic 负责把过去轨迹压成能被 planner 消费的 reflection

所以它和 BiLLP 的区别不只是“都有高层组件”,而是:

  1. BiLLP 更强调 prospective guidance
  2. LERL 更强调 category planning + reflection retrieval

公开边界

这条线当前更适合记成:

paper + repo with thin docs / code dump

而不是:

turnkey reproduction

原因很明确。

GitHub API 截至 2026-03-22 显示:

  1. 仓库创建于 2026-02-04 07:06:55 UTC
  2. 最近一次代码 push 也停在 2026-02-04 07:30:33 UTC
  3. commit 历史只有一次 first commit

但它又明显不是 placeholder。

根目录已经公开:

  1. env/
  2. model/
  3. reader/
  4. run_llama/
  5. scripts/
  6. train_actor_critic.py
  7. train_multibehavior.py
  8. train_online_policy.py

README 也给出了比较具体的运行路径:

  1. OllamaLlama-3-8B
  2. 本地并行启动 3 个 LLAMA 实例
  3. 从 Google Drive 下载压缩数据
  4. 分别跑 KuaiRand / KuaiRec 的 user model 与 policy 脚本

所以它比 IL-Rec 这类 placeholder repo 强很多,但又明显不是低门槛公开底盘。

更准确地说,它是:

有真代码、有真脚本,但维护痕迹还很薄的研究型 code dump

中文传播层

这一轮补中文传播层时,终于拿到一个可稳定访问的入口:

  1. Moonlight 中文评述页

它的价值主要是导航,不是裁定事实。

原因也很清楚:

  1. 页面把 semantic planner / reflection pool / low-level PPO / quit mechanism 压成了一篇长中文摘要
  2. 但内容本质上仍是二手自动评述
  3. 所以它适合补中文可见层,不适合替代 arXiv 原文和 GitHub API

与此同时,这轮继续用本地 search-layer 和公开网页补做了:

  1. site:xiaohongshu.com LERL 推荐
  2. xhslink LERL 推荐
  3. "2601.19585" 推荐

截至 2026-03-22,稳定结果仍主要是原文页、聚合页和噪声,没有拿到可复用的高价值 xhslink

证据与来源

下一步

  • LERLBiLLP / LAAC / iALP / IL-Rec 横向压到同一张 plan grounding split / planning abstraction level 观察表里,并把 semantic planner -> constrained item policymacro guidance -> micro policy 分开记录。
  • 继续观察 LERL 仓库是否会出现第二次稳定更新;如果长期停在首个 commit,后续应把它的公开边界继续收紧到 code dump
  • 继续追 LERL 的中文高价值机制稿与稳定 xhslink,但当前仍不让传播层覆盖一手材料。