LERL：推荐里的 LLM-RL，也可以先让大模型规划类目，再让 RL 选 item

背景

补完 BiLLP、LAAC、iALP 和 IL-Rec 之后，站里已经把推荐里的 LLM-RL 协同拆成几种比较清楚的系统位置：

external proposal prior
macro guidance -> micro policy
offline preference distiller
demonstration teacher -> RL student

但回头看这几条 story，我发现还有一个空缺一直没被单独写出来：

LLM 不一定只给抽象规划，也可以在每一步先选语义类目，再把 item-level action space 直接缩窄给 RL

这一轮我没有再沿大范围关键词发散，而是围绕 LERL 做定向核验，主要用了：

arXiv 摘要页
arXiv HTML
GitHub API 与 README
中文传播层可稳定访问的 Moonlight 评述页

核完之后，我更倾向于把它记成：

推荐里的 LLM-RL，也可以先让大模型做 step-wise semantic planner，再让 RL 在受限空间里选 item

核心判断

`LERL` 的关键，不是泛泛的“高层规划”，而是直接把高层动作写成可执行的 category set

LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation 最值得单独记的地方，不是“它也做了 hierarchical recommendation”这几个字本身。

真正更重要的是，论文把交互轨迹直接写成：

高层 LLM 先在每一步选 c_t ⊆ C
低层 RL 再在 I_{c_t} 里选 a_t

也就是说，LERL 里的 LLM 不是像 BiLLP 那样给一段“避免重复、增加 diversity”的 prospective guidance。

它输出的是一个更贴执行面的对象：

可直接转成 item mask 的语义类目子集

这会带来一个很重要的系统差异：

BiLLP 更像 abstract macro guidance
LERL 更像 semantic category planner

两者都在高层做规划，但 grounding 的粒度已经不同。

所以后面如果 Story Lab 真的要把 BiLLP / LAAC / iALP / IL-Rec / LERL 压到同一张 plan grounding split / planning abstraction level 表里，LERL 不能再只粗写成“高层 planner”，而更适合单独记成：

semantic planner -> constrained item policy

它补的不是 open-loop 语义常识，而是带 trajectory memory 的 planner

LERL 的第二个关键信号，是高层 planner 不是拿用户历史直接 zero-shot 做一次语义分类。

arXiv HTML 4.1.1-4.1.2 写得很清楚：

高层 actor 除了看当前用户的 category-level history H_t^c
还会看一个 reflection pool
这个池子里存的是过去用户完整轨迹生成出来的 category-level reflection 和 cumulative reward
为了适应上下文长度，系统还会按累计 reward 做 softmax sampling

这意味着 LERL 里的高层 planner 并不是简单“让 Llama3 看历史，然后猜用户喜欢什么类目”。

它更像：

trajectory-level reflections -> reward-weighted retrieval -> category planning

这点很重要，因为它说明推荐里的 LLM planner 已经开始显式消费过去轨迹的经验，而不是只靠当前 session 的表面语义做 open-loop 决策。

换句话说，LERL 这条线补出来的不是普通 prompt planner，而是：

带 reflection pool 的 high-level semantic planner

`Table 2` 说明它主要抬的是长程 engagement，不是单步 reward

这篇 paper 最有价值的证据也非常清楚。

Table 2 在 KuaiRand 上给出的结果是：

LERL 的 T_int = 17.238
LERL 的 R_cum = 12.284
对照里更强的 DNaIR 只有 13.500 / 9.824
PPO 是 14.352 / 8.310

在 KuaiRec 上也是一样：

LERL 的 T_int = 16.400
LERL 的 R_cum = 10.507
DNaIR 是 13.105 / 9.235
TD3 是 11.043 / 8.771

但它并没有把单步 reward 做成最强。

例如：

KuaiRand 上 DNaIR 的 R_sin = 0.720，略高于 LERL 的 0.719
KuaiRec 上 TD3 的 R_sin = 0.800，明显高于 LERL 的 0.637

这条证据很关键，因为它说明 LERL 的收益不在“每一步都更迎合短期点击”，而在：

先把高层类目暴露组织好，让整段 session 更长、更不容易掉进 filter bubble

如果只看 R_sin，会低估这条路线的真实系统价值。

它把 filter bubble 问题压成了可运行的退出机制，而不只是叙事口号

论文 5.1.1 还有一个很值得记的小点：作者没有只在讨论部分写“我们想缓解 filter bubble”。

他们把这个问题直接改写成模拟环境里的 diversity-aware quit mechanism：

session 最长 20 步
推荐列表长度设为 6
如果系统连续给出同类别内容，用户剩余可交互次数会减少

这使得长期目标非常具体：

类目重复不是普通多样性扣分，而是会提前终止会话

因此 LERL 这条线不仅是在高层用 LLM 做语义规划，也是在环境层把“同质化内容会让用户提前退出”写成了可运行假设。

相比很多只在静态表里看 diversity 的方法，这种设定更贴近它真正要解决的主矛盾。

`RQ2 / RQ3` 说明高层 planner 和高层 critic 不能拆开看

这篇 paper 的另一个关键信号是，LERL 不只是“加个 LLM planner”。

5.3 的 case study 写得很直接：

在 KuaiRec 的三轮对照里，LERL 生成的列表没有重复 item category
PPO 则出现了明显的 category redundancy

而 5.4 的 ablation 进一步说明：

去掉 high-level semantic planner
或去掉 high-level critic
都会在两个环境里带来明显性能回落

这意味着 LERL 真正成立的，不是“让 LLM 来规划”这一句空话，而是这两个组件一起工作：

planner 负责把 action space 缩到语义类目层
critic 负责把过去轨迹压成能被 planner 消费的 reflection

所以它和 BiLLP 的区别不只是“都有高层组件”，而是：

BiLLP 更强调 prospective guidance
LERL 更强调 category planning + reflection retrieval

公开边界

这条线当前更适合记成：

paper + repo with thin docs / code dump

而不是：

turnkey reproduction

原因很明确。

GitHub API 截至 2026-03-22 显示：

仓库创建于 2026-02-04 07:06:55 UTC
最近一次代码 push 也停在 2026-02-04 07:30:33 UTC
commit 历史只有一次 first commit

但它又明显不是 placeholder。

根目录已经公开：

env/
model/
reader/
run_llama/
scripts/
train_actor_critic.py
train_multibehavior.py
train_online_policy.py

README 也给出了比较具体的运行路径：

用 Ollama 装 Llama-3-8B
本地并行启动 3 个 LLAMA 实例
从 Google Drive 下载压缩数据
分别跑 KuaiRand / KuaiRec 的 user model 与 policy 脚本

所以它比 IL-Rec 这类 placeholder repo 强很多，但又明显不是低门槛公开底盘。

更准确地说，它是：

有真代码、有真脚本，但维护痕迹还很薄的研究型 code dump

中文传播层

这一轮补中文传播层时，终于拿到一个可稳定访问的入口：

Moonlight 中文评述页

它的价值主要是导航，不是裁定事实。

原因也很清楚：

页面把 semantic planner / reflection pool / low-level PPO / quit mechanism 压成了一篇长中文摘要
但内容本质上仍是二手自动评述
所以它适合补中文可见层，不适合替代 arXiv 原文和 GitHub API

与此同时，这轮继续用本地 search-layer 和公开网页补做了：

site:xiaohongshu.com LERL 推荐
xhslink LERL 推荐
"2601.19585" 推荐

截至 2026-03-22，稳定结果仍主要是原文页、聚合页和噪声，没有拿到可复用的高价值 xhslink。

证据与来源

LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation：arXiv 摘要主入口。可稳定回查提交时间 2026-01-27、更新到 v2 的时间 2026-02-06，并给出方法总述。
LERL arXiv HTML：正文关键入口。3-5 节写清 c_t ⊆ C -> a_t ⊆ I_{c_t} 的分层形式、reflection pool、diversity-aware quit mechanism、Table 2 主结果，以及 RQ2 / RQ3 的 case study 和 ablation。
1163710212/LERL：官方仓入口。README 明确要求 Ollama + Llama-3-8B、并行 3 个实例、Google Drive 数据和 KuaiRand / KuaiRec 训练脚本。
Moonlight 中文评述：当前可稳定访问的中文导航层入口，适合补传播面，但不作为事实依据。

下一步

把 LERL 与 BiLLP / LAAC / iALP / IL-Rec 横向压到同一张 plan grounding split / planning abstraction level 观察表里，并把 semantic planner -> constrained item policy 和 macro guidance -> micro policy 分开记录。
继续观察 LERL 仓库是否会出现第二次稳定更新；如果长期停在首个 commit，后续应把它的公开边界继续收紧到 code dump。
继续追 LERL 的中文高价值机制稿与稳定 xhslink，但当前仍不让传播层覆盖一手材料。