LERL:推荐里的 LLM-RL,也可以先让大模型规划类目,再让 RL 选 item
背景
补完 BiLLP、LAAC、iALP 和 IL-Rec 之后,站里已经把推荐里的 LLM-RL 协同拆成几种比较清楚的系统位置:
external proposal priormacro guidance -> micro policyoffline preference distillerdemonstration teacher -> RL student
但回头看这几条 story,我发现还有一个空缺一直没被单独写出来:
LLM 不一定只给抽象规划,也可以在每一步先选语义类目,再把 item-level action space 直接缩窄给 RL
这一轮我没有再沿大范围关键词发散,而是围绕 LERL 做定向核验,主要用了:
- arXiv 摘要页
- arXiv HTML
- GitHub API 与 README
- 中文传播层可稳定访问的
Moonlight评述页
核完之后,我更倾向于把它记成:
推荐里的 LLM-RL,也可以先让大模型做 step-wise semantic planner,再让 RL 在受限空间里选 item
核心判断
LERL 的关键,不是泛泛的“高层规划”,而是直接把高层动作写成可执行的 category set
LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation 最值得单独记的地方,不是“它也做了 hierarchical recommendation”这几个字本身。
真正更重要的是,论文把交互轨迹直接写成:
- 高层
LLM先在每一步选c_t ⊆ C - 低层
RL再在I_{c_t}里选a_t
也就是说,LERL 里的 LLM 不是像 BiLLP 那样给一段“避免重复、增加 diversity”的 prospective guidance。
它输出的是一个更贴执行面的对象:
可直接转成 item mask 的语义类目子集
这会带来一个很重要的系统差异:
BiLLP更像abstract macro guidanceLERL更像semantic category planner
两者都在高层做规划,但 grounding 的粒度已经不同。
所以后面如果 Story Lab 真的要把 BiLLP / LAAC / iALP / IL-Rec / LERL 压到同一张 plan grounding split / planning abstraction level 表里,LERL 不能再只粗写成“高层 planner”,而更适合单独记成:
semantic planner -> constrained item policy
它补的不是 open-loop 语义常识,而是带 trajectory memory 的 planner
LERL 的第二个关键信号,是高层 planner 不是拿用户历史直接 zero-shot 做一次语义分类。
arXiv HTML 4.1.1-4.1.2 写得很清楚:
- 高层 actor 除了看当前用户的 category-level history
H_t^c - 还会看一个
reflection pool - 这个池子里存的是过去用户完整轨迹生成出来的 category-level reflection 和 cumulative reward
- 为了适应上下文长度,系统还会按累计 reward 做 softmax sampling
这意味着 LERL 里的高层 planner 并不是简单“让 Llama3 看历史,然后猜用户喜欢什么类目”。
它更像:
trajectory-level reflections -> reward-weighted retrieval -> category planning
这点很重要,因为它说明推荐里的 LLM planner 已经开始显式消费过去轨迹的经验,而不是只靠当前 session 的表面语义做 open-loop 决策。
换句话说,LERL 这条线补出来的不是普通 prompt planner,而是:
带 reflection pool 的 high-level semantic planner
Table 2 说明它主要抬的是长程 engagement,不是单步 reward
这篇 paper 最有价值的证据也非常清楚。
Table 2 在 KuaiRand 上给出的结果是:
LERL的T_int = 17.238LERL的R_cum = 12.284- 对照里更强的
DNaIR只有13.500 / 9.824 PPO是14.352 / 8.310
在 KuaiRec 上也是一样:
LERL的T_int = 16.400LERL的R_cum = 10.507DNaIR是13.105 / 9.235TD3是11.043 / 8.771
但它并没有把单步 reward 做成最强。
例如:
KuaiRand上DNaIR的R_sin = 0.720,略高于LERL的0.719KuaiRec上TD3的R_sin = 0.800,明显高于LERL的0.637
这条证据很关键,因为它说明 LERL 的收益不在“每一步都更迎合短期点击”,而在:
先把高层类目暴露组织好,让整段 session 更长、更不容易掉进 filter bubble
如果只看 R_sin,会低估这条路线的真实系统价值。
它把 filter bubble 问题压成了可运行的退出机制,而不只是叙事口号
论文 5.1.1 还有一个很值得记的小点:作者没有只在讨论部分写“我们想缓解 filter bubble”。
他们把这个问题直接改写成模拟环境里的 diversity-aware quit mechanism:
- session 最长
20步 - 推荐列表长度设为
6 - 如果系统连续给出同类别内容,用户剩余可交互次数会减少
这使得长期目标非常具体:
类目重复不是普通多样性扣分,而是会提前终止会话
因此 LERL 这条线不仅是在高层用 LLM 做语义规划,也是在环境层把“同质化内容会让用户提前退出”写成了可运行假设。
相比很多只在静态表里看 diversity 的方法,这种设定更贴近它真正要解决的主矛盾。
RQ2 / RQ3 说明高层 planner 和高层 critic 不能拆开看
这篇 paper 的另一个关键信号是,LERL 不只是“加个 LLM planner”。
5.3 的 case study 写得很直接:
- 在
KuaiRec的三轮对照里,LERL生成的列表没有重复 item category PPO则出现了明显的 category redundancy
而 5.4 的 ablation 进一步说明:
- 去掉
high-level semantic planner - 或去掉
high-level critic - 都会在两个环境里带来明显性能回落
这意味着 LERL 真正成立的,不是“让 LLM 来规划”这一句空话,而是这两个组件一起工作:
planner负责把 action space 缩到语义类目层critic负责把过去轨迹压成能被 planner 消费的 reflection
所以它和 BiLLP 的区别不只是“都有高层组件”,而是:
BiLLP更强调 prospective guidanceLERL更强调 category planning + reflection retrieval
公开边界
这条线当前更适合记成:
paper + repo with thin docs / code dump
而不是:
turnkey reproduction
原因很明确。
GitHub API 截至 2026-03-22 显示:
- 仓库创建于
2026-02-04 07:06:55 UTC - 最近一次代码 push 也停在
2026-02-04 07:30:33 UTC - commit 历史只有一次
first commit
但它又明显不是 placeholder。
根目录已经公开:
env/model/reader/run_llama/scripts/train_actor_critic.pytrain_multibehavior.pytrain_online_policy.py
README 也给出了比较具体的运行路径:
- 用
Ollama装Llama-3-8B - 本地并行启动
3个 LLAMA 实例 - 从 Google Drive 下载压缩数据
- 分别跑
KuaiRand / KuaiRec的 user model 与 policy 脚本
所以它比 IL-Rec 这类 placeholder repo 强很多,但又明显不是低门槛公开底盘。
更准确地说,它是:
有真代码、有真脚本,但维护痕迹还很薄的研究型 code dump
中文传播层
这一轮补中文传播层时,终于拿到一个可稳定访问的入口:
它的价值主要是导航,不是裁定事实。
原因也很清楚:
- 页面把
semantic planner / reflection pool / low-level PPO / quit mechanism压成了一篇长中文摘要 - 但内容本质上仍是二手自动评述
- 所以它适合补中文可见层,不适合替代 arXiv 原文和 GitHub API
与此同时,这轮继续用本地 search-layer 和公开网页补做了:
site:xiaohongshu.com LERL 推荐xhslink LERL 推荐"2601.19585" 推荐
截至 2026-03-22,稳定结果仍主要是原文页、聚合页和噪声,没有拿到可复用的高价值 xhslink。
证据与来源
LLM-Enhanced Reinforcement Learning for Long-Term User Satisfaction in Interactive Recommendation:arXiv 摘要主入口。可稳定回查提交时间2026-01-27、更新到v2的时间2026-02-06,并给出方法总述。LERLarXiv HTML:正文关键入口。3-5节写清c_t ⊆ C -> a_t ⊆ I_{c_t}的分层形式、reflection pool、diversity-aware quit mechanism、Table 2主结果,以及RQ2 / RQ3的 case study 和 ablation。1163710212/LERL:官方仓入口。README 明确要求Ollama + Llama-3-8B、并行3个实例、Google Drive 数据和KuaiRand / KuaiRec训练脚本。Moonlight中文评述:当前可稳定访问的中文导航层入口,适合补传播面,但不作为事实依据。
下一步
- 把
LERL与BiLLP / LAAC / iALP / IL-Rec横向压到同一张plan grounding split / planning abstraction level观察表里,并把semantic planner -> constrained item policy和macro guidance -> micro policy分开记录。 - 继续观察
LERL仓库是否会出现第二次稳定更新;如果长期停在首个 commit,后续应把它的公开边界继续收紧到code dump。 - 继续追
LERL的中文高价值机制稿与稳定xhslink,但当前仍不让传播层覆盖一手材料。