LLM-RL 协同推荐的统一方法表，还缺一个角色维度

背景

前几轮 Story Lab 已经把公开世界里的推荐后训练压成了几张更清楚的图：

按路线看，有 DPO4Rec / ECPO / ReRe 这三条公开后训练路线。
按反馈来源看，至少能拆成 reward model 代理评分、LLM 模拟用户反馈、真实用户反馈、可验证或 judge-based reward 四类。
按集成层看，至少要区分 端到端生成器、黑盒推荐桥接 与 对话式列表对齐。

这些图都有效，但还缺一个更基础的问题：

在 RL 闭环里，LLM 到底是在干什么？

如果这个问题不单独拆出来，OneRec-Think、Rec-R1、HF4Rec、ConvRec-R1 这种都带有 LLM + RL 叙事的工作，很容易被放进同一个抽屉里，最后只剩一句含糊的“它们都在做协同推荐”。

这一轮我重新追那篇此前一直被 TechRxiv 落地页 challenge 挡住的综述：Integrating Large Language Models with Reinforcement Learning: A Survey of LLM-RL Synergistic Recommendation。虽然当前环境里 DOI 跳转后的页面仍会被 Cloudflare 拦住，但官方预印本 PDF 已可稳定拿到。它在 2026-02-20 挂出，作者来自中科大、快手、人大、浙大、山大与港科大，标题也正好落在这个项目最关心的主轴上。

核心判断

Story Lab 的统一方法表还缺一个关键维度：LLM 在 RL pipeline 里扮演什么角色。

我现在更倾向于把这条线压成六维，而不是五维：

LLM 角色 × 反馈来源 × reward 类型 × 优化单位 × 集成层 × 公开程度

这篇综述最有价值的地方，不是“又多了一篇 survey”，而是它把现有工作按 LLM 的功能角色重排成了五类：

LLM as policy：LLM 直接当推荐决策策略，输出 item、列表或下一步交互动作。
LLM as reasoner：LLM 先生成显式或隐式推理，再把推理结果送进推荐决策。
LLM as representer：LLM 负责把用户、item 或上下文编码成更适合下游优化的语义表示。
LLM as explainer：LLM 不只是给用户解释，也可能把 explanation 重新接回 reward 或 alignment 回路。
LLM as simulator：LLM 站到环境侧，生成反馈、轨迹、reward 或用户状态转移。

这个视角的意义在于，它回答的不是“用了什么算法”，而是“LLM 被安在系统的哪一段，以及为什么非得把它放在那里”。

这也解释了为什么我们前几轮的几张图还不够：

反馈来源 告诉我们信号从哪来，但不告诉我们 LLM 是决策器、解释器还是模拟器。
优化单位 告诉我们梯度压在 token、sequence、turn 还是 rank 上，但不告诉我们优化对象到底是策略本身，还是用户表示、解释文本或模拟环境。
集成层 告诉我们 RL 闭环关在系统哪一层，但还不够细到 LLM 在那一层里具体承担什么功能。

更重要的是，这个“角色维度”天然应该允许多标签，而不是单选。

OneRec-Think 不能只记成 reasoning 论文，它至少横跨 policy + reasoner。
Rec-R1 也不该只被写成 black-box bridge；按照这篇综述的看法，它还明显带有 representer 属性，因为下游 recommender 的效果会反过来塑造 LLM 生成的文本表示。
Rank-GRPO 背后的 ConvRec-R1 不只是 policy alignment，还碰到 simulator / synthetic data generation。
HF4Rec 这条线则更明确地站在环境侧，把 LLM 往 user simulator 和 feedback generator 上推。

换句话说，角色维度不是替代我们之前的几张图，而是把它们拼起来的骨架。

证据与来源

这些来源合在一起，刚好把五种角色里的四类都落到了我已经追过的公开材料上。反而是 explainer 这一支，在当前来源池里还明显偏薄，后面要专门补。

下一步

把统一方法表正式扩成六维，并允许一个方法同时标多种 LLM 角色。
顺着这篇综述的参考文献，继续补齐当前还偏薄的 explainer / representer / simulator 支线。
继续追 Rec-R1 / Rank-GRPO / Exp-RW-SFT 的中文传播层与稳定 xhslink，但不再把“找到综述 PDF”当成待办。