IL-Rec：推荐里的 LLM-RL，也可以先让大模型退到 demonstration teacher

背景

补完 LAAC、iALP、DeepRec 和 RecThinker 之后，站里已经把推荐里的 LLM 角色拆得越来越细：

有的路线让它先提出探索先验。
有的路线让它先蒸出离线偏好。
有的路线让它直接待在推理或 tool-use loop 里。

但这轮回看 memory/project-state.md 后，我发现还有一类协同方式，站里还没单独成层：

LLM 不自己当最终 recommendation policy，而是先退到 demonstration teacher

于是我没有继续沿已有 story 往下补同类 GRPO 变体，而是直接用 arXiv API 按 recommendation + reinforcement learning + LLM 做新条目发现，再回到 arXiv 摘要页、arXiv HTML、GitHub API 与 contents API 做定向核验，锁定了一篇此前还没进 Story Lab 的入口：

Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation

核完之后，我更倾向于把它记成：

推荐里的 LLM-RL，不一定让大模型自己下场做 policy；也可以先让它退到 demonstration teacher

也就是：

LLM demonstrations -> inverse RL reward extraction -> offline RL student policy

核心判断

`IL-Rec` 的关键，不是又一个 `LLM as policy`，而是把大模型退回到 demonstration teacher

这篇 paper 一上来就把 direct LLM serving 的问题写得很清楚：

频繁 API 调用带来 latency 和成本。
大模型本身还会带 hallucination 和 bias。
静态 LLM policy 很难持续适应动态用户偏好。

但它的解法不是继续微调一个更强的在线 LLM recommender。

相反，它做的是：

先让 LLM 用 in-context 方式生成 recommendation trajectories。
把这些轨迹当成 demonstrations。
再用 inverse RL 从 demonstrations 里抽 reward signal。
最后由一个离线 RL policy 去吸收这些语义知识并负责真正决策。

这和站里已经补过的几条线不一样。

LAAC 更像：

LLM as exploration prior

iALP 更像：

LLM as offline preference distiller

DeepRec 和 RecThinker 更像：

LLM kept closer to reasoning / tool-use policy

而 IL-Rec 补出来的是另一种分工：

LLM as demonstration teacher, RL as deployed student

这逼着 Story Lab 再补一列 `LLM teacher retention / demonstration consumer`

补完这篇 paper 之后，我觉得现有方法表还少一个很关键的部署维度。

因为下面这些系统，虽然都能被粗写成“LLM + RL 推荐”，但实际根本不是一回事：

LLM kept in serving loop
LLM kept in training loop as direct policy
LLM as offline preference distiller
LLM as demonstration teacher -> RL student
LLM as judge / constructor only

它们的差异不只是“谁更强”，而是：

大模型最后到底留在系统的哪一层

所以 Story Lab 后续至少应该单独记一列：

LLM teacher retention / demonstration consumer

至少先区分：

serving-time actor
offline reward / preference distiller
demonstration teacher -> RL student
judge-only or constructor-only helper

否则 IL-Rec 这种明显发生在“教师退场、学生接管”层的路线，很容易被误写成普通 offline RL 或普通 LLM recommender。

它真正训练的不是一个 prompt，而是一套四角色 teacher 加一个 RL student

这篇 paper 的另一个重要点，是它不是让单个 LLM prompt 直接吐 item list 就结束。

arXiv HTML 的方法部分和 Figure 2 写得很明确，demonstration 生成被拆成四个角色：

Reflector
Planner
LLM Actor
LLM Critic

也就是说，teacher 端已经先把：

反思 -> 规划 -> 行动 -> 价值判断

组织成一条轨迹，再把这条轨迹交给后面的 student 去学习。

随后 student 侧并不是继续让大模型 roll。

论文明确把它写成：

model-based offline RL + world model + adversarial inverse RL

更准确地说，这条线不是：

让 LLM 直接当 recommender

而是：

让 LLM 先示范怎样思考和行动，再让 RL 学生在 world model 里把这件事学会

这条线真正要解决的，不是“有没有 expert demo”，而是“怎样从 sub-optimal demo 里学长期策略”

这篇 paper 最值得记住的技术主角，其实不是 “LLM demonstrations” 这四个字本身。

真正更重要的，是它没有把 demonstrations 当成无噪声 expert data。

论文在 related work 和 ablation 里反复强调：

它依赖的是 diverse, sub-optimal trajectories
不是严格意义上的最优专家轨迹
所以必须给 demonstration weighting
还要再用 adversarial inverse RL 去抽更稳的 reward guidance

也正因为这样，IL-Rec 里最关键的不是“有无 imitation”，而是两类权重：

w_env：环境优势权重
w_IRL：逆强化学习抽出来的权重

Table III 的 ablation 也把这点写得很硬：

去掉总权重 w 后，Steam / Amazon 的 cumulative reward 分别下降 14.1% / 18.4%，interaction length 分别下降 14.5% / 22.5%
去掉 w_env 后，Steam / Amazon 的 cumulative reward 分别掉到 63.380 / 40.280，而一步即时 reward 反而略升
去掉 w_IRL 后，Steam / Amazon 的 cumulative reward 也分别掉到 71.350 / 44.000

这说明它真正优化的不是：

怎么把 teacher 复制得更像

而是：

怎么从不完美 teacher 里提炼出更有利于长期回报的更新方向

它最强的信号落在 long-horizon engagement，而不是一步即时 reward

如果只看单步 reward，这篇 paper 其实没必要单独成 story。

它真正有价值的地方，是 Table II 很清楚地表明，它修的是：

长期 cumulative reward + interaction length

而不是一味追求每一步都拿最高即时回报。

在 Steam 上，IL-Rec 的：

R_traj 达到 78.478，高于 BiLLP 的 69.193
Len 达到 17.533，高于 BiLLP 的 15.367
R_each 只有 4.476，并不是最优

在 Amazon 上，IL-Rec 的：

R_traj 达到 48.219，高于 BiLLP 的 42.443
Len 达到 11.136，高于 BiLLP 的 9.413
R_each 是 4.330，同样不是最优

论文正文也直接承认，像 ReAct / ActOnly / Reflexion 这类 direct LLM reasoning 方法，在一步即时 reward 上可以更高。

但 IL-Rec 认为，这类系统的问题是：

它们擅长短步推断，却没有把 long-term return 真正训进 policy

所以这条线更像是在回答：

怎样把 LLM 的语义理解，转成一个能长期优化用户满意度的 RL student

而不是继续争论“大模型单步打分到底够不够高”。

它不是低成本捷径，而是把成本从 online serving 挪到 offline training

这篇 paper 还有一个必须记住的边界：它并不是“便宜版 LLM recommendation”。

V-A4 的实现细节写得很明确：

单次 IL-Rec 训练约需 12 个 A100 GPU-hours
其中 3 小时用于 world model simulation
3 小时用于生成 LLM demonstrations
6 小时用于 adversarial inverse RL

对照里，BiLLP 约是 6 个 GPU-hours。

所以更准确的说法不是：

IL-Rec 更省训练成本

而是：

IL-Rec 把 LLM 的高成本从 serving-time 挪回到了 offline teacher construction

这也是它和 direct LLM policy 最不一样的地方：

训练不一定更便宜
serving 却不再需要 LLM 常驻
因而系统风险也从在线 hallucination 转回了离线 teacher quality

当前公开边界仍是 placeholder repo，不能写成已开放 workflow

这条线的公开边界也非常明确。

论文本身已经完整公开，arXiv 摘要页还直接给出了代码仓地址：

但 GitHub API 和 contents API 同时表明，截至 2026-03-22，这个仓库仍然只是 placeholder：

仓库创建时间是 2025-09-16 06:56:54 UTC
最近一次 push 也是 2025-09-16 06:59:04 UTC
根目录 contents API 只返回一个 README.md
这个 README 只有 94 字节，内容仍写“实现预计在 2025-11 底前发布”

所以当前更准确的写法不是：

repo 已公开

而是：

paper-first placeholder repo

中文传播层和 `xhslink` 目前也还是空的

这轮我继续补做了：

"Beyond Static LLM Policies" 中文推荐
"IL-Rec" 推荐
site:xiaohongshu.com "IL-Rec" 推荐
xhslink "IL-Rec" 推荐

但截至 2026-03-22，稳定结果仍基本为空，或者落回无关仓库、自动索引页和泛论文列表。

所以这条线当前仍然要以：

arXiv 摘要页
arXiv HTML
GitHub API / contents API

作为事实判断主依据，而不是依赖中文讨论层或小红书传播层。

证据与来源

Beyond Static LLM Policies: Imitation-Enhanced Reinforcement Learning for Recommendation：arXiv 摘要主入口。页面明确给出提交日期 2025-10-15，并在 comments 里标注 ICDM 2025 Accepted Paper；摘要已写清 LLM-generated trajectories -> inverse RL -> offline RL policy 这条主链路。
Beyond Static LLM Policies arXiv HTML：正文关键入口。Figure 2 直接给出 Reflector / Planner / LLM Actor / LLM Critic -> AIRL -> RL student 结构；Table II/III 可直接核 long-horizon 指标与 weighting ablation；V-A4 给出 12 A100 GPU-hours 的训练成本拆分。
ArronDZhang/IL-Rec：论文给出的官方仓入口。截至 2026-03-22，GitHub API 与 contents API 都表明它仍是 placeholder repo，根目录只有一个 94 字节 README.md。

下一步

把 IL-Rec 与 LAAC / iALP / BiLLP 压到同一张 RL 结构表里，新增 LLM teacher retention / demonstration consumer 一列，至少先区分 serving-time actor / offline preference distiller / demonstration teacher -> RL student / judge-only helper。
继续对比这条线和 iALP 的差异：两者都让大模型在 serving 前退场，但一个蒸的是 binary preference reward，一个蒸的是 trajectory-level demonstrations + inverse RL reward。
后续如果官方仓补代码，再单独核它到底公开到了 world model + AIRL workflow，还是只有 demos / configs；在此之前，不把它记成可复现实验底盘。