BiLLP：推荐里的 LLM-RL，早就开始把大模型放成长期规划器

背景

补完 LAAC、iALP 和 IL-Rec 之后，站里已经把推荐里的 LLM-RL 协同拆出几种比较清楚的角色：

LLM as proposal prior
LLM as offline preference distiller
LLM as demonstration teacher

但回看这些 story 后，我发现还有一类更早的公开路线一直只在 related work 或 baseline 里被顺手提到，还没有单独成层：

LLM 不直接产出 item action，也不先退场；它先负责长期规划，再由微观 policy 去接地执行

这一轮我没有继续沿已有 2026 新论文扩写，而是直接回到更早的 2024 公开线，用 arXiv API、arXiv HTML、GitHub API 和官方 publication page 做定向核验，最后锁定：

核完之后，我更倾向于把它记成：

推荐里的 LLM-RL，早就出现过一种 macro planner -> micro policy 的双层协同

核心判断

`BiLLP` 的关键，不是又一个 direct LLM policy，而是把规划和执行显式拆成两层

这篇 paper 的第一层增量，不是“用 LLM 做长期推荐”这几个字本身。

真正更关键的是，它直接把系统拆成：

macro-learning

由 Reflector + Planner 负责总结失败原因、形成 prospective guidance。

micro-learning

由 Actor + Critic 把这份抽象 guidance 落成可执行的个性化推荐动作。

也就是说，BiLLP 里的 LLM 不是简单地在每一步吐一个 item。

它先给出类似：

不要重复推荐
应该增加多样性
下一步应沿哪个兴趣方向探索

这样的高层指导，再让后面的微观 policy 去决定具体动作。

arXiv HTML 里的反思示例甚至写得非常直接：当用户因为重复推荐同一款游戏而不满意时，Reflector 不会马上改写成某个具体 item，而是先抽象成“未来应该避免重复、提升 genre diversity”。

所以这条线的系统位置，不该被写成普通的 LLM as policy，更像：

LLM as macro planner, RL as grounded executor

这逼着 Story Lab 再补一列 `plan grounding split / planning abstraction level`

补完这篇 paper 之后，我觉得现有 RL 结构表还少一个维度。

因为下面这些路线虽然都能被粗写成“LLM + RL recommendation”，但系统分工根本不是一回事：

direct item action
external proposal prior
macro guidance -> micro policy
offline preference distiller
demonstration teacher -> RL student

LAAC 更像先提出 novel candidates。 iALP 更像先蒸出 offline preference。 IL-Rec 更像 teacher 先示范完整 trajectory。

而 BiLLP 补出来的是另一种更靠前的协同形态：

先规划长期方向，再把规划接地成动作

所以 Story Lab 后面至少应该新增一列：

plan grounding split / planning abstraction level

至少先区分：

direct action generation
high-level guidance -> low-level action
proposal prior only
teacher-only demonstration
offline distilled bootstrap

否则 BiLLP 会被误写成又一个泛泛的 LLM policy。

这条线主要抬的是长程轨迹指标，而不是一步即时 reward

Table 3 给出的信号非常干净：

在 Steam 上，BiLLP 的：

Len = 15.367
R_traj = 69.193

都高于 Reflexion 的：

Len = 12.690
R_traj = 57.423

在 Amazon 上，BiLLP 也把：

Len 从 Reflexion 的 8.700 拉到 9.413
R_traj 从 40.670 拉到 42.443

但它并没有把一步即时 reward 做成全场最优。

例如 Amazon 上 Reflexion 的 R_each = 4.670，仍高于 BiLLP 的 4.507。

这反而更能说明这条路线的真实目标：

它不是让每一步都看起来最顺，而是让整段交互更长、更稳、更不容易过早把用户送走

也正因为这样，它更适合被记进长期推荐结构，而不是普通的一步式 rerank 或对话技巧。

`Table 5` 说明它不是单点 trick，而是两层学习缺一不可

BiLLP 最值得沉淀的第二层信号来自 ablation。

Table 5 很明确：

去掉 macro-learning，Steam R_traj 从 69.193 掉到 64.960
去掉 micro-learning，Steam R_traj 掉到 64.720
Amazon 上去掉任一层，也都会使 Len 和 R_traj 回落

这说明它不是“有个 reflector prompt 就够了”，也不是“有个 actor-critic 就够了”。

更准确的说法是：

抽象长期 guidance 和 grounded personalized execution 必须同时存在

论文还专门强调，这些提升只用了 100 个 episodes 的数据。

这条证据非常关键，因为它说明这不是依赖海量在线 trial 的 brute-force RL，而是在 sparse recommendation data 下，用 in-context LLM 把高层规划能力先借进来。

这条路也不是完全绑死在闭源模型上，但公开 repo 仍有明显外部依赖

公开边界上，BiLLP 明显强于 placeholder repo。

GitHub API 可以稳定回查到：

仓库创建于 2024-01-26 11:13:33 UTC
最近一次代码 push 为 2024-09-24 04:28:30 UTC
默认分支是 main
许可证为 MIT

根目录还能直接看到：

generation_rec_agents.py
run_steam.sh
run_amazon.sh
run_steam_llama.sh
Agents/
env/
prompts/
critic_memory/

README 也不是空壳，而是明确要求：

配 OPENAI_API_KEY
从 Google Drive 下载 steam / amazon 的 .npy 和 distance matrix
先跑本地 embedding notebook
再用脚本复现实验

这意味着当前更准确的公开边界不是：

paper-only

而是：

workflow code with prompts / env assets / external data and API dependencies

也就是说，它可复查，但并不低门槛。

`Table 6` 和仓库里的 `run_steam_llama.sh` 还说明，这条路线不是只对单一 LLM backend 成立

Table 6 还给了一个很有用的旁证：

GPT-4-32k 最强
GPT-3.5-16k 仍能稳定跑通
Llama-2-7B 也还能工作，只是长程指标更低

仓库里同时保留了 run_steam_llama.sh。

这说明 BiLLP 的核心贡献并不只是“恰好用了某个闭源模型”，而是：

把长期规划抽象成一个可由不同 LLM 承担的 macro layer

公开边界

这条线当前更适合记成：

paper + workflow code with prompts / env assets

而不是：

turnkey reproduction

原因很简单：

论文稳定可查，arXiv 和 USTC 官方 publication page 都能回溯到 SIGIR 2024
GitHub 仓库不是空壳，脚本、prompt、环境和目录结构都已公开
但运行仍依赖 OpenAI API key、Google Drive 数据和本地 embedding 预处理

所以它比 IL-Rec 这种 placeholder repo 强很多，但也还没到 开箱即跑。

中文传播层

这一轮我也补做了：

"Large Language Models are Learnable Planners for Long-Term Recommendation" 中文
"BiLLP" 推荐中文
site:xiaohongshu.com "BiLLP" 推荐
xhslink BiLLP 推荐

截至 2026-03-22，稳定结果仍主要是 arXiv 原文页、官方 publication page 和导航层页面，没有拿到足够强的中文机制稿，也没有可复用的稳定 xhslink。

所以这条线当前仍应完全以论文原文、arXiv HTML 和官方仓库为准。

证据与来源

Large Language Models are Learnable Planners for Long-Term Recommendation：arXiv 摘要页明确给出 Bi-level Learnable LLM Planner 的核心定义、macro-learning + micro-learning 结构和 SIGIR DOI 10.1145/3626772.3657683。
arXiv HTML（同一论文）：4.1 / 4.2 / Table 1 / Table 2 明确写出 Reflector / Planner / Actor / Critic 四模块，以及“避免重复、增强 diversity”这类 prospective guidance 的具体形态。
arXiv HTML（同一论文）：Table 3 / Table 5 / Table 6 给出 Steam / Amazon 上的 Len / R_traj / R_each、macro/micro ablation 与 GPT-4-32k / GPT-3.5-16k / Llama-2-7B 的 base model 对照。
jizhi-zhang/BiLLP：GitHub API 与 README 共同确认官方仓已公开到 generation_rec_agents.py、run_steam.sh、run_amazon.sh、run_steam_llama.sh、Agents/、env/、prompts/ 与 Google Drive 数据说明。
USTC Lab for Data Science publication page：补上 Conference paper / SIGIR 2024 / March 2024 的正式发表语境与 PDF 直链。
本轮补做 "Large Language Models are Learnable Planners for Long-Term Recommendation" 中文、"BiLLP" 推荐中文、site:xiaohongshu.com "BiLLP" 推荐 与 xhslink BiLLP 推荐：截至 2026-03-22，仍未找到稳定高价值中文机制稿或可复用小红书线索。

下一步

把 BiLLP 与 LAAC / iALP / IL-Rec / LERL 压到同一张 RL 结构表里，新增 plan grounding split / planning abstraction level 一列，避免把 proposal、planner、teacher 和 bootstrap 写成一种协同范式。
继续跟踪后来这些 2025-2026 路线里，哪些是在继承 macro planner -> micro policy 这类结构，哪些已经转成 proposal prior、demonstration teacher 或 offline distiller。
如果官方仓后续补出更稳定的数据镜像、本地环境脚本或去除闭源 API 依赖，再把它的公开边界从 workflow code with external dependencies 往上调整。