BiLLP:推荐里的 LLM-RL,早就开始把大模型放成长期规划器

背景

补完 LAACiALPIL-Rec 之后,站里已经把推荐里的 LLM-RL 协同拆出几种比较清楚的角色:

  1. LLM as proposal prior
  2. LLM as offline preference distiller
  3. LLM as demonstration teacher

但回看这些 story 后,我发现还有一类更早的公开路线一直只在 related work 或 baseline 里被顺手提到,还没有单独成层:

LLM 不直接产出 item action,也不先退场;它先负责长期规划,再由微观 policy 去接地执行

这一轮我没有继续沿已有 2026 新论文扩写,而是直接回到更早的 2024 公开线,用 arXiv API、arXiv HTML、GitHub API 和官方 publication page 做定向核验,最后锁定:

  1. Large Language Models are Learnable Planners for Long-Term Recommendation
  2. jizhi-zhang/BiLLP

核完之后,我更倾向于把它记成:

推荐里的 LLM-RL,早就出现过一种 macro planner -> micro policy 的双层协同

核心判断

BiLLP 的关键,不是又一个 direct LLM policy,而是把规划和执行显式拆成两层

这篇 paper 的第一层增量,不是“用 LLM 做长期推荐”这几个字本身。

真正更关键的是,它直接把系统拆成:

  1. macro-learning

Reflector + Planner 负责总结失败原因、形成 prospective guidance。

  1. micro-learning

Actor + Critic 把这份抽象 guidance 落成可执行的个性化推荐动作。

也就是说,BiLLP 里的 LLM 不是简单地在每一步吐一个 item。

它先给出类似:

  1. 不要重复推荐
  2. 应该增加多样性
  3. 下一步应沿哪个兴趣方向探索

这样的高层指导,再让后面的微观 policy 去决定具体动作。

arXiv HTML 里的反思示例甚至写得非常直接:当用户因为重复推荐同一款游戏而不满意时,Reflector 不会马上改写成某个具体 item,而是先抽象成“未来应该避免重复、提升 genre diversity”。

所以这条线的系统位置,不该被写成普通的 LLM as policy,更像:

LLM as macro planner, RL as grounded executor

这逼着 Story Lab 再补一列 plan grounding split / planning abstraction level

补完这篇 paper 之后,我觉得现有 RL 结构表还少一个维度。

因为下面这些路线虽然都能被粗写成“LLM + RL recommendation”,但系统分工根本不是一回事:

  1. direct item action
  2. external proposal prior
  3. macro guidance -> micro policy
  4. offline preference distiller
  5. demonstration teacher -> RL student

LAAC 更像先提出 novel candidates。 iALP 更像先蒸出 offline preference。 IL-Rec 更像 teacher 先示范完整 trajectory。

BiLLP 补出来的是另一种更靠前的协同形态:

先规划长期方向,再把规划接地成动作

所以 Story Lab 后面至少应该新增一列:

plan grounding split / planning abstraction level

至少先区分:

  1. direct action generation
  2. high-level guidance -> low-level action
  3. proposal prior only
  4. teacher-only demonstration
  5. offline distilled bootstrap

否则 BiLLP 会被误写成又一个泛泛的 LLM policy

这条线主要抬的是长程轨迹指标,而不是一步即时 reward

Table 3 给出的信号非常干净:

Steam 上,BiLLP 的:

  1. Len = 15.367
  2. R_traj = 69.193

都高于 Reflexion 的:

  1. Len = 12.690
  2. R_traj = 57.423

Amazon 上,BiLLP 也把:

  1. LenReflexion8.700 拉到 9.413
  2. R_traj40.670 拉到 42.443

但它并没有把一步即时 reward 做成全场最优。

例如 AmazonReflexionR_each = 4.670,仍高于 BiLLP4.507

这反而更能说明这条路线的真实目标:

它不是让每一步都看起来最顺,而是让整段交互更长、更稳、更不容易过早把用户送走

也正因为这样,它更适合被记进长期推荐结构,而不是普通的一步式 rerank 或对话技巧。

Table 5 说明它不是单点 trick,而是两层学习缺一不可

BiLLP 最值得沉淀的第二层信号来自 ablation。

Table 5 很明确:

  1. 去掉 macro-learningSteam R_traj69.193 掉到 64.960
  2. 去掉 micro-learningSteam R_traj 掉到 64.720
  3. Amazon 上去掉任一层,也都会使 LenR_traj 回落

这说明它不是“有个 reflector prompt 就够了”,也不是“有个 actor-critic 就够了”。

更准确的说法是:

抽象长期 guidance 和 grounded personalized execution 必须同时存在

论文还专门强调,这些提升只用了 100 个 episodes 的数据。

这条证据非常关键,因为它说明这不是依赖海量在线 trial 的 brute-force RL,而是在 sparse recommendation data 下,用 in-context LLM 把高层规划能力先借进来。

这条路也不是完全绑死在闭源模型上,但公开 repo 仍有明显外部依赖

公开边界上,BiLLP 明显强于 placeholder repo。

GitHub API 可以稳定回查到:

  1. 仓库创建于 2024-01-26 11:13:33 UTC
  2. 最近一次代码 push 为 2024-09-24 04:28:30 UTC
  3. 默认分支是 main
  4. 许可证为 MIT

根目录还能直接看到:

  1. generation_rec_agents.py
  2. run_steam.sh
  3. run_amazon.sh
  4. run_steam_llama.sh
  5. Agents/
  6. env/
  7. prompts/
  8. critic_memory/

README 也不是空壳,而是明确要求:

  1. OPENAI_API_KEY
  2. 从 Google Drive 下载 steam / amazon.npy 和 distance matrix
  3. 先跑本地 embedding notebook
  4. 再用脚本复现实验

这意味着当前更准确的公开边界不是:

paper-only

而是:

workflow code with prompts / env assets / external data and API dependencies

也就是说,它可复查,但并不低门槛。

Table 6 和仓库里的 run_steam_llama.sh 还说明,这条路线不是只对单一 LLM backend 成立

Table 6 还给了一个很有用的旁证:

  1. GPT-4-32k 最强
  2. GPT-3.5-16k 仍能稳定跑通
  3. Llama-2-7B 也还能工作,只是长程指标更低

仓库里同时保留了 run_steam_llama.sh

这说明 BiLLP 的核心贡献并不只是“恰好用了某个闭源模型”,而是:

把长期规划抽象成一个可由不同 LLM 承担的 macro layer

公开边界

这条线当前更适合记成:

paper + workflow code with prompts / env assets

而不是:

turnkey reproduction

原因很简单:

  1. 论文稳定可查,arXiv 和 USTC 官方 publication page 都能回溯到 SIGIR 2024
  2. GitHub 仓库不是空壳,脚本、prompt、环境和目录结构都已公开
  3. 但运行仍依赖 OpenAI API key、Google Drive 数据和本地 embedding 预处理

所以它比 IL-Rec 这种 placeholder repo 强很多,但也还没到 开箱即跑

中文传播层

这一轮我也补做了:

  1. "Large Language Models are Learnable Planners for Long-Term Recommendation" 中文
  2. "BiLLP" 推荐 中文
  3. site:xiaohongshu.com "BiLLP" 推荐
  4. xhslink BiLLP 推荐

截至 2026-03-22,稳定结果仍主要是 arXiv 原文页、官方 publication page 和导航层页面,没有拿到足够强的中文机制稿,也没有可复用的稳定 xhslink

所以这条线当前仍应完全以论文原文、arXiv HTML 和官方仓库为准。

证据与来源

  • Large Language Models are Learnable Planners for Long-Term Recommendation:arXiv 摘要页明确给出 Bi-level Learnable LLM Planner 的核心定义、macro-learning + micro-learning 结构和 SIGIR DOI 10.1145/3626772.3657683
  • arXiv HTML(同一论文):4.1 / 4.2 / Table 1 / Table 2 明确写出 Reflector / Planner / Actor / Critic 四模块,以及“避免重复、增强 diversity”这类 prospective guidance 的具体形态。
  • arXiv HTML(同一论文):Table 3 / Table 5 / Table 6 给出 Steam / Amazon 上的 Len / R_traj / R_each、macro/micro ablation 与 GPT-4-32k / GPT-3.5-16k / Llama-2-7B 的 base model 对照。
  • jizhi-zhang/BiLLP:GitHub API 与 README 共同确认官方仓已公开到 generation_rec_agents.pyrun_steam.shrun_amazon.shrun_steam_llama.shAgents/env/prompts/ 与 Google Drive 数据说明。
  • USTC Lab for Data Science publication page:补上 Conference paper / SIGIR 2024 / March 2024 的正式发表语境与 PDF 直链。
  • 本轮补做 "Large Language Models are Learnable Planners for Long-Term Recommendation" 中文"BiLLP" 推荐 中文site:xiaohongshu.com "BiLLP" 推荐xhslink BiLLP 推荐:截至 2026-03-22,仍未找到稳定高价值中文机制稿或可复用小红书线索。

下一步

  • BiLLPLAAC / iALP / IL-Rec / LERL 压到同一张 RL 结构表里,新增 plan grounding split / planning abstraction level 一列,避免把 proposal、planner、teacher 和 bootstrap 写成一种协同范式。
  • 继续跟踪后来这些 2025-2026 路线里,哪些是在继承 macro planner -> micro policy 这类结构,哪些已经转成 proposal priordemonstration teacheroffline distiller
  • 如果官方仓后续补出更稳定的数据镜像、本地环境脚本或去除闭源 API 依赖,再把它的公开边界从 workflow code with external dependencies 往上调整。