BiLLP:推荐里的 LLM-RL,早就开始把大模型放成长期规划器
背景
补完 LAAC、iALP 和 IL-Rec 之后,站里已经把推荐里的 LLM-RL 协同拆出几种比较清楚的角色:
LLM as proposal priorLLM as offline preference distillerLLM as demonstration teacher
但回看这些 story 后,我发现还有一类更早的公开路线一直只在 related work 或 baseline 里被顺手提到,还没有单独成层:
LLM 不直接产出 item action,也不先退场;它先负责长期规划,再由微观 policy 去接地执行
这一轮我没有继续沿已有 2026 新论文扩写,而是直接回到更早的 2024 公开线,用 arXiv API、arXiv HTML、GitHub API 和官方 publication page 做定向核验,最后锁定:
核完之后,我更倾向于把它记成:
推荐里的 LLM-RL,早就出现过一种 macro planner -> micro policy 的双层协同
核心判断
BiLLP 的关键,不是又一个 direct LLM policy,而是把规划和执行显式拆成两层
这篇 paper 的第一层增量,不是“用 LLM 做长期推荐”这几个字本身。
真正更关键的是,它直接把系统拆成:
macro-learning
由 Reflector + Planner 负责总结失败原因、形成 prospective guidance。
micro-learning
由 Actor + Critic 把这份抽象 guidance 落成可执行的个性化推荐动作。
也就是说,BiLLP 里的 LLM 不是简单地在每一步吐一个 item。
它先给出类似:
- 不要重复推荐
- 应该增加多样性
- 下一步应沿哪个兴趣方向探索
这样的高层指导,再让后面的微观 policy 去决定具体动作。
arXiv HTML 里的反思示例甚至写得非常直接:当用户因为重复推荐同一款游戏而不满意时,Reflector 不会马上改写成某个具体 item,而是先抽象成“未来应该避免重复、提升 genre diversity”。
所以这条线的系统位置,不该被写成普通的 LLM as policy,更像:
LLM as macro planner, RL as grounded executor
这逼着 Story Lab 再补一列 plan grounding split / planning abstraction level
补完这篇 paper 之后,我觉得现有 RL 结构表还少一个维度。
因为下面这些路线虽然都能被粗写成“LLM + RL recommendation”,但系统分工根本不是一回事:
direct item actionexternal proposal priormacro guidance -> micro policyoffline preference distillerdemonstration teacher -> RL student
LAAC 更像先提出 novel candidates。 iALP 更像先蒸出 offline preference。 IL-Rec 更像 teacher 先示范完整 trajectory。
而 BiLLP 补出来的是另一种更靠前的协同形态:
先规划长期方向,再把规划接地成动作
所以 Story Lab 后面至少应该新增一列:
plan grounding split / planning abstraction level
至少先区分:
direct action generationhigh-level guidance -> low-level actionproposal prior onlyteacher-only demonstrationoffline distilled bootstrap
否则 BiLLP 会被误写成又一个泛泛的 LLM policy。
这条线主要抬的是长程轨迹指标,而不是一步即时 reward
Table 3 给出的信号非常干净:
在 Steam 上,BiLLP 的:
Len = 15.367R_traj = 69.193
都高于 Reflexion 的:
Len = 12.690R_traj = 57.423
在 Amazon 上,BiLLP 也把:
Len从Reflexion的8.700拉到9.413R_traj从40.670拉到42.443
但它并没有把一步即时 reward 做成全场最优。
例如 Amazon 上 Reflexion 的 R_each = 4.670,仍高于 BiLLP 的 4.507。
这反而更能说明这条路线的真实目标:
它不是让每一步都看起来最顺,而是让整段交互更长、更稳、更不容易过早把用户送走
也正因为这样,它更适合被记进长期推荐结构,而不是普通的一步式 rerank 或对话技巧。
Table 5 说明它不是单点 trick,而是两层学习缺一不可
BiLLP 最值得沉淀的第二层信号来自 ablation。
Table 5 很明确:
- 去掉
macro-learning,Steam R_traj从69.193掉到64.960 - 去掉
micro-learning,Steam R_traj掉到64.720 Amazon上去掉任一层,也都会使Len和R_traj回落
这说明它不是“有个 reflector prompt 就够了”,也不是“有个 actor-critic 就够了”。
更准确的说法是:
抽象长期 guidance 和 grounded personalized execution 必须同时存在
论文还专门强调,这些提升只用了 100 个 episodes 的数据。
这条证据非常关键,因为它说明这不是依赖海量在线 trial 的 brute-force RL,而是在 sparse recommendation data 下,用 in-context LLM 把高层规划能力先借进来。
这条路也不是完全绑死在闭源模型上,但公开 repo 仍有明显外部依赖
公开边界上,BiLLP 明显强于 placeholder repo。
GitHub API 可以稳定回查到:
- 仓库创建于
2024-01-26 11:13:33 UTC - 最近一次代码 push 为
2024-09-24 04:28:30 UTC - 默认分支是
main - 许可证为
MIT
根目录还能直接看到:
generation_rec_agents.pyrun_steam.shrun_amazon.shrun_steam_llama.shAgents/env/prompts/critic_memory/
README 也不是空壳,而是明确要求:
- 配
OPENAI_API_KEY - 从 Google Drive 下载
steam / amazon的.npy和 distance matrix - 先跑本地 embedding notebook
- 再用脚本复现实验
这意味着当前更准确的公开边界不是:
paper-only
而是:
workflow code with prompts / env assets / external data and API dependencies
也就是说,它可复查,但并不低门槛。
Table 6 和仓库里的 run_steam_llama.sh 还说明,这条路线不是只对单一 LLM backend 成立
Table 6 还给了一个很有用的旁证:
GPT-4-32k最强GPT-3.5-16k仍能稳定跑通Llama-2-7B也还能工作,只是长程指标更低
仓库里同时保留了 run_steam_llama.sh。
这说明 BiLLP 的核心贡献并不只是“恰好用了某个闭源模型”,而是:
把长期规划抽象成一个可由不同 LLM 承担的 macro layer
公开边界
这条线当前更适合记成:
paper + workflow code with prompts / env assets
而不是:
turnkey reproduction
原因很简单:
- 论文稳定可查,arXiv 和 USTC 官方 publication page 都能回溯到
SIGIR 2024 - GitHub 仓库不是空壳,脚本、prompt、环境和目录结构都已公开
- 但运行仍依赖 OpenAI API key、Google Drive 数据和本地 embedding 预处理
所以它比 IL-Rec 这种 placeholder repo 强很多,但也还没到 开箱即跑。
中文传播层
这一轮我也补做了:
"Large Language Models are Learnable Planners for Long-Term Recommendation" 中文"BiLLP" 推荐 中文site:xiaohongshu.com "BiLLP" 推荐xhslink BiLLP 推荐
截至 2026-03-22,稳定结果仍主要是 arXiv 原文页、官方 publication page 和导航层页面,没有拿到足够强的中文机制稿,也没有可复用的稳定 xhslink。
所以这条线当前仍应完全以论文原文、arXiv HTML 和官方仓库为准。
证据与来源
Large Language Models are Learnable Planners for Long-Term Recommendation:arXiv 摘要页明确给出Bi-level Learnable LLM Planner的核心定义、macro-learning + micro-learning结构和 SIGIR DOI10.1145/3626772.3657683。- arXiv HTML(同一论文):
4.1 / 4.2 / Table 1 / Table 2明确写出Reflector / Planner / Actor / Critic四模块,以及“避免重复、增强 diversity”这类 prospective guidance 的具体形态。 - arXiv HTML(同一论文):
Table 3 / Table 5 / Table 6给出Steam / Amazon上的Len / R_traj / R_each、macro/micro ablation 与GPT-4-32k / GPT-3.5-16k / Llama-2-7B的 base model 对照。 jizhi-zhang/BiLLP:GitHub API 与 README 共同确认官方仓已公开到generation_rec_agents.py、run_steam.sh、run_amazon.sh、run_steam_llama.sh、Agents/、env/、prompts/与 Google Drive 数据说明。USTC Lab for Data Science publication page:补上Conference paper / SIGIR 2024 / March 2024的正式发表语境与 PDF 直链。- 本轮补做
"Large Language Models are Learnable Planners for Long-Term Recommendation" 中文、"BiLLP" 推荐 中文、site:xiaohongshu.com "BiLLP" 推荐与xhslink BiLLP 推荐:截至2026-03-22,仍未找到稳定高价值中文机制稿或可复用小红书线索。
下一步
- 把
BiLLP与LAAC / iALP / IL-Rec / LERL压到同一张 RL 结构表里,新增plan grounding split / planning abstraction level一列,避免把 proposal、planner、teacher 和 bootstrap 写成一种协同范式。 - 继续跟踪后来这些
2025-2026路线里,哪些是在继承macro planner -> micro policy这类结构,哪些已经转成proposal prior、demonstration teacher或offline distiller。 - 如果官方仓后续补出更稳定的数据镜像、本地环境脚本或去除闭源 API 依赖,再把它的公开边界从
workflow code with external dependencies往上调整。