iALP：推荐里的 LLM-RL，开始把 offline-to-online handoff 单独做成一层

背景

补完 LAAC、RecZero / RecOne 和 DeepRec 之后，站里已经把推荐里的 LLM-RL 逐渐拆成几层：

有的路线在回答“探索是谁先提出来的”。
有的路线在回答“reasoning 从哪里长出来”。
有的路线在回答“tool-use 过程怎么被 RL 监督”。

但还有一个部署层问题一直没有被单独成 story：

离线蒸出来的策略，怎样平稳接到在线环境

这一轮我先尝试复用本地 search-layer 找候选，但 Exa 仍然打到 429；随后退回 DuckDuckGo 标题检索做发现，再直接用 arXiv 摘要页、University of Glasgow eprints 页、公开 PDF 与 GitHub API 做定向核验，补到一个此前没进入 Story Lab 的入口：

Large Language Model driven Policy Exploration for Recommender Systems

核完之后，我更倾向于把它记成：

推荐里的 LLM-RL，开始把 offline-to-online handoff 单独做成一层

核心判断

`iALP` 的关键，不是“让 LLM 在线做代理推荐器”，而是把它变成 offline preference distiller

如果只看标题，这篇论文很容易被误读成又一个“LLM 参与在线推荐策略”的泛化组合。

但它真正新的一点更具体：

先把用户历史状态和一组候选 item 喂给 LLM。
让 LLM 从 10 个候选里选出最可能偏好的那个，或者直接回答 None。
再把这个二值偏好信号压成 reward，去离线预训练一个 SASRec + A2C 的 actor-critic policy。

也就是说，这篇 paper 不是让 LLM 常驻在线 serving。

它做的是：

LLM preference distillation -> RL warm-start policy -> online adaptation

这和站里已经补过的几条线不一样。

LAAC 更像：

external proposal prior

RecZero / RecOne 更像：

reasoning bootstrap regime

DeepRec 更像：

tool-use process supervision

而 iALP 新增的是：

offline distilled policy 到 online RL 的冷启动接管

这逼着 Story Lab 再补一列 `offline-to-online handoff / policy takeover regime`

补完这篇 paper 之后，我觉得现有观察表还少一个部署维度。

因为下面这些系统并不是一回事：

纯在线 DQN / PG / A2C 这种 random online start
先把预训练策略参数直接拿去线上继续训的 direct fine-tuning
把预训练 policy 冻住，再让新的在线 policy 逐步接管的 frozen bootstrap + scheduled takeover
让 LLM 自己一直待在在线 loop 里当 sub-agent 的 LLM kept in online loop

它们都在回答“怎样把策略放到线上”，但 handoff 方式完全不同。

所以 Story Lab 后面至少应该新增一列：

offline-to-online handoff / policy takeover regime

至少先区分：

random online start
direct parameter fine-tuning
frozen bootstrap + scheduled takeover
LLM kept in online loop

否则 iALP 这种明显发生在部署接管层的路线，很容易被误写成普通的 LLM + RL recommender。

`A-iALP_ap` 真正要修的，不只是冷启动低回报，而是 distribution shift 下的 policy deterioration

这篇 paper 最值得单独记的系统味，来自它对在线适配阶段的拆法。

论文没有只给一个“预训练完再上线”的简单流程，而是专门分成两种 online 变体：

A-iALP_ft

直接把离线学到的 policy 拿到线上继续 fine-tune。

A-iALP_ap

冻住预训练 policy πθ，再新建一个 learnable online policy πβ，通过 α 从小到大逐步把决策权交给后者。

这里最关键的一点，是作者明确承认：

direct fine-tuning 可能会把预训练 policy 很快带坏

原因并不抽象，就是两件事：

LLM 蒸出来的偏好和真实线上反馈之间有 distribution shift
如果上线后一直沿着预训练 policy 走，探索也可能不够

因此 A-iALP_ap 的系统位置非常清楚：

它不是单纯“再训一轮”。

它是在做：

frozen bootstrap -> gradual online takeover

这比普通 warm-start 更接近一个独立的部署层设计。

这条线最硬的信号，不只是最终回报，而是上线第一个阶段就少伤用户

这篇 paper 如果只看长期训练曲线，容易被写成又一个 actor-critic 涨点论文。

但它真正有价值的地方恰恰在早期上线阶段。

Table 3 给出的初始结果很硬：

在 LFM 上，

A2C 的 R@0 是 1.96
iALP 直接到 5.11

在 Industry 上，

A2C 的 R@0 是 2.43
iALP 直接到 6.35
Ravg@0 也从 0.41 提到 1.06

也就是说，它首先修的不是“长期最优值还能不能再高一点”，而是：

系统刚上线时，能不能别先给用户一段很差的随机探索期

再往后看，Table 4 说明这条 early advantage 不是一次性假象。

只加 1 个 epoch 在线反馈后，A-iALP_ft 在：

LFM 上的 R@1 到 8.83，高于 A2C 的 6.12
Industry 上的 R@1 到 9.28，高于 A2C 的 7.32

而 Table 5 则说明它最终也不只是“起步好看”。

例如：

LFM 上 A-iALP_ap 的最终 R 是 33.1，高于 A2C 的 28.1
Industry 上 A-iALP_ap 的 Ravg 是 4.58，高于 A2C 的 4.28
Coat 上 A-iALP_ap 的 R 是 84.4，也高于 A2C 的 81.7

因此这条线更像：

early-user-protection + long-term online adaptation

而不只是一个普通 offline pretrain trick。

`LLMOnline` 对照说明，LLM 更适合在 bootstrap 阶段退场，而不是一直待在在线 loop

这篇 paper 另一个很值得记的点，是它没有默认把 LLM 长期绑在线上。

6.3 节专门拿 LLMOnline 做对照：

LLMOnline 直接让 LLM 作为线上 sub-agent 出动作，再用环境反馈继续更新
A-iALP 则先把偏好蒸成预训练 policy，再由普通 RL online adaptation 接手

论文结论很明确：

初期两者表现接近
随着环境步数增加，A-iALP 更稳、更强
LLMOnline 还会有明显更高的时间成本

这意味着一个很实际的工程判断：

LLM 不一定要常驻在线 serving loop；它也可以只在 bootstrap 阶段提供偏好知识，然后尽快退出

这和很多“让大模型直接当在线 agent”的想法不一样。

更准确地说，iALP 的路线是：

LLM as offline policy teacher, not permanent online actor

当前公开边界仍偏 `paper-first`，中文传播层和 `xhslink` 也还是空的

这条线目前的公开边界也很明确。

arXiv 摘要页和 Glasgow eprints 页面都稳定，后者还能补上：

WSDM 2025
Hannover, Germany
pp. 107-116
DOI 10.1145/3701551.3703496
公开 PDF

但我这轮继续按论文全标题和 iALP 关键词检 GitHub API，截至 2026-03-22 仍未看到稳定官方 repo。

所以这条线当前更适合记成：

paper-first online handoff route

而不是已开放 workflow。

中文传播层则更弱。

这轮继续补做：

"Large Language Model driven Policy Exploration for Recommender Systems" 中文
"2501.13816" 推荐
site:xiaohongshu.com "2501.13816"
xhslink "2501.13816"

之后，结果仍然基本为空，没有拿到稳定的中文机制稿，也没有可复用的小红书线索。

证据与来源

Large Language Model driven Policy Exploration for Recommender Systems：论文摘要主入口；可直接核到 2025-01-23 提交时间、iALP / A-iALP 定义、offline RL 的 distribution shift 动机，以及 LLM 用来蒸出偏好、再做 actor-critic 预训练的总判断。
University of Glasgow Enlighten 论文页：稳定的会议信息与元数据入口；补上 WSDM 2025、页码、DOI、会议地点与公开 PDF 下载。
Large Language Model driven Policy Exploration for Recommender Systems PDF：正文关键入口；4.1-4.2 能直接核到 LLM 偏好蒸馏、iALP -> A-iALP_ft / A-iALP_ap 两种 handoff 设计，Table 3-5 给出初始收益、epoch=1 和最终收益的对照，6.3 则比较了 LLMOnline 与 A-iALP。
GitHub 仓库搜索："Large Language Model driven Policy Exploration for Recommender Systems"：本轮用来复核公开边界；截至 2026-03-22，未见稳定官方 repo。

下一步

把 iALP / A-iALP 并入 RL 结构表，新增 offline-to-online handoff / policy takeover regime 一列，避免把“上线接管方式”和“探索先验”“reasoning bootstrap”继续混写。
把它和 LAAC / LLMOnline / query distillation 放在一起对照，明确区分 proposal owner、bootstrap owner、policy handoff 与 serving handoff 四种不同的系统问题。
继续跟踪这条线是否补出官方仓、更多实验资产或稳定中文讨论；截至 2026-03-22，这三层都还偏弱。

iALP：推荐里的 LLM-RL，开始把 offline-to-online handoff 单独做成一层

背景

核心判断

iALP 的关键，不是“让 LLM 在线做代理推荐器”，而是把它变成 offline preference distiller

这逼着 Story Lab 再补一列 offline-to-online handoff / policy takeover regime

A-iALP_ap 真正要修的，不只是冷启动低回报，而是 distribution shift 下的 policy deterioration