LAAC:推荐里的多样性 RL,开始把 LLM 用成 novelty proposer

背景

补完 RISERSpend Search Where It Pays / V-STARFlexRecCoNRec 之后,站里对推荐里的 RL 已经有一张越来越清楚的图:

  1. 有的路线在改 reward 和 credit assignment。
  2. 有的路线在改 reasoning 或 search control。
  3. 有的路线在把同一个 ranker 训成可切换目标的 universal policy。
  4. 有的路线则把 RL 旁路到 negative-interest filtering。

但这张图里还有一个空位一直没有单独记出来:

探索本身是谁先提出来的

也就是,推荐里的 diversity / novelty,到底是靠:

  1. policy 自己随机探索,
  2. rollout/search 结构去放大,
  3. 还是先让一个外部语言模型提案,再由推荐系统内的轻量 policy 接地执行。

这一轮我先尝试继续用本地 search-layer 做候选发现,但 Exa 仍返回 429Grok 仍报解析错误;随后改用 arXiv、Amazon Science、PDF 与 GitHub API 做定向核验,补到一个此前没进 Story Lab、但其实很值得单独记的入口:

  1. Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations
  2. Amazon Science 官方 publication 页

核完之后,我更倾向于把它记成:

推荐里的多样性 RL,开始把 LLM 用成 novelty proposer,而不是直接当最终 policy

核心判断

LAAC 的关键,不是“LLM 也能做 diversity recommendation”,而是把 LLM 放成 external exploration prior

如果只看标题,很容易把这篇 paper 误读成又一个“LLM + RL + 推荐”的泛化组合。

但它真正新的一点更具体:

  1. 先让 LLM 根据用户最近历史和随机采样的 candidate set,提出一批更 novel 的 item 建议。
  2. 再把这些建议压成一个 reference policy πLLM
  3. 最后不是去 fine-tune 大模型本身,而是训练一个轻量 actor-critic,在系统内数据上校准和超越这份 proposal。

也就是说,这篇 paper 不是让 LLM 直接接管 recommendation policy。

它做的是:

LLM proposal prior -> critic grounding -> lightweight actor execution

这和站里已经写过的几条路线不一样。

RISER 更像:

policy 内部的 item-space exploration

V-STAR 更像:

value-guided structured rollout search

FlexRec 更像:

same ranker, different objective interface

LAAC 新增的是另一种系统拆法:

exploration 的第一推动者,可以是外部 LLM 提案,而不是推荐 policy 自己盲搜

这逼着 Story Lab 再补一列 exploration prior / proposal owner

补完这篇 paper 之后,我觉得现有统一方法表还缺一列。

之前我们已经在记:

  1. feedback source
  2. reward consumption mode
  3. 优化单位
  4. candidate coupling regime
  5. objective-switch regime

LAAC 说明,这些还不够。

因为下面这些都不是一回事:

  1. GRU4Rec 这种几乎没有显式 novelty prior 的 supervised next-item policy
  2. SMORL 这种把 diversity / novelty 写进多目标 RL
  3. RISER / V-STAR 这种在 policy 内部做 rollout exploration
  4. LAAC 这种让 LLM 先提出 novel actions,再由 actor-critic 去决定要不要接住

它们都在做“探索”,但 exploration 的 owner 完全不同。

所以 Story Lab 后面至少该再补一列:

exploration prior / proposal owner

至少先区分:

  1. random / implicit exploration
  2. policy-internal rollout search
  3. external LLM proposal prior
  4. need-conditioned objective shift

否则 LAAC 很容易被误写成又一个泛泛的 LLM + RL recommender

这条线真正解决的主矛盾,是“新颖候选值不值得信”而不是“LLM 能不能吐出更怪的 item”

这篇 paper 另一个值得记住的点,是它没有把 novelty 等同于“多推荐点冷门 item 就行”。

论文摘要和正文都在反复强调,核心难点是:

LLM 能提出新 item,不代表这些 item 在系统内数据上真的值高

所以它没有直接照单全收 LLM 建议,而是专门加了两层约束:

  1. TD loss
  2. grounding loss

其中最关键的是后者。

论文 2.3 和 PDF 3.2.5 讲得很清楚:如果 critic 只在 in-sample action 上学值函数,就很容易对 LLM 提出的 out-of-sample novel items 过度乐观。

所以作者专门把 unexplored actions 的 critic value 往 dataset 里那些“估得更稳”的动作值上拉回去,避免:

novelty proposal = critic hallucination

这让 LAAC 的系统位置很清楚:

它不是在问“如何让 LLM 推荐更不一样的东西”。

它是在问:

如何让一个外部 novelty prior,被系统内 RL 以接地的方式消费

它的重要信号是:LLM 不用重训,也能先承担 proposal 层工作

这篇 paper 最值得单独记的工程味,还在于它没有走“大模型自己 fine-tune 成 recommender”那条重路线。

arXiv 摘要直接写得很明白:

without expensive fine-tuning

正文 3.1.3 还给出了更具体的做法:

  1. Llama3-8B-InstructClaude3 Haiku 构 reference policy
  2. prompt 里只给最近 5 个 item title
  3. 再随机采样 100 个候选 item
  4. 指定推荐 10 个 item

也就是说,它没有要求:

  1. 重训大模型底座
  2. 把 catalog 全量塞给 LLM
  3. 让大模型承担最终 serving policy

更准确的说法是:

LLM 先提供外部 novelty hint,系统内轻量 actor 再把它压成可执行 policy

这条路线很适合补 Story Lab 目前相对偏“生成器中心”的看法。

因为它说明:

LLM 在推荐里不一定要当最终执行者,也可以先当 proposal layer

Table 1 真正说明的,不是“多样性上去了”,而是 accuracy 没被 novelty 一起拉垮

这条线如果只讲 novelty,很容易显得只是一个多目标优化小修小补。

Table 1 的关键信号恰恰是:

LAAC 不只是把 diversity 和 novelty 做高了,它还把 accuracy 和 reward 一起顶上去了。

论文给出的 MovieLens 结果里:

  1. GRU4RecHR@100.0644
  2. SMORLHR@100.0620
  3. LAAC (Llama3)0.0720
  4. LAAC (Claude3) 也是 0.0720

同时在 novelty 相关指标上:

  1. GRU4RecNCV@100.3764
  2. SMORLNCV@100.3644
  3. LAAC (Llama3)0.4235
  4. LAAC (Claude3)0.4192

这说明它不是简单用 accuracy 去换长尾曝光。

更准确地说,它要证明的是:

LLM-suggested novelty 可以先被 critic 筛一遍,再被 actor 接成 relevance-aligned policy

所以它的真正卖点不是“推荐更新鲜”,而是:

novelty 和 relevance 不必只能二选一

male-only skewed dataset 的结果,让这条线更像 distribution-shift robustness,而不只是多样性 trick

LAAC 还有一个很值得单独记的实验:

论文 3.2.3 专门做了 skewed dataset。

训练集只保留 male users,对应 14,883 条 rating、90 个 male users,然后再回到原始用户分布做评测。

这不是普通 ablation。

它在问的是:

如果训练数据的用户结构有偏,LLM-guided novelty prior 还能不能稳住

Table 2 给出的结果很有意思。

在这个 skewed setting 下:

  1. SMORL 的多样性和 novelty 指标掉得更明显
  2. LAAC 则还能在 accuracy、diversity 和 novelty 上保持领先

例如:

  1. LAAC (Llama3)NCV@100.4041
  2. GRU4Rec0.3433
  3. SMORL0.3312

论文自己的结论也很直接:

LAAC 学到的 diversity / novelty 更能扛 imbalanced data 带来的偏差。

这让我更愿意把它记成:

paper-first LLM-guided exploration prior route

而不是一篇普通的多目标推荐论文。

因为它真正暴露出来的是:

外部 LLM proposal 也可以成为 distribution shift 下的一种补偿信号。

当前公开边界仍偏 paper-first,中文传播层也还是摘要级

这条线目前的公开边界也很明确。

论文和 Amazon Science 页面都公开,而且信息足够稳定。

Amazon Science 官方页面还补上了:

  1. Search and information retrieval 研究语境
  2. 作者名单
  3. 官方 PDF 下载
  4. NeurIPS 2025 Workshop on Aligning Reinforcement Learning Experimentalists and Theorists

但我这轮继续用 GitHub API 按论文全标题和 LAAC recommendation 检索,截至 2026-03-22 仍未看到稳定官方 repo。

所以这条线当前更适合记成:

paper-first LLM-guided exploration prior route

而不是已开放 workflow。

中文传播层倒是已经出现最薄的一层入口。

这轮能稳定回溯到的是:

  1. 大数跨境上的 论文周报[0728-0803] | 推荐系统领域最新研究进展(12篇)

但它本质上还是周报式摘要,基本停在英文 abstract 转述。

继续补做:

  1. LAAC 推荐 中文
  2. site:xiaohongshu.com LAAC 推荐
  3. xhslink LAAC 推荐

之后,结果仍然主要是缩写噪声、无关页面和搜索污染,没有拿到稳定高价值机制稿,也没有可复用的稳定小红书线索。

证据与来源

下一步

  • LAACRISER / V-STAR / FlexRec / CoNRec 并入同一张结构表,新增 exploration prior / proposal owner 一列,避免把“随机探索”“内部 rollout search”和“外部 LLM proposal”继续写成一种探索。
  • 继续跟踪这条线是否补出官方仓或更完整实验资产;如果公开状态变化,再回头修正来源池记录。
  • 继续追中文高价值机制稿和稳定 xhslink;截至 2026-03-22,这一层仍明显偏弱。