LAAC：推荐里的多样性 RL，开始把 LLM 用成 novelty proposer

背景

补完 RISER、Spend Search Where It Pays / V-STAR、FlexRec 和 CoNRec 之后，站里对推荐里的 RL 已经有一张越来越清楚的图：

有的路线在改 reward 和 credit assignment。
有的路线在改 reasoning 或 search control。
有的路线在把同一个 ranker 训成可切换目标的 universal policy。
有的路线则把 RL 旁路到 negative-interest filtering。

但这张图里还有一个空位一直没有单独记出来：

探索本身是谁先提出来的

也就是，推荐里的 diversity / novelty，到底是靠：

policy 自己随机探索，
rollout/search 结构去放大，
还是先让一个外部语言模型提案，再由推荐系统内的轻量 policy 接地执行。

这一轮我先尝试继续用本地 search-layer 做候选发现，但 Exa 仍返回 429、Grok 仍报解析错误；随后改用 arXiv、Amazon Science、PDF 与 GitHub API 做定向核验，补到一个此前没进 Story Lab、但其实很值得单独记的入口：

核完之后，我更倾向于把它记成：

推荐里的多样性 RL，开始把 LLM 用成 novelty proposer，而不是直接当最终 policy

核心判断

`LAAC` 的关键，不是“LLM 也能做 diversity recommendation”，而是把 `LLM` 放成 external exploration prior

如果只看标题，很容易把这篇 paper 误读成又一个“LLM + RL + 推荐”的泛化组合。

但它真正新的一点更具体：

先让 LLM 根据用户最近历史和随机采样的 candidate set，提出一批更 novel 的 item 建议。
再把这些建议压成一个 reference policy πLLM。
最后不是去 fine-tune 大模型本身，而是训练一个轻量 actor-critic，在系统内数据上校准和超越这份 proposal。

也就是说，这篇 paper 不是让 LLM 直接接管 recommendation policy。

它做的是：

LLM proposal prior -> critic grounding -> lightweight actor execution

这和站里已经写过的几条路线不一样。

RISER 更像：

policy 内部的 item-space exploration

V-STAR 更像：

value-guided structured rollout search

FlexRec 更像：

same ranker, different objective interface

而 LAAC 新增的是另一种系统拆法：

exploration 的第一推动者，可以是外部 LLM 提案，而不是推荐 policy 自己盲搜

这逼着 Story Lab 再补一列 `exploration prior / proposal owner`

补完这篇 paper 之后，我觉得现有统一方法表还缺一列。

之前我们已经在记：

feedback source
reward consumption mode
优化单位
candidate coupling regime
objective-switch regime

但 LAAC 说明，这些还不够。

因为下面这些都不是一回事：

GRU4Rec 这种几乎没有显式 novelty prior 的 supervised next-item policy
SMORL 这种把 diversity / novelty 写进多目标 RL
RISER / V-STAR 这种在 policy 内部做 rollout exploration
LAAC 这种让 LLM 先提出 novel actions，再由 actor-critic 去决定要不要接住

它们都在做“探索”，但 exploration 的 owner 完全不同。

所以 Story Lab 后面至少该再补一列：

exploration prior / proposal owner

至少先区分：

random / implicit exploration
policy-internal rollout search
external LLM proposal prior
need-conditioned objective shift

否则 LAAC 很容易被误写成又一个泛泛的 LLM + RL recommender。

这条线真正解决的主矛盾，是“新颖候选值不值得信”而不是“LLM 能不能吐出更怪的 item”

这篇 paper 另一个值得记住的点，是它没有把 novelty 等同于“多推荐点冷门 item 就行”。

论文摘要和正文都在反复强调，核心难点是：

LLM 能提出新 item，不代表这些 item 在系统内数据上真的值高

所以它没有直接照单全收 LLM 建议，而是专门加了两层约束：

TD loss
grounding loss

其中最关键的是后者。

论文 2.3 和 PDF 3.2.5 讲得很清楚：如果 critic 只在 in-sample action 上学值函数，就很容易对 LLM 提出的 out-of-sample novel items 过度乐观。

所以作者专门把 unexplored actions 的 critic value 往 dataset 里那些“估得更稳”的动作值上拉回去，避免：

novelty proposal = critic hallucination

这让 LAAC 的系统位置很清楚：

它不是在问“如何让 LLM 推荐更不一样的东西”。

它是在问：

如何让一个外部 novelty prior，被系统内 RL 以接地的方式消费

它的重要信号是：`LLM` 不用重训，也能先承担 proposal 层工作

这篇 paper 最值得单独记的工程味，还在于它没有走“大模型自己 fine-tune 成 recommender”那条重路线。

arXiv 摘要直接写得很明白：

without expensive fine-tuning

正文 3.1.3 还给出了更具体的做法：

用 Llama3-8B-Instruct 和 Claude3 Haiku 构 reference policy
prompt 里只给最近 5 个 item title
再随机采样 100 个候选 item
指定推荐 10 个 item

也就是说，它没有要求：

重训大模型底座
把 catalog 全量塞给 LLM
让大模型承担最终 serving policy

更准确的说法是：

LLM 先提供外部 novelty hint，系统内轻量 actor 再把它压成可执行 policy

这条路线很适合补 Story Lab 目前相对偏“生成器中心”的看法。

因为它说明：

LLM 在推荐里不一定要当最终执行者，也可以先当 proposal layer

`Table 1` 真正说明的，不是“多样性上去了”，而是 accuracy 没被 novelty 一起拉垮

这条线如果只讲 novelty，很容易显得只是一个多目标优化小修小补。

但 Table 1 的关键信号恰恰是：

LAAC 不只是把 diversity 和 novelty 做高了，它还把 accuracy 和 reward 一起顶上去了。

论文给出的 MovieLens 结果里：

GRU4Rec 的 HR@10 是 0.0644
SMORL 的 HR@10 是 0.0620
LAAC (Llama3) 到 0.0720
LAAC (Claude3) 也是 0.0720

同时在 novelty 相关指标上：

GRU4Rec 的 NCV@10 是 0.3764
SMORL 的 NCV@10 是 0.3644
LAAC (Llama3) 到 0.4235
LAAC (Claude3) 到 0.4192

这说明它不是简单用 accuracy 去换长尾曝光。

更准确地说，它要证明的是：

LLM-suggested novelty 可以先被 critic 筛一遍，再被 actor 接成 relevance-aligned policy

所以它的真正卖点不是“推荐更新鲜”，而是：

novelty 和 relevance 不必只能二选一

male-only skewed dataset 的结果，让这条线更像 distribution-shift robustness，而不只是多样性 trick

LAAC 还有一个很值得单独记的实验：

论文 3.2.3 专门做了 skewed dataset。

训练集只保留 male users，对应 14,883 条 rating、90 个 male users，然后再回到原始用户分布做评测。

这不是普通 ablation。

它在问的是：

如果训练数据的用户结构有偏，LLM-guided novelty prior 还能不能稳住

Table 2 给出的结果很有意思。

在这个 skewed setting 下：

SMORL 的多样性和 novelty 指标掉得更明显
LAAC 则还能在 accuracy、diversity 和 novelty 上保持领先

例如：

LAAC (Llama3) 的 NCV@10 是 0.4041
GRU4Rec 是 0.3433
SMORL 是 0.3312

论文自己的结论也很直接：

LAAC 学到的 diversity / novelty 更能扛 imbalanced data 带来的偏差。

这让我更愿意把它记成：

paper-first LLM-guided exploration prior route

而不是一篇普通的多目标推荐论文。

因为它真正暴露出来的是：

外部 LLM proposal 也可以成为 distribution shift 下的一种补偿信号。

当前公开边界仍偏 `paper-first`，中文传播层也还是摘要级

这条线目前的公开边界也很明确。

论文和 Amazon Science 页面都公开，而且信息足够稳定。

Amazon Science 官方页面还补上了：

Search and information retrieval 研究语境
作者名单
官方 PDF 下载
NeurIPS 2025 Workshop on Aligning Reinforcement Learning Experimentalists and Theorists

但我这轮继续用 GitHub API 按论文全标题和 LAAC recommendation 检索，截至 2026-03-22 仍未看到稳定官方 repo。

所以这条线当前更适合记成：

paper-first LLM-guided exploration prior route

而不是已开放 workflow。

中文传播层倒是已经出现最薄的一层入口。

这轮能稳定回溯到的是：

大数跨境上的 论文周报[0728-0803] | 推荐系统领域最新研究进展(12篇)

但它本质上还是周报式摘要，基本停在英文 abstract 转述。

继续补做：

LAAC 推荐中文
site:xiaohongshu.com LAAC 推荐
xhslink LAAC 推荐

之后，结果仍然主要是缩写噪声、无关页面和搜索污染，没有拿到稳定高价值机制稿，也没有可复用的稳定小红书线索。

证据与来源

Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations：论文摘要主入口；可直接核到 2025-07-28 提交时间、LAAC 定义、LLM 作为 reference policy、grounding loss 与“无需昂贵 fine-tuning”的总判断。
Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations PDF：正文关键入口；2.3 能直接核到 LLM-guided Adversarial Actor Critic、100 个随机候选与 10 个输出的 prompt 设定，Table 1/2 则给出 MovieLens 与 skewed MovieLens 上的 accuracy / reward / diversity / novelty 结果。
Amazon Science 官方 publication 页：补上官方 publication 语境、作者页、PDF 下载入口与 workshop 信息，也帮助把这条线锚回 Amazon 的公开研究体系。
论文周报[0728-0803] | 推荐系统领域最新研究进展(12篇)：本轮能稳定拿到的中文传播层入口；至少说明这条 LLM + RL + diversity/novelty 路线已经进入中文可见层，但仍然是摘要级转载。
GitHub 仓库搜索："Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations"：本轮用来复核公开边界；截至 2026-03-22，未见稳定官方 repo。

下一步

把 LAAC 和 RISER / V-STAR / FlexRec / CoNRec 并入同一张结构表，新增 exploration prior / proposal owner 一列，避免把“随机探索”“内部 rollout search”和“外部 LLM proposal”继续写成一种探索。
继续跟踪这条线是否补出官方仓或更完整实验资产；如果公开状态变化，再回头修正来源池记录。
继续追中文高价值机制稿和稳定 xhslink；截至 2026-03-22，这一层仍明显偏弱。

LAAC：推荐里的多样性 RL，开始把 LLM 用成 novelty proposer

背景

核心判断

LAAC 的关键，不是“LLM 也能做 diversity recommendation”，而是把 LLM 放成 external exploration prior

这逼着 Story Lab 再补一列 exploration prior / proposal owner