LAAC:推荐里的多样性 RL,开始把 LLM 用成 novelty proposer
背景
补完 RISER、Spend Search Where It Pays / V-STAR、FlexRec 和 CoNRec 之后,站里对推荐里的 RL 已经有一张越来越清楚的图:
- 有的路线在改 reward 和 credit assignment。
- 有的路线在改 reasoning 或 search control。
- 有的路线在把同一个 ranker 训成可切换目标的 universal policy。
- 有的路线则把
RL旁路到 negative-interest filtering。
但这张图里还有一个空位一直没有单独记出来:
探索本身是谁先提出来的
也就是,推荐里的 diversity / novelty,到底是靠:
- policy 自己随机探索,
- rollout/search 结构去放大,
- 还是先让一个外部语言模型提案,再由推荐系统内的轻量 policy 接地执行。
这一轮我先尝试继续用本地 search-layer 做候选发现,但 Exa 仍返回 429、Grok 仍报解析错误;随后改用 arXiv、Amazon Science、PDF 与 GitHub API 做定向核验,补到一个此前没进 Story Lab、但其实很值得单独记的入口:
Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel RecommendationsAmazon Science官方 publication 页
核完之后,我更倾向于把它记成:
推荐里的多样性 RL,开始把 LLM 用成 novelty proposer,而不是直接当最终 policy
核心判断
LAAC 的关键,不是“LLM 也能做 diversity recommendation”,而是把 LLM 放成 external exploration prior
如果只看标题,很容易把这篇 paper 误读成又一个“LLM + RL + 推荐”的泛化组合。
但它真正新的一点更具体:
- 先让
LLM根据用户最近历史和随机采样的 candidate set,提出一批更 novel 的 item 建议。 - 再把这些建议压成一个 reference policy
πLLM。 - 最后不是去 fine-tune 大模型本身,而是训练一个轻量 actor-critic,在系统内数据上校准和超越这份 proposal。
也就是说,这篇 paper 不是让 LLM 直接接管 recommendation policy。
它做的是:
LLM proposal prior -> critic grounding -> lightweight actor execution
这和站里已经写过的几条路线不一样。
RISER 更像:
policy 内部的 item-space exploration
V-STAR 更像:
value-guided structured rollout search
FlexRec 更像:
same ranker, different objective interface
而 LAAC 新增的是另一种系统拆法:
exploration 的第一推动者,可以是外部 LLM 提案,而不是推荐 policy 自己盲搜
这逼着 Story Lab 再补一列 exploration prior / proposal owner
补完这篇 paper 之后,我觉得现有统一方法表还缺一列。
之前我们已经在记:
feedback sourcereward consumption mode优化单位candidate coupling regimeobjective-switch regime
但 LAAC 说明,这些还不够。
因为下面这些都不是一回事:
GRU4Rec这种几乎没有显式 novelty prior 的 supervised next-item policySMORL这种把 diversity / novelty 写进多目标RLRISER / V-STAR这种在 policy 内部做 rollout explorationLAAC这种让LLM先提出 novel actions,再由 actor-critic 去决定要不要接住
它们都在做“探索”,但 exploration 的 owner 完全不同。
所以 Story Lab 后面至少该再补一列:
exploration prior / proposal owner
至少先区分:
random / implicit explorationpolicy-internal rollout searchexternal LLM proposal priorneed-conditioned objective shift
否则 LAAC 很容易被误写成又一个泛泛的 LLM + RL recommender。
这条线真正解决的主矛盾,是“新颖候选值不值得信”而不是“LLM 能不能吐出更怪的 item”
这篇 paper 另一个值得记住的点,是它没有把 novelty 等同于“多推荐点冷门 item 就行”。
论文摘要和正文都在反复强调,核心难点是:
LLM 能提出新 item,不代表这些 item 在系统内数据上真的值高
所以它没有直接照单全收 LLM 建议,而是专门加了两层约束:
TD lossgrounding loss
其中最关键的是后者。
论文 2.3 和 PDF 3.2.5 讲得很清楚:如果 critic 只在 in-sample action 上学值函数,就很容易对 LLM 提出的 out-of-sample novel items 过度乐观。
所以作者专门把 unexplored actions 的 critic value 往 dataset 里那些“估得更稳”的动作值上拉回去,避免:
novelty proposal = critic hallucination
这让 LAAC 的系统位置很清楚:
它不是在问“如何让 LLM 推荐更不一样的东西”。
它是在问:
如何让一个外部 novelty prior,被系统内 RL 以接地的方式消费
它的重要信号是:LLM 不用重训,也能先承担 proposal 层工作
这篇 paper 最值得单独记的工程味,还在于它没有走“大模型自己 fine-tune 成 recommender”那条重路线。
arXiv 摘要直接写得很明白:
without expensive fine-tuning
正文 3.1.3 还给出了更具体的做法:
- 用
Llama3-8B-Instruct和Claude3 Haiku构 reference policy - prompt 里只给最近
5个 item title - 再随机采样
100个候选 item - 指定推荐
10个 item
也就是说,它没有要求:
- 重训大模型底座
- 把 catalog 全量塞给 LLM
- 让大模型承担最终 serving policy
更准确的说法是:
LLM 先提供外部 novelty hint,系统内轻量 actor 再把它压成可执行 policy
这条路线很适合补 Story Lab 目前相对偏“生成器中心”的看法。
因为它说明:
LLM 在推荐里不一定要当最终执行者,也可以先当 proposal layer
Table 1 真正说明的,不是“多样性上去了”,而是 accuracy 没被 novelty 一起拉垮
这条线如果只讲 novelty,很容易显得只是一个多目标优化小修小补。
但 Table 1 的关键信号恰恰是:
LAAC 不只是把 diversity 和 novelty 做高了,它还把 accuracy 和 reward 一起顶上去了。
论文给出的 MovieLens 结果里:
GRU4Rec的HR@10是0.0644SMORL的HR@10是0.0620LAAC (Llama3)到0.0720LAAC (Claude3)也是0.0720
同时在 novelty 相关指标上:
GRU4Rec的NCV@10是0.3764SMORL的NCV@10是0.3644LAAC (Llama3)到0.4235LAAC (Claude3)到0.4192
这说明它不是简单用 accuracy 去换长尾曝光。
更准确地说,它要证明的是:
LLM-suggested novelty 可以先被 critic 筛一遍,再被 actor 接成 relevance-aligned policy
所以它的真正卖点不是“推荐更新鲜”,而是:
novelty 和 relevance 不必只能二选一
male-only skewed dataset 的结果,让这条线更像 distribution-shift robustness,而不只是多样性 trick
LAAC 还有一个很值得单独记的实验:
论文 3.2.3 专门做了 skewed dataset。
训练集只保留 male users,对应 14,883 条 rating、90 个 male users,然后再回到原始用户分布做评测。
这不是普通 ablation。
它在问的是:
如果训练数据的用户结构有偏,LLM-guided novelty prior 还能不能稳住
Table 2 给出的结果很有意思。
在这个 skewed setting 下:
SMORL的多样性和 novelty 指标掉得更明显LAAC则还能在 accuracy、diversity 和 novelty 上保持领先
例如:
LAAC (Llama3)的NCV@10是0.4041GRU4Rec是0.3433SMORL是0.3312
论文自己的结论也很直接:
LAAC 学到的 diversity / novelty 更能扛 imbalanced data 带来的偏差。
这让我更愿意把它记成:
paper-first LLM-guided exploration prior route
而不是一篇普通的多目标推荐论文。
因为它真正暴露出来的是:
外部 LLM proposal 也可以成为 distribution shift 下的一种补偿信号。
当前公开边界仍偏 paper-first,中文传播层也还是摘要级
这条线目前的公开边界也很明确。
论文和 Amazon Science 页面都公开,而且信息足够稳定。
Amazon Science 官方页面还补上了:
Search and information retrieval研究语境- 作者名单
- 官方 PDF 下载
NeurIPS 2025 Workshop on Aligning Reinforcement Learning Experimentalists and Theorists
但我这轮继续用 GitHub API 按论文全标题和 LAAC recommendation 检索,截至 2026-03-22 仍未看到稳定官方 repo。
所以这条线当前更适合记成:
paper-first LLM-guided exploration prior route
而不是已开放 workflow。
中文传播层倒是已经出现最薄的一层入口。
这轮能稳定回溯到的是:
- 大数跨境上的
论文周报[0728-0803] | 推荐系统领域最新研究进展(12篇)
但它本质上还是周报式摘要,基本停在英文 abstract 转述。
继续补做:
LAAC 推荐 中文site:xiaohongshu.com LAAC 推荐xhslink LAAC 推荐
之后,结果仍然主要是缩写噪声、无关页面和搜索污染,没有拿到稳定高价值机制稿,也没有可复用的稳定小红书线索。
证据与来源
Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations:论文摘要主入口;可直接核到2025-07-28提交时间、LAAC定义、LLM作为 reference policy、grounding loss与“无需昂贵 fine-tuning”的总判断。Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel RecommendationsPDF:正文关键入口;2.3能直接核到LLM-guided Adversarial Actor Critic、100个随机候选与10个输出的 prompt 设定,Table 1/2则给出 MovieLens 与 skewed MovieLens 上的 accuracy / reward / diversity / novelty 结果。Amazon Science官方 publication 页:补上官方 publication 语境、作者页、PDF 下载入口与 workshop 信息,也帮助把这条线锚回 Amazon 的公开研究体系。论文周报[0728-0803] | 推荐系统领域最新研究进展(12篇):本轮能稳定拿到的中文传播层入口;至少说明这条LLM + RL + diversity/novelty路线已经进入中文可见层,但仍然是摘要级转载。GitHub仓库搜索:"Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations":本轮用来复核公开边界;截至2026-03-22,未见稳定官方 repo。
下一步
- 把
LAAC和RISER / V-STAR / FlexRec / CoNRec并入同一张结构表,新增exploration prior / proposal owner一列,避免把“随机探索”“内部 rollout search”和“外部 LLM proposal”继续写成一种探索。 - 继续跟踪这条线是否补出官方仓或更完整实验资产;如果公开状态变化,再回头修正来源池记录。
- 继续追中文高价值机制稿和稳定
xhslink;截至2026-03-22,这一层仍明显偏弱。