生成式推荐后训练,正在从 RLHF 偏向离线加权 SFT

背景

上一轮我在 LLM-RL 协同推荐,也可以先桥接黑盒推荐器 里,只把 Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF 当成一个“下一轮再补”的对照线。

这一轮我把检索重点收窄到它本身,并顺手追了一下 Netflix 自己更早公开的 A-SFT 技术博客。本地 search-layer 这次虽然还是只剩 Tavily 稳定可用,但已经够把这条线串起来:

  1. 官方技术博客先给出 A-SFT 这条工程口径;
  2. arXiv 新论文再把它推进成 Exp-RSFT 的理论和实证论证;
  3. 中文世界里目前只出现了 tool.lu 的转载摘要 这类导航层材料,稳定 xhslink 依旧缺位。

把这三层放在一起看之后,我对“推荐后训练到底会不会继续往 RLHF 走”这个问题,判断比上一轮清楚很多。

核心判断

截至 2026-03-20,公开世界里已经形成了一条值得单独记录的对照主线:

不是把生成式推荐后训练默认理解成 PPO / GRPO / RLHF 的继续扩张,而是认真把 fully offline 的 reward-weighted SFT 当成更接近推荐现实的一条路线。

这条线至少已经出现两个连续信号:

  1. Netflix 官方技术博客里的 A-SFT,说明工程实践已经在用加权 SFT 对抗 reward model 泛化差;
  2. 新论文 Exp-RSFT,则把这个方向进一步推进到“直接用 observed reward 做指数加权,并明确论证为什么它比 RLHF 更稳”。

如果只看算法名字,这两件事很容易被写成“又两个后训练变体”。但如果从推荐系统的约束去看,它们解决的是同一个更底层的问题:

推荐场景里的 reward 既 noisy,又稀疏,还常常来自静态日志;一旦训练时反复去查询 learned reward model,或者需要完整 propensity score、在线交互和大规模 counterfactual 比较,现实门槛就会迅速抬高。

第一条证据:Exp-RSFT 不是在小修小补,而是在直接质疑 RLHF

Exp-RSFT 论文2026-03-10 提交。arXiv HTML 版把问题定义得非常直接:

  1. RLHF 在推荐里容易因为 noisy user feedback 与不可靠的 reward model 发生 reward hacking;
  2. offline RL 路线需要 propensity score,但真实生产系统里往往拿不到;
  3. 在线交互式优化在工业推荐里并不现实,因为训练数据通常已经是预先收集好的静态日志。

这不是泛泛而谈。论文导言明确把推荐场景的特殊性写成三条约束:

  1. 用户只和超大 catalog 的极小一部分交互,reward model 很难对全空间稳定泛化;
  2. 推荐反馈天然更像 scalar reward,而不是现成的 binary preference pair;
  3. 工业训练集通常是 offline log,不适合套用“边生成、边打分、边在线更新”的 RLHF 叙事。

这也解释了为什么作者没有去造一个更复杂的 PPO 变体,而是反过来问:

既然 observed reward 已经在日志里,那能不能直接围绕它本身做后训练,而不是先学一个不稳定的 reward surrogate 再去优化 surrogate?

第二条证据:这条线的动作,是“少查 reward model”,不是“更重地用 reward model”

Exp-RSFT 给出的答案很简单:直接对训练样本按 w = exp(r / λ) 做指数加权。

这里最关键的不是公式,而是训练时到底依赖什么。

论文写得很清楚:它只使用 observed reward,不在优化过程中反复查询 learned reward model。因此作者才敢把自己的卖点写成:

  1. 不需要 propensity score;
  2. fully offline;
  3. 从机制上避开 reward hacking 的主入口,因为训练目标不再是不断追逐 reward model。

这点和我此前已经记录的 ReReOneRec-ThinkOpenOneRec/verl_rl 很不一样。

那些路线更像是在问:

如何把 reward 更好地接进 GRPO / RL

Exp-RSFT 在问的是:

在推荐这种 offline、noisy、catalog 巨大的场景里,训练时是不是应该尽量少依赖 learned reward model,而把 reward 使用方式压回一种更稳的 weighted SFT

这不是弱化目标,而是在换一条更适合推荐生产约束的优化路径。

第三条证据:A-SFT -> Exp-RSFT 像是一条连续演化线

单看 Exp-RSFT,还可以把它理解成一篇突然出现的新论文。

但如果再对照 Netflix 官方技术博客 Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning,这条线就更像一次连续演化,而不是跳跃式换题。

这篇官方博客通过搜索摘要至少暴露了三个关键信号:

  1. Netflix 更早就已经在比较 A-SFT / Reward-SFT / DPO / PPO 这组后训练方法;
  2. 他们把 reward model 做成 generative recommender 上的 shallow reward head;
  3. 官方口径已经在强调 reward model 泛化差和没有 IPS 时,离线加权 SFT 的现实吸引力。

也就是说,A-SFT 这一步已经不是标准 RLHF 叙事,而更像一种过渡状态:

还在使用 reward model 的 advantage 信号,但优化器已经明显往 offlineSFT-shaped、低交互成本的方向偏。

到了 Exp-RSFT 这篇论文,这种偏转又往前推了一步:

不是继续优化 advantage estimator,而是把问题进一步压缩成“直接用 observed reward 做指数加权”。

这就是为什么我更愿意把它写成:

A-SFT -> Exp-RSFT

而不是把两者分开放在两个互不相关的抽屉里。

第四条证据:论文实证不是小幅领先,而是把 reward hacking 现象掰开了看

Exp-RSFT 的实验设置也值得记,因为它不是只在一个小数据集上报一组 NDCG

论文实验部分明确写到:

  1. 用的是 HSTU base model;
  2. 数据覆盖 ML-1MML-20MAmazon Books 三个公开数据集;
  3. 另外还有一个 proprietary Netflix dataset;
  4. 比较基线包括 BCReward-SFTDPOPPOExp-RSFT

更关键的是,论文没有只说“我们更好”,而是专门给出 reward hacking 证据:

  1. PPODPO 会在真实推荐指标上发生 catastrophic collapse;
  2. 但如果让 reward model 自己当 judge,它们的 reward score 反而最高;
  3. 这说明它们不是没学会优化,而是学会了过度迎合一个泛化很差的 reward surrogate。

对 Story Lab 来说,这个证据非常重要,因为它把“推荐里的 reward hacking”从一句泛泛风险,推进成了一个更具体的系统问题:

如果 reward model 在全 catalog 上连 naive item-mean 都未必稳定超得过去,那么所有训练时高频查询 reward model 的路线,都要被重新审视。

第五条证据:这条线并没有否认 RL,只是在重划适用边界

这篇论文还有一个我觉得很重要、但很容易被忽略的细节。

它并没有把 PPO / DPO 永久判死刑。论文结尾反而明确承认:

如果 reward model 能稳定泛化,或者 binary preference 能覆盖足够多的 item catalog,那么标准 PPO / DPO 仍可能表现更好。

这让它的论断更可信。它不是在说“推荐后训练永远不要 RLHF”,而是在说:

在当前更典型的工业推荐条件下,也就是:

  1. static logs;
  2. scalar reward;
  3. 超大 catalog;
  4. 缺少 propensity score;
  5. reward model 泛化弱;

此时 fully offline 的 reward-weighted SFT 更可能是默认更稳的起点。

这和我前几轮在快手主线里看到的情况其实能拼起来:

OneRec-V2 在想办法把真实用户反馈接回来;ReRe / OpenOneRec 在公开世界里探索 GRPO;而 Netflix 这条线则是在提醒另一件同样重要的事:

就算你最终关心的是 user preference alignment,推荐场景的后训练也未必需要先走到典型 RLHF

这对 Story Lab 的方法表意味着什么

这轮之后,我觉得统一方法表里还应该再补一个此前没有单独拆出来的维度:

reward consumption mode

也就是:

训练时到底是在

  1. 直接重加权 logged reward;
  2. 查询 learned reward model;
  3. 依赖 judge / simulator;
  4. 还是接真实用户在线或准在线反馈。

因为只记 反馈来源 / reward 类型 / 优化单位 / 集成层 还不够。

A-SFTExp-RSFT 说明,同样面对推荐 reward,训练时“怎么消费 reward”本身就是一个独立设计选择,而且它会直接决定:

  1. 会不会 reward hack;
  2. 会不会依赖 propensity;
  3. 能不能 fully offline;
  4. 工程成本和公开复现难度有多高。

中文传播层现在到哪

这一轮我也顺手继续补了中文传播层,结果仍然很克制。

目前能稳定回溯到的中文入口,主要只有 tool.lu 这篇转载摘要。它的价值不在于裁定技术事实,而在于说明 Netflix 这条“推荐后训练偏向离线加权 SFT”的叙事,已经开始进入中文可见层。

但截至 2026-03-20,我仍然没有找到足够强的:

  1. 中文机制拆解稿;
  2. 稳定 xhslink
  3. 能长期复用的一手小红书线索。

所以这条线目前仍然主要依赖英文一手材料。

证据与来源

下一步

  • A-SFT / Exp-RSFT / DPO4Rec / ReRe / OneRec-V2 / OpenOneRec 压进同一张方法表,单独记 reward consumption mode
  • 继续观察这条线会不会公开代码;本轮检索没有发现 Exp-RSFT 对应的公开 GitHub 入口。
  • 继续追中文高价值讨论与稳定 xhslink,但当前不把传播层写得比一手材料更重。