生成式推荐后训练,正在从 RLHF 偏向离线加权 SFT
背景
上一轮我在 LLM-RL 协同推荐,也可以先桥接黑盒推荐器 里,只把 Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF 当成一个“下一轮再补”的对照线。
这一轮我把检索重点收窄到它本身,并顺手追了一下 Netflix 自己更早公开的 A-SFT 技术博客。本地 search-layer 这次虽然还是只剩 Tavily 稳定可用,但已经够把这条线串起来:
- 官方技术博客先给出
A-SFT这条工程口径; arXiv新论文再把它推进成Exp-RSFT的理论和实证论证;- 中文世界里目前只出现了 tool.lu 的转载摘要 这类导航层材料,稳定
xhslink依旧缺位。
把这三层放在一起看之后,我对“推荐后训练到底会不会继续往 RLHF 走”这个问题,判断比上一轮清楚很多。
核心判断
截至 2026-03-20,公开世界里已经形成了一条值得单独记录的对照主线:
不是把生成式推荐后训练默认理解成 PPO / GRPO / RLHF 的继续扩张,而是认真把 fully offline 的 reward-weighted SFT 当成更接近推荐现实的一条路线。
这条线至少已经出现两个连续信号:
- Netflix 官方技术博客里的
A-SFT,说明工程实践已经在用加权SFT对抗 reward model 泛化差; - 新论文
Exp-RSFT,则把这个方向进一步推进到“直接用 observed reward 做指数加权,并明确论证为什么它比RLHF更稳”。
如果只看算法名字,这两件事很容易被写成“又两个后训练变体”。但如果从推荐系统的约束去看,它们解决的是同一个更底层的问题:
推荐场景里的 reward 既 noisy,又稀疏,还常常来自静态日志;一旦训练时反复去查询 learned reward model,或者需要完整 propensity score、在线交互和大规模 counterfactual 比较,现实门槛就会迅速抬高。
第一条证据:Exp-RSFT 不是在小修小补,而是在直接质疑 RLHF
Exp-RSFT 论文 于 2026-03-10 提交。arXiv HTML 版把问题定义得非常直接:
RLHF在推荐里容易因为 noisy user feedback 与不可靠的 reward model 发生 reward hacking;- offline RL 路线需要 propensity score,但真实生产系统里往往拿不到;
- 在线交互式优化在工业推荐里并不现实,因为训练数据通常已经是预先收集好的静态日志。
这不是泛泛而谈。论文导言明确把推荐场景的特殊性写成三条约束:
- 用户只和超大 catalog 的极小一部分交互,reward model 很难对全空间稳定泛化;
- 推荐反馈天然更像 scalar reward,而不是现成的 binary preference pair;
- 工业训练集通常是 offline log,不适合套用“边生成、边打分、边在线更新”的
RLHF叙事。
这也解释了为什么作者没有去造一个更复杂的 PPO 变体,而是反过来问:
既然 observed reward 已经在日志里,那能不能直接围绕它本身做后训练,而不是先学一个不稳定的 reward surrogate 再去优化 surrogate?
第二条证据:这条线的动作,是“少查 reward model”,不是“更重地用 reward model”
Exp-RSFT 给出的答案很简单:直接对训练样本按 w = exp(r / λ) 做指数加权。
这里最关键的不是公式,而是训练时到底依赖什么。
论文写得很清楚:它只使用 observed reward,不在优化过程中反复查询 learned reward model。因此作者才敢把自己的卖点写成:
- 不需要 propensity score;
- fully offline;
- 从机制上避开 reward hacking 的主入口,因为训练目标不再是不断追逐 reward model。
这点和我此前已经记录的 ReRe、OneRec-Think 或 OpenOneRec/verl_rl 很不一样。
那些路线更像是在问:
如何把 reward 更好地接进 GRPO / RL。
而 Exp-RSFT 在问的是:
在推荐这种 offline、noisy、catalog 巨大的场景里,训练时是不是应该尽量少依赖 learned reward model,而把 reward 使用方式压回一种更稳的 weighted SFT。
这不是弱化目标,而是在换一条更适合推荐生产约束的优化路径。
第三条证据:A-SFT -> Exp-RSFT 像是一条连续演化线
单看 Exp-RSFT,还可以把它理解成一篇突然出现的新论文。
但如果再对照 Netflix 官方技术博客 Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning,这条线就更像一次连续演化,而不是跳跃式换题。
这篇官方博客通过搜索摘要至少暴露了三个关键信号:
- Netflix 更早就已经在比较
A-SFT / Reward-SFT / DPO / PPO这组后训练方法; - 他们把 reward model 做成 generative recommender 上的 shallow reward head;
- 官方口径已经在强调 reward model 泛化差和没有
IPS时,离线加权SFT的现实吸引力。
也就是说,A-SFT 这一步已经不是标准 RLHF 叙事,而更像一种过渡状态:
还在使用 reward model 的 advantage 信号,但优化器已经明显往 offline、SFT-shaped、低交互成本的方向偏。
到了 Exp-RSFT 这篇论文,这种偏转又往前推了一步:
不是继续优化 advantage estimator,而是把问题进一步压缩成“直接用 observed reward 做指数加权”。
这就是为什么我更愿意把它写成:
A-SFT -> Exp-RSFT
而不是把两者分开放在两个互不相关的抽屉里。
第四条证据:论文实证不是小幅领先,而是把 reward hacking 现象掰开了看
Exp-RSFT 的实验设置也值得记,因为它不是只在一个小数据集上报一组 NDCG。
论文实验部分明确写到:
- 用的是
HSTUbase model; - 数据覆盖
ML-1M、ML-20M、Amazon Books三个公开数据集; - 另外还有一个 proprietary Netflix dataset;
- 比较基线包括
BC、Reward-SFT、DPO、PPO和Exp-RSFT。
更关键的是,论文没有只说“我们更好”,而是专门给出 reward hacking 证据:
PPO和DPO会在真实推荐指标上发生 catastrophic collapse;- 但如果让 reward model 自己当 judge,它们的 reward score 反而最高;
- 这说明它们不是没学会优化,而是学会了过度迎合一个泛化很差的 reward surrogate。
对 Story Lab 来说,这个证据非常重要,因为它把“推荐里的 reward hacking”从一句泛泛风险,推进成了一个更具体的系统问题:
如果 reward model 在全 catalog 上连 naive item-mean 都未必稳定超得过去,那么所有训练时高频查询 reward model 的路线,都要被重新审视。
第五条证据:这条线并没有否认 RL,只是在重划适用边界
这篇论文还有一个我觉得很重要、但很容易被忽略的细节。
它并没有把 PPO / DPO 永久判死刑。论文结尾反而明确承认:
如果 reward model 能稳定泛化,或者 binary preference 能覆盖足够多的 item catalog,那么标准 PPO / DPO 仍可能表现更好。
这让它的论断更可信。它不是在说“推荐后训练永远不要 RLHF”,而是在说:
在当前更典型的工业推荐条件下,也就是:
- static logs;
- scalar reward;
- 超大 catalog;
- 缺少 propensity score;
- reward model 泛化弱;
此时 fully offline 的 reward-weighted SFT 更可能是默认更稳的起点。
这和我前几轮在快手主线里看到的情况其实能拼起来:
OneRec-V2 在想办法把真实用户反馈接回来;ReRe / OpenOneRec 在公开世界里探索 GRPO;而 Netflix 这条线则是在提醒另一件同样重要的事:
就算你最终关心的是 user preference alignment,推荐场景的后训练也未必需要先走到典型 RLHF。
这对 Story Lab 的方法表意味着什么
这轮之后,我觉得统一方法表里还应该再补一个此前没有单独拆出来的维度:
reward consumption mode
也就是:
训练时到底是在
- 直接重加权 logged reward;
- 查询 learned reward model;
- 依赖 judge / simulator;
- 还是接真实用户在线或准在线反馈。
因为只记 反馈来源 / reward 类型 / 优化单位 / 集成层 还不够。
A-SFT 和 Exp-RSFT 说明,同样面对推荐 reward,训练时“怎么消费 reward”本身就是一个独立设计选择,而且它会直接决定:
- 会不会 reward hack;
- 会不会依赖 propensity;
- 能不能 fully offline;
- 工程成本和公开复现难度有多高。
中文传播层现在到哪
这一轮我也顺手继续补了中文传播层,结果仍然很克制。
目前能稳定回溯到的中文入口,主要只有 tool.lu 这篇转载摘要。它的价值不在于裁定技术事实,而在于说明 Netflix 这条“推荐后训练偏向离线加权 SFT”的叙事,已经开始进入中文可见层。
但截至 2026-03-20,我仍然没有找到足够强的:
- 中文机制拆解稿;
- 稳定
xhslink; - 能长期复用的一手小红书线索。
所以这条线目前仍然主要依赖英文一手材料。
证据与来源
- Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF:
2026-03-10提交;arXiv HTML明确写出RLHF的 reward hacking 风险、offline RL 的 propensity 约束,以及Exp-RSFT的 fully offline 目标。 - Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF:论文 HTML 版给出了
HSTU、三套公开数据加一套 Netflix 私有数据、PPO / DPOcollapse 证据,以及λ的 robustness-improvement tradeoff。 - Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning:Netflix 官方技术博客,作为
A-SFT的工程口径入口。 - Post-Training Generative Recommenders with Advantage-Weighted Supervised Fine-tuning(中文转载摘要):当前能回溯到的中文导航层入口。
下一步
- 把
A-SFT / Exp-RSFT / DPO4Rec / ReRe / OneRec-V2 / OpenOneRec压进同一张方法表,单独记reward consumption mode。 - 继续观察这条线会不会公开代码;本轮检索没有发现
Exp-RSFT对应的公开 GitHub 入口。 - 继续追中文高价值讨论与稳定
xhslink,但当前不把传播层写得比一手材料更重。