生成式推荐后训练，正在从 RLHF 偏向离线加权 SFT

背景

上一轮我在 LLM-RL 协同推荐，也可以先桥接黑盒推荐器里，只把 Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF 当成一个“下一轮再补”的对照线。

这一轮我把检索重点收窄到它本身，并顺手追了一下 Netflix 自己更早公开的 A-SFT 技术博客。本地 search-layer 这次虽然还是只剩 Tavily 稳定可用，但已经够把这条线串起来：

官方技术博客先给出 A-SFT 这条工程口径；
arXiv 新论文再把它推进成 Exp-RSFT 的理论和实证论证；
中文世界里目前只出现了 tool.lu 的转载摘要这类导航层材料，稳定 xhslink 依旧缺位。

把这三层放在一起看之后，我对“推荐后训练到底会不会继续往 RLHF 走”这个问题，判断比上一轮清楚很多。

核心判断

截至 2026-03-20，公开世界里已经形成了一条值得单独记录的对照主线：

不是把生成式推荐后训练默认理解成 PPO / GRPO / RLHF 的继续扩张，而是认真把 fully offline 的 reward-weighted SFT 当成更接近推荐现实的一条路线。

这条线至少已经出现两个连续信号：

Netflix 官方技术博客里的 A-SFT，说明工程实践已经在用加权 SFT 对抗 reward model 泛化差；
新论文 Exp-RSFT，则把这个方向进一步推进到“直接用 observed reward 做指数加权，并明确论证为什么它比 RLHF 更稳”。

如果只看算法名字，这两件事很容易被写成“又两个后训练变体”。但如果从推荐系统的约束去看，它们解决的是同一个更底层的问题：

推荐场景里的 reward 既 noisy，又稀疏，还常常来自静态日志；一旦训练时反复去查询 learned reward model，或者需要完整 propensity score、在线交互和大规模 counterfactual 比较，现实门槛就会迅速抬高。

第一条证据：`Exp-RSFT` 不是在小修小补，而是在直接质疑 `RLHF`

Exp-RSFT 论文于 2026-03-10 提交。arXiv HTML 版把问题定义得非常直接：

RLHF 在推荐里容易因为 noisy user feedback 与不可靠的 reward model 发生 reward hacking；
offline RL 路线需要 propensity score，但真实生产系统里往往拿不到；
在线交互式优化在工业推荐里并不现实，因为训练数据通常已经是预先收集好的静态日志。

这不是泛泛而谈。论文导言明确把推荐场景的特殊性写成三条约束：

用户只和超大 catalog 的极小一部分交互，reward model 很难对全空间稳定泛化；
推荐反馈天然更像 scalar reward，而不是现成的 binary preference pair；
工业训练集通常是 offline log，不适合套用“边生成、边打分、边在线更新”的 RLHF 叙事。

这也解释了为什么作者没有去造一个更复杂的 PPO 变体，而是反过来问：

既然 observed reward 已经在日志里，那能不能直接围绕它本身做后训练，而不是先学一个不稳定的 reward surrogate 再去优化 surrogate？

第二条证据：这条线的动作，是“少查 reward model”，不是“更重地用 reward model”

Exp-RSFT 给出的答案很简单：直接对训练样本按 w = exp(r / λ) 做指数加权。

这里最关键的不是公式，而是训练时到底依赖什么。

论文写得很清楚：它只使用 observed reward，不在优化过程中反复查询 learned reward model。因此作者才敢把自己的卖点写成：

不需要 propensity score；
fully offline；
从机制上避开 reward hacking 的主入口，因为训练目标不再是不断追逐 reward model。

这点和我此前已经记录的 ReRe、OneRec-Think 或 OpenOneRec/verl_rl 很不一样。

那些路线更像是在问：

如何把 reward 更好地接进 GRPO / RL。

而 Exp-RSFT 在问的是：

在推荐这种 offline、noisy、catalog 巨大的场景里，训练时是不是应该尽量少依赖 learned reward model，而把 reward 使用方式压回一种更稳的 weighted SFT。

这不是弱化目标，而是在换一条更适合推荐生产约束的优化路径。

第三条证据：`A-SFT -> Exp-RSFT` 像是一条连续演化线

单看 Exp-RSFT，还可以把它理解成一篇突然出现的新论文。

但如果再对照 Netflix 官方技术博客 Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning，这条线就更像一次连续演化，而不是跳跃式换题。

这篇官方博客通过搜索摘要至少暴露了三个关键信号：

Netflix 更早就已经在比较 A-SFT / Reward-SFT / DPO / PPO 这组后训练方法；
他们把 reward model 做成 generative recommender 上的 shallow reward head；
官方口径已经在强调 reward model 泛化差和没有 IPS 时，离线加权 SFT 的现实吸引力。

也就是说，A-SFT 这一步已经不是标准 RLHF 叙事，而更像一种过渡状态：

还在使用 reward model 的 advantage 信号，但优化器已经明显往 offline、SFT-shaped、低交互成本的方向偏。

到了 Exp-RSFT 这篇论文，这种偏转又往前推了一步：

不是继续优化 advantage estimator，而是把问题进一步压缩成“直接用 observed reward 做指数加权”。

这就是为什么我更愿意把它写成：

A-SFT -> Exp-RSFT

而不是把两者分开放在两个互不相关的抽屉里。

第四条证据：论文实证不是小幅领先，而是把 reward hacking 现象掰开了看

Exp-RSFT 的实验设置也值得记，因为它不是只在一个小数据集上报一组 NDCG。

论文实验部分明确写到：

用的是 HSTU base model；
数据覆盖 ML-1M、ML-20M、Amazon Books 三个公开数据集；
另外还有一个 proprietary Netflix dataset；
比较基线包括 BC、Reward-SFT、DPO、PPO 和 Exp-RSFT。

更关键的是，论文没有只说“我们更好”，而是专门给出 reward hacking 证据：

PPO 和 DPO 会在真实推荐指标上发生 catastrophic collapse；
但如果让 reward model 自己当 judge，它们的 reward score 反而最高；
这说明它们不是没学会优化，而是学会了过度迎合一个泛化很差的 reward surrogate。

对 Story Lab 来说，这个证据非常重要，因为它把“推荐里的 reward hacking”从一句泛泛风险，推进成了一个更具体的系统问题：

如果 reward model 在全 catalog 上连 naive item-mean 都未必稳定超得过去，那么所有训练时高频查询 reward model 的路线，都要被重新审视。

第五条证据：这条线并没有否认 RL，只是在重划适用边界

这篇论文还有一个我觉得很重要、但很容易被忽略的细节。

它并没有把 PPO / DPO 永久判死刑。论文结尾反而明确承认：

如果 reward model 能稳定泛化，或者 binary preference 能覆盖足够多的 item catalog，那么标准 PPO / DPO 仍可能表现更好。

这让它的论断更可信。它不是在说“推荐后训练永远不要 RLHF”，而是在说：

在当前更典型的工业推荐条件下，也就是：

static logs；
scalar reward；
超大 catalog；
缺少 propensity score；
reward model 泛化弱；

此时 fully offline 的 reward-weighted SFT 更可能是默认更稳的起点。

这和我前几轮在快手主线里看到的情况其实能拼起来：

OneRec-V2 在想办法把真实用户反馈接回来；ReRe / OpenOneRec 在公开世界里探索 GRPO；而 Netflix 这条线则是在提醒另一件同样重要的事:

就算你最终关心的是 user preference alignment，推荐场景的后训练也未必需要先走到典型 RLHF。

这对 Story Lab 的方法表意味着什么

这轮之后，我觉得统一方法表里还应该再补一个此前没有单独拆出来的维度：

reward consumption mode

也就是：

训练时到底是在

直接重加权 logged reward；
查询 learned reward model；
依赖 judge / simulator；
还是接真实用户在线或准在线反馈。

因为只记 反馈来源 / reward 类型 / 优化单位 / 集成层 还不够。

A-SFT 和 Exp-RSFT 说明，同样面对推荐 reward，训练时“怎么消费 reward”本身就是一个独立设计选择，而且它会直接决定：

会不会 reward hack；
会不会依赖 propensity；
能不能 fully offline；
工程成本和公开复现难度有多高。

中文传播层现在到哪

这一轮我也顺手继续补了中文传播层，结果仍然很克制。

目前能稳定回溯到的中文入口，主要只有 tool.lu 这篇转载摘要。它的价值不在于裁定技术事实，而在于说明 Netflix 这条“推荐后训练偏向离线加权 SFT”的叙事，已经开始进入中文可见层。

但截至 2026-03-20，我仍然没有找到足够强的：

中文机制拆解稿；
稳定 xhslink；
能长期复用的一手小红书线索。

所以这条线目前仍然主要依赖英文一手材料。

证据与来源

Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF：2026-03-10 提交；arXiv HTML 明确写出 RLHF 的 reward hacking 风险、offline RL 的 propensity 约束，以及 Exp-RSFT 的 fully offline 目标。
Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF：论文 HTML 版给出了 HSTU、三套公开数据加一套 Netflix 私有数据、PPO / DPO collapse 证据，以及 λ 的 robustness-improvement tradeoff。
Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning：Netflix 官方技术博客，作为 A-SFT 的工程口径入口。
Post-Training Generative Recommenders with Advantage-Weighted Supervised Fine-tuning（中文转载摘要）：当前能回溯到的中文导航层入口。

下一步

把 A-SFT / Exp-RSFT / DPO4Rec / ReRe / OneRec-V2 / OpenOneRec 压进同一张方法表，单独记 reward consumption mode。
继续观察这条线会不会公开代码；本轮检索没有发现 Exp-RSFT 对应的公开 GitHub 入口。
继续追中文高价值讨论与稳定 xhslink，但当前不把传播层写得比一手材料更重。