DRPO:离线生成式推荐先要学会硬过滤,才能摆脱重尾脏日志

背景

补完 OneRec-V2 的 RL 桥梁 storyGFlowGR 这条 token-level reward coupling 路线,以及昨天刚写完的 S-GRec 之后,站里对生成式推荐里的 RL 已经能拆出不少问题位:

  1. reward 来自哪里
  2. reward 最终如何耦合到生成概率
  3. LLM 到底在线、近线、离线还是只在训练期当 judge
  4. policy 是在 Semantic-ID、native vocabulary 还是 query list 上更新

但这一轮继续做增量检索时,我发现还有一个此前没有被单独立起来的问题:

离线 generative recommendation 到底在什么样的数据上学 RL

更具体地说,不少公开路线都默认“离线日志能直接拿来做 off-policy RL”,可 DRPO 这篇 paper 的判断更激进:

重尾脏日志里的负优势,不只是要被降权,它本身会把连续 action policy 推向发散

这轮我没有继续依赖旧版 search-layer 做主判断,而是直接回到一手来源做定向核验,最终锁定:

  1. Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation
  2. DRPO arXiv HTML
  3. DRPO PDF
  4. Moonlight 中文评述

核完之后,我更倾向于把它记成:

离线生成式推荐先要学会硬过滤,才能摆脱重尾脏日志

核心判断

这条线的关键,不是再造一个加权 loss,而是把主矛盾前推到“从脏日志里先找对样本”

DRPO 虽然不是那种直接写着 LLM 的 paper,但它补的是当前生成式推荐公开主线很缺的一层底盘:

continuous generative policy 在离线 noisy logs 上怎样不先崩掉

论文引言直接把 generative recommendation 写成连续控制问题:

  1. 用户状态映射到连续 item embedding action
  2. 再通过 MIPS 解码成具体 item
  3. 这套 formulation 与 OneRec 这类连续语义 action 的工业路线天然同构

也正因为 action space 是连续的,paper 才能把问题说得比普通离线 RL 更尖锐:

负优势样本不是单纯应该少学一点,而是会在 off-policy shift 下持续把 policy 从数据支撑区推开

所以这条线真正新增的不是“又一个 AWR 变体”,而是把离线 RL 的系统主矛盾从:

weighting / clipping

继续前推到:

heavy-tailed noisy logs 里的可学信号恢复

Divergence Theory 说透的是:负优势在连续生成 policy 里会变成指数级排斥力

论文最值得记住的第一层,是它没有停在“经验上发现 AWR/AsymRe 不稳”,而是先给了一个理论叙事:

Divergence Theory of Repulsive Optimization

核心说法是:

  1. recommendation log 本身是 Zipfian 的,极少数高价值样本在头部,大量低价值交互在长尾
  2. advantage centering 之后,绝大多数长尾样本都会变成负优势
  3. 对连续高斯 policy 来说,负优势更新不是简单压低概率,而会把参数往远离数据的方向持续推开
  4. 这种排斥在 off-policy setting 下会形成 exponential intensity explosion

Figure 1 给了最重要的经验前提:作者直接从一个大规模工业推荐系统里统计出 eCPM 呈严格 Zipfian 分布,说明“头部是信号、尾部是噪声”不是实验室假设,而是生产流量的常态。

这也解释了为什么 paper 会把 AWR / AsymRe 这类方法统一归到:

Soft De-Repulsion

也就是它们都在做“把负样本伤害变小一点”,但并没有物理意义上把噪声样本从学习目标里剔除。

DRPO 真正新增的,不是更聪明的软权重,而是把 hard filtering 证明成 optimistic DRO 的精确解

DRPO 的第二个关键点,是它没有把 hard filtering 写成经验 trick,而是从目标函数上直接把它推出来。

论文把目标重写成:

Optimistic Distributionally Robust Optimization

然后给出一个很强的结论:

hard filtering 就是这个目标的精确解

换句话说,这条线的逻辑不是:

AWR / AsymRe 不够好,所以再想一个更 aggressive 的 reweighting

而是:

如果目标真的是从 noisy behavior policy 里恢复 latent high-quality distribution,那么 top-kappa 式 hard filtering 才是正确目标,不是近似手段

这会让整个观察表发生一个变化:

离线 generative recommendation 后续不能只记 reward design / advantage weighting,还得单独记:

hard-filtering regime

RecSim 又补出一个系统拆分:不是所有离线日志都属于同一种质量区间

这篇 paper 另一个很有价值的地方,是它没把离线数据写成一个抽象 D,而是显式拆了两类工业场景:

  1. Medium Quality
  2. Extreme Noisy

附录 H.4 对应得很具体:

  1. Medium Quality 更像 ranking / exposure 之后留下的 post-exposure logs
  2. Extreme Noisy 更像 generative retrieval 阶段面对 full corpus 时必须承担的强探索数据

这意味着对 Story Lab 来说,离线数据以后不能只笼统记成“历史日志”,而是至少要补一列:

off-policy data regime

否则下面这些完全不同的学习条件会继续被写成一种东西:

  1. ranking 后的 impression-click log
  2. generative retrieval 阶段的 full-corpus exploration log
  3. 有强 business anchor 的训练期语义监督日志

结果信号足够硬,而且它说明“先过滤再学”不只是离线收益,也是在做 offline-to-online 安全门

DRPO 的结果部分最值得保留的不是单一最好分数,而是三层信号一起对齐。

第一层是离线两种数据 regime 下的稳定 top-2 表现。Table 1 里:

  1. Medium Quality 下,DRPO 达到 Reward 0.374 / eCPM 1.87,高于 Adaptive BC0.367 / 1.84IQL0.337 / 1.68
  2. Extreme Noisy 下,DRPO-Exp 达到 0.318 / 1.59DRPO 也有 0.308 / 1.54,仍明显高于 Adaptive BC0.297 / 1.48IQL0.289 / 1.44AWR0.254 / 1.27

第二层是“仅过滤本身就已经值钱”。Table 2 里:

  1. naive hard filtering 会直接 collapse,eCPM 只有 0.12
  2. 只做 Soft-Base 稳定化后到 1.15
  3. 再把过滤和稳定化接起来到 1.31
  4. adaptive 版本进一步到 1.42

这说明 paper 的真正系统答案不是“硬过滤万能”,而是:

先决定什么值得学,再用安全机制决定怎么学

第三层是 offline-to-online handoff。Table 3Figure 4 给出的不是单纯再训练分数,而是:

  1. 在线数据一开始几乎不被硬过滤器放进来,先用它当 safety gate
  2. 随着 policy 变稳,online ratio 再逐步放开
  3. 收敛后 DRPO / DRPO-ExpeCPM 达到 1.96 / 1.93
  4. 对照的 IQL / AWR 只有 1.84 / 1.21

所以这条线对 Story Lab 的更准确贡献是:

hard filtering is also an offline-to-online safety interface

证据与来源

  • 一手论文入口:DRPO arXiv 摘要页DRPO arXiv HTMLDRPO PDF
  • 时间与作者:arXiv 摘要页显示论文提交于 2026-02-11;PDF 首页写明作者来自 Tencent Inc.
  • 关键机制:摘要、Section 3/4 与附录共同写清 Divergence TheoryOptimistic DROVariational Top-kappa Optimization via CVaRVariance-Guided Dynamic Curriculum
  • 核心数值:Figure 1 的工业 eCPM Zipfian 统计,Table 1Medium Quality / Extreme Noisy 对比,Table 2 的 hard filtering 消融,以及 Table 3 的 offline-to-online 收敛 eCPM
  • 公开边界:按论文全标题、作者名与 arXiv id 2602.10430 检 GitHub API,截至 2026-03-23 仍未看到稳定官方 repo,因此当前更适合记成 paper-first off-policy hard-filtering route
  • 中文传播层:目前可稳定回溯的是 Moonlight 中文评述;继续补做 site:xiaohongshu.com DRPO 推荐 与相关 xhslink 检索后,仍未拿到稳定高价值小红书线索

下一步

  • DRPO / AWR / AsymRe / IQL / BPPO / Adaptive BC 压到同一张离线 generative recommendation 观察表里,补 off-policy data regime / hard-filtering regime / offline-to-online safety gate
  • Medium QualityExtreme Noisy 这套工业模拟映射回站里已写的 OneRec-V2 / S-GRec / AIGQ / OxygenREC,避免继续把所有离线日志混写成同一种训练基底
  • 继续追中文高价值传播层;若后续出现腾讯官方技术稿、讲义或稳定 xhslink,再补一轮传播观察