DRPO：离线生成式推荐先要学会硬过滤，才能摆脱重尾脏日志

背景

补完 OneRec-V2 的 RL 桥梁 story、GFlowGR 这条 token-level reward coupling 路线，以及昨天刚写完的 S-GRec 之后，站里对生成式推荐里的 RL 已经能拆出不少问题位：

reward 来自哪里
reward 最终如何耦合到生成概率
LLM 到底在线、近线、离线还是只在训练期当 judge
policy 是在 Semantic-ID、native vocabulary 还是 query list 上更新

但这一轮继续做增量检索时，我发现还有一个此前没有被单独立起来的问题：

离线 generative recommendation 到底在什么样的数据上学 RL

更具体地说，不少公开路线都默认“离线日志能直接拿来做 off-policy RL”，可 DRPO 这篇 paper 的判断更激进：

重尾脏日志里的负优势，不只是要被降权，它本身会把连续 action policy 推向发散

这轮我没有继续依赖旧版 search-layer 做主判断，而是直接回到一手来源做定向核验，最终锁定：

核完之后，我更倾向于把它记成：

离线生成式推荐先要学会硬过滤，才能摆脱重尾脏日志

核心判断

这条线的关键，不是再造一个加权 loss，而是把主矛盾前推到“从脏日志里先找对样本”

DRPO 虽然不是那种直接写着 LLM 的 paper，但它补的是当前生成式推荐公开主线很缺的一层底盘：

continuous generative policy 在离线 noisy logs 上怎样不先崩掉

论文引言直接把 generative recommendation 写成连续控制问题：

用户状态映射到连续 item embedding action
再通过 MIPS 解码成具体 item
这套 formulation 与 OneRec 这类连续语义 action 的工业路线天然同构

也正因为 action space 是连续的，paper 才能把问题说得比普通离线 RL 更尖锐：

负优势样本不是单纯应该少学一点，而是会在 off-policy shift 下持续把 policy 从数据支撑区推开

所以这条线真正新增的不是“又一个 AWR 变体”，而是把离线 RL 的系统主矛盾从：

weighting / clipping

继续前推到：

heavy-tailed noisy logs 里的可学信号恢复

`Divergence Theory` 说透的是：负优势在连续生成 policy 里会变成指数级排斥力

论文最值得记住的第一层，是它没有停在“经验上发现 AWR/AsymRe 不稳”，而是先给了一个理论叙事：

Divergence Theory of Repulsive Optimization

核心说法是：

recommendation log 本身是 Zipfian 的，极少数高价值样本在头部，大量低价值交互在长尾
advantage centering 之后，绝大多数长尾样本都会变成负优势
对连续高斯 policy 来说，负优势更新不是简单压低概率，而会把参数往远离数据的方向持续推开
这种排斥在 off-policy setting 下会形成 exponential intensity explosion

Figure 1 给了最重要的经验前提：作者直接从一个大规模工业推荐系统里统计出 eCPM 呈严格 Zipfian 分布，说明“头部是信号、尾部是噪声”不是实验室假设，而是生产流量的常态。

这也解释了为什么 paper 会把 AWR / AsymRe 这类方法统一归到：

Soft De-Repulsion

也就是它们都在做“把负样本伤害变小一点”，但并没有物理意义上把噪声样本从学习目标里剔除。

`DRPO` 真正新增的，不是更聪明的软权重，而是把 `hard filtering` 证明成 optimistic DRO 的精确解

DRPO 的第二个关键点，是它没有把 hard filtering 写成经验 trick，而是从目标函数上直接把它推出来。

论文把目标重写成：

Optimistic Distributionally Robust Optimization

然后给出一个很强的结论：

hard filtering 就是这个目标的精确解

换句话说，这条线的逻辑不是：

AWR / AsymRe 不够好，所以再想一个更 aggressive 的 reweighting

而是：

如果目标真的是从 noisy behavior policy 里恢复 latent high-quality distribution，那么 top-kappa 式 hard filtering 才是正确目标，不是近似手段

这会让整个观察表发生一个变化：

离线 generative recommendation 后续不能只记 reward design / advantage weighting，还得单独记：

hard-filtering regime

`RecSim` 又补出一个系统拆分：不是所有离线日志都属于同一种质量区间

这篇 paper 另一个很有价值的地方，是它没把离线数据写成一个抽象 D，而是显式拆了两类工业场景：

Medium Quality
Extreme Noisy

附录 H.4 对应得很具体：

Medium Quality 更像 ranking / exposure 之后留下的 post-exposure logs
Extreme Noisy 更像 generative retrieval 阶段面对 full corpus 时必须承担的强探索数据

这意味着对 Story Lab 来说，离线数据以后不能只笼统记成“历史日志”，而是至少要补一列：

off-policy data regime

否则下面这些完全不同的学习条件会继续被写成一种东西：

ranking 后的 impression-click log
generative retrieval 阶段的 full-corpus exploration log
有强 business anchor 的训练期语义监督日志

结果信号足够硬，而且它说明“先过滤再学”不只是离线收益，也是在做 offline-to-online 安全门

DRPO 的结果部分最值得保留的不是单一最好分数，而是三层信号一起对齐。

第一层是离线两种数据 regime 下的稳定 top-2 表现。Table 1 里：

Medium Quality 下，DRPO 达到 Reward 0.374 / eCPM 1.87，高于 Adaptive BC 的 0.367 / 1.84 和 IQL 的 0.337 / 1.68
Extreme Noisy 下，DRPO-Exp 达到 0.318 / 1.59，DRPO 也有 0.308 / 1.54，仍明显高于 Adaptive BC 的 0.297 / 1.48、IQL 的 0.289 / 1.44 和 AWR 的 0.254 / 1.27

第二层是“仅过滤本身就已经值钱”。Table 2 里：

naive hard filtering 会直接 collapse，eCPM 只有 0.12
只做 Soft-Base 稳定化后到 1.15
再把过滤和稳定化接起来到 1.31
adaptive 版本进一步到 1.42

这说明 paper 的真正系统答案不是“硬过滤万能”，而是：

先决定什么值得学，再用安全机制决定怎么学

第三层是 offline-to-online handoff。Table 3 和 Figure 4 给出的不是单纯再训练分数，而是：

在线数据一开始几乎不被硬过滤器放进来，先用它当 safety gate
随着 policy 变稳，online ratio 再逐步放开
收敛后 DRPO / DRPO-Exp 的 eCPM 达到 1.96 / 1.93
对照的 IQL / AWR 只有 1.84 / 1.21

所以这条线对 Story Lab 的更准确贡献是：

hard filtering is also an offline-to-online safety interface

证据与来源

一手论文入口：DRPO arXiv 摘要页、DRPO arXiv HTML、DRPO PDF
时间与作者：arXiv 摘要页显示论文提交于 2026-02-11；PDF 首页写明作者来自 Tencent Inc.
关键机制：摘要、Section 3/4 与附录共同写清 Divergence Theory、Optimistic DRO、Variational Top-kappa Optimization via CVaR 与 Variance-Guided Dynamic Curriculum
核心数值：Figure 1 的工业 eCPM Zipfian 统计，Table 1 的 Medium Quality / Extreme Noisy 对比，Table 2 的 hard filtering 消融，以及 Table 3 的 offline-to-online 收敛 eCPM
公开边界：按论文全标题、作者名与 arXiv id 2602.10430 检 GitHub API，截至 2026-03-23 仍未看到稳定官方 repo，因此当前更适合记成 paper-first off-policy hard-filtering route
中文传播层：目前可稳定回溯的是 Moonlight 中文评述；继续补做 site:xiaohongshu.com DRPO 推荐 与相关 xhslink 检索后，仍未拿到稳定高价值小红书线索

下一步

把 DRPO / AWR / AsymRe / IQL / BPPO / Adaptive BC 压到同一张离线 generative recommendation 观察表里，补 off-policy data regime / hard-filtering regime / offline-to-online safety gate
把 Medium Quality 与 Extreme Noisy 这套工业模拟映射回站里已写的 OneRec-V2 / S-GRec / AIGQ / OxygenREC，避免继续把所有离线日志混写成同一种训练基底
继续追中文高价值传播层；若后续出现腾讯官方技术稿、讲义或稳定 xhslink，再补一轮传播观察