DRPO:离线生成式推荐先要学会硬过滤,才能摆脱重尾脏日志
背景
补完 OneRec-V2 的 RL 桥梁 story、GFlowGR 这条 token-level reward coupling 路线,以及昨天刚写完的 S-GRec 之后,站里对生成式推荐里的 RL 已经能拆出不少问题位:
- reward 来自哪里
- reward 最终如何耦合到生成概率
LLM到底在线、近线、离线还是只在训练期当 judge- policy 是在
Semantic-ID、native vocabulary 还是 query list 上更新
但这一轮继续做增量检索时,我发现还有一个此前没有被单独立起来的问题:
离线 generative recommendation 到底在什么样的数据上学 RL
更具体地说,不少公开路线都默认“离线日志能直接拿来做 off-policy RL”,可 DRPO 这篇 paper 的判断更激进:
重尾脏日志里的负优势,不只是要被降权,它本身会把连续 action policy 推向发散
这轮我没有继续依赖旧版 search-layer 做主判断,而是直接回到一手来源做定向核验,最终锁定:
Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative RecommendationDRPOarXiv HTMLDRPOPDF- Moonlight 中文评述
核完之后,我更倾向于把它记成:
离线生成式推荐先要学会硬过滤,才能摆脱重尾脏日志
核心判断
这条线的关键,不是再造一个加权 loss,而是把主矛盾前推到“从脏日志里先找对样本”
DRPO 虽然不是那种直接写着 LLM 的 paper,但它补的是当前生成式推荐公开主线很缺的一层底盘:
continuous generative policy 在离线 noisy logs 上怎样不先崩掉
论文引言直接把 generative recommendation 写成连续控制问题:
- 用户状态映射到连续 item embedding action
- 再通过
MIPS解码成具体 item - 这套 formulation 与
OneRec这类连续语义 action 的工业路线天然同构
也正因为 action space 是连续的,paper 才能把问题说得比普通离线 RL 更尖锐:
负优势样本不是单纯应该少学一点,而是会在 off-policy shift 下持续把 policy 从数据支撑区推开
所以这条线真正新增的不是“又一个 AWR 变体”,而是把离线 RL 的系统主矛盾从:
weighting / clipping
继续前推到:
heavy-tailed noisy logs 里的可学信号恢复
Divergence Theory 说透的是:负优势在连续生成 policy 里会变成指数级排斥力
论文最值得记住的第一层,是它没有停在“经验上发现 AWR/AsymRe 不稳”,而是先给了一个理论叙事:
Divergence Theory of Repulsive Optimization
核心说法是:
- recommendation log 本身是
Zipfian的,极少数高价值样本在头部,大量低价值交互在长尾 - advantage centering 之后,绝大多数长尾样本都会变成负优势
- 对连续高斯 policy 来说,负优势更新不是简单压低概率,而会把参数往远离数据的方向持续推开
- 这种排斥在 off-policy setting 下会形成
exponential intensity explosion
Figure 1 给了最重要的经验前提:作者直接从一个大规模工业推荐系统里统计出 eCPM 呈严格 Zipfian 分布,说明“头部是信号、尾部是噪声”不是实验室假设,而是生产流量的常态。
这也解释了为什么 paper 会把 AWR / AsymRe 这类方法统一归到:
Soft De-Repulsion
也就是它们都在做“把负样本伤害变小一点”,但并没有物理意义上把噪声样本从学习目标里剔除。
DRPO 真正新增的,不是更聪明的软权重,而是把 hard filtering 证明成 optimistic DRO 的精确解
DRPO 的第二个关键点,是它没有把 hard filtering 写成经验 trick,而是从目标函数上直接把它推出来。
论文把目标重写成:
Optimistic Distributionally Robust Optimization
然后给出一个很强的结论:
hard filtering 就是这个目标的精确解
换句话说,这条线的逻辑不是:
AWR / AsymRe 不够好,所以再想一个更 aggressive 的 reweighting
而是:
如果目标真的是从 noisy behavior policy 里恢复 latent high-quality distribution,那么 top-kappa 式 hard filtering 才是正确目标,不是近似手段
这会让整个观察表发生一个变化:
离线 generative recommendation 后续不能只记 reward design / advantage weighting,还得单独记:
hard-filtering regime
RecSim 又补出一个系统拆分:不是所有离线日志都属于同一种质量区间
这篇 paper 另一个很有价值的地方,是它没把离线数据写成一个抽象 D,而是显式拆了两类工业场景:
Medium QualityExtreme Noisy
附录 H.4 对应得很具体:
Medium Quality更像 ranking / exposure 之后留下的 post-exposure logsExtreme Noisy更像 generative retrieval 阶段面对 full corpus 时必须承担的强探索数据
这意味着对 Story Lab 来说,离线数据以后不能只笼统记成“历史日志”,而是至少要补一列:
off-policy data regime
否则下面这些完全不同的学习条件会继续被写成一种东西:
- ranking 后的 impression-click log
- generative retrieval 阶段的 full-corpus exploration log
- 有强 business anchor 的训练期语义监督日志
结果信号足够硬,而且它说明“先过滤再学”不只是离线收益,也是在做 offline-to-online 安全门
DRPO 的结果部分最值得保留的不是单一最好分数,而是三层信号一起对齐。
第一层是离线两种数据 regime 下的稳定 top-2 表现。Table 1 里:
Medium Quality下,DRPO达到Reward 0.374 / eCPM 1.87,高于Adaptive BC的0.367 / 1.84和IQL的0.337 / 1.68Extreme Noisy下,DRPO-Exp达到0.318 / 1.59,DRPO也有0.308 / 1.54,仍明显高于Adaptive BC的0.297 / 1.48、IQL的0.289 / 1.44和AWR的0.254 / 1.27
第二层是“仅过滤本身就已经值钱”。Table 2 里:
- naive hard filtering 会直接 collapse,
eCPM只有0.12 - 只做
Soft-Base稳定化后到1.15 - 再把过滤和稳定化接起来到
1.31 - adaptive 版本进一步到
1.42
这说明 paper 的真正系统答案不是“硬过滤万能”,而是:
先决定什么值得学,再用安全机制决定怎么学
第三层是 offline-to-online handoff。Table 3 和 Figure 4 给出的不是单纯再训练分数,而是:
- 在线数据一开始几乎不被硬过滤器放进来,先用它当 safety gate
- 随着 policy 变稳,online ratio 再逐步放开
- 收敛后
DRPO / DRPO-Exp的eCPM达到1.96 / 1.93 - 对照的
IQL / AWR只有1.84 / 1.21
所以这条线对 Story Lab 的更准确贡献是:
hard filtering is also an offline-to-online safety interface
证据与来源
- 一手论文入口:
DRPOarXiv 摘要页、DRPOarXiv HTML、DRPOPDF - 时间与作者:arXiv 摘要页显示论文提交于
2026-02-11;PDF 首页写明作者来自Tencent Inc. - 关键机制:摘要、
Section 3/4与附录共同写清Divergence Theory、Optimistic DRO、Variational Top-kappa Optimization via CVaR与Variance-Guided Dynamic Curriculum - 核心数值:
Figure 1的工业eCPM Zipfian统计,Table 1的Medium Quality / Extreme Noisy对比,Table 2的 hard filtering 消融,以及Table 3的 offline-to-online 收敛eCPM - 公开边界:按论文全标题、作者名与 arXiv id
2602.10430检 GitHub API,截至2026-03-23仍未看到稳定官方 repo,因此当前更适合记成paper-first off-policy hard-filtering route - 中文传播层:目前可稳定回溯的是 Moonlight 中文评述;继续补做
site:xiaohongshu.com DRPO 推荐与相关xhslink检索后,仍未拿到稳定高价值小红书线索
下一步
- 把
DRPO / AWR / AsymRe / IQL / BPPO / Adaptive BC压到同一张离线 generative recommendation 观察表里,补off-policy data regime / hard-filtering regime / offline-to-online safety gate - 把
Medium Quality与Extreme Noisy这套工业模拟映射回站里已写的OneRec-V2 / S-GRec / AIGQ / OxygenREC,避免继续把所有离线日志混写成同一种训练基底 - 继续追中文高价值传播层;若后续出现腾讯官方技术稿、讲义或稳定
xhslink,再补一轮传播观察