ReRe:推荐里的 RLVR,不只要 on-policy negative,还要先把生成空间约束住
背景
补完 SPRec、CausalDPO、RosePO 和 S-DPO 之后,站里对推荐里的 preference alignment 已经能分出不少层:
- pair 是怎么构造的
- rejected 到底是谁供给的
- 多个 negatives 在 loss 里是逐对比较还是共同竞争
- 环境混杂和值轴会不会被一起对齐进去
但继续回看更早被总览提到、却还没单独成文的 ReRe 时,我发现这里还缺一层更接近 RLVR 本体的问题:
如果 negative 直接从当前 policy 在线采样,推荐里的窄 item 空间会不会先把采样效率和 reward 信号一起压坏
这件事很关键,因为一旦进入推荐场景,RLVR 面临的主矛盾就不再只是“有没有 verifiable reward”,而是:
- 生成结果是不是有效 item
- 同一 prompt 下采样出来的是不是老在重复同一个 item
- 如果大多数 negatives 都拿到同样的
0奖励,group-wise RL 还剩多少排序信号
这一轮我直接用 arXiv 摘要页、PDF、GitHub API、仓库 raw README 以及中文公开网页检索做定向核验,最终锁定:
核完之后,我更愿意把它记成:
推荐里的 RLVR,不只要 on-policy negative,还要先把生成空间约束住
核心判断
它修的不是抽象的 RLVR,而是推荐特有的 output validity contract
论文摘要和 Section 1 先把问题说得很直:
- 推荐里的 valid item space 远窄于开放式语言生成
- 如果不显式约束,模型很容易生成不存在于 item corpus 的 invalid items
- 即便 item 有效,窄空间还会让 token 分布更陡,导致多次采样时反复吐出同一个 item
这说明推荐里的 RLVR 不是简单把通用 GRPO 套进来就行。
它首先得解决的是:
当前 policy 采出来的东西,能不能先稳定落在有效 item 空间里
如果这一层不成立,后面的 on-policy negative、ranking reward 和 group advantage 都会被 invalid output 或重复 output 先吞掉。
所以 ReRe 最值得补进 Story Lab 的第一个观察位不是“又一条 GRPO 路线”,而是:
output validity contract
也就是:
推荐里的 RLVR,先要保证生成空间和训练目标是同一个受约束的 item 空间
它真正推进的,不只是 on-policy negative,而是 negative exposure regime
SPRec 让我们看到:
negative 不一定要来自随机采样,也可以来自上一轮冻结模型的 self-play 输出
ReRe 则更进一步,把问题改写成:
negative 到底是怎样被当前 policy 暴露出来的
论文 Figure 1 的对照很关键:
DPO更像随机负样本- self-play
DPO更像从冻结π_ref取负样本 RLVR则是直接从正在更新的π_θ在线采样
但在推荐里,这件事只有一半是真的。
如果在线采样本身因为窄 item 空间而不断重复,那么“来自当前 policy”并不自动等于“更难、更有信息量的 negative”。
因此 ReRe 真正新增的一层不是简单的 on-policy sampling,而是:
negative exposure regime
也就是:
当前 policy 通过什么采样机制,持续暴露出足够多样、足够困难、又仍然有效的 negatives
这也是为什么作者最后没有停在普通 sampling 或 dynamic sampling,而是落到:
constrained beam search
beam search 在这里不是推理细节,而是 diversity-preserving search
论文 Section 3.1 / Table 3 / Figure 4b 把这件事写得很清楚。
作者先定义 generation diversity,再对比三种采样策略:
beam searchdynamic samplingcommon sampling
在 Industrial 上,Table 3 给出的结果是:
beam的H@10 / N@10 = 0.1705 / 0.1220dynamic是0.1540 / 0.1122common是0.1447 / 0.1044
Figure 4b 还说明:
- dynamic 和 common sampling 的 diversity 都会随着训练快速下降
- dynamic sampling 虽然能先 over-generate 再挑子集,但后期仍会明显塌缩
- beam search 因为天然保持 distinct generations,能更稳定地维持 negative diversity
所以这里的 beam search 不该只写成普通 search trick。
它在 ReRe 里的系统角色更接近:
diversity-preserving search
换句话说,beam 在这里服务的不是纯 inference quality,而是训练时的 negative exposure。
这会逼着 Story Lab 在 RLVR / preference alignment 这条线上再补一个此前没有单独记开的位:
diversity-preserving search
否则以后看 PROMISE / V-STAR / APAO / ReRe 时,很容易继续把“推理时 search controller”和“训练时 negative exposure engine”混成一种 beam search。
这条线的 reward 核心,不是更 dense,而是 reward verifiability
ReRe 的第二个关键点,是它没有把推荐 reward 的出路写成“越 dense 越好”。
论文 Section 3.2 / Table 2 / Figure 3 给出的结论正相反:
- 仅靠 binary
rule-based reward很稳,但 supervision 太粗 - 语义 reward 和协同 reward 虽然更 dense,却容易 reward hacking
- 最稳的做法是把
rule-based correctness作为锚,再叠一层按生成 rank 惩罚 hard negatives 的ranking reward
Industrial 上 Table 2 的对比很直:
Ranking:H@10 / N@10 = 0.1707 / 0.1256Rule:0.1705 / 0.1220Semantic:0.0587 / 0.0394Collaborative:0.0889 / 0.0414
Figure 3 更关键。作者直接展示:
- semantic reward 和 collaborative reward 的值会继续变高
- 但 recommendation accuracy 却在下降
这就是很典型的:
proxy-reward hacking
因此 ReRe 的主张不是:
dense proxy reward > verifiable reward
而是:
推荐里的 RLVR,先要有 verifiable anchor,再在 anchor 周围补 finer-grained ranking signal
这也让它和很多通用 alignment 论文拉开了边界。这里真正重要的不是 reward 的“像不像语义”,而是:
reward 是否真的可验证、是否真的服务 ranking objective
它把 group-wise RL 的监督对象,从单个正例改成了 generated item group
论文 Figure 2 最值得记的,不只是用了 GRPO,而是 group 内每个 item 都被同时放进同一个 reward 结构里:
- 先对同一 prompt 生成
G个候选 item - 再给每个 item 叠加
rule-based reward + ranking reward - 最后才基于这一组 items 的 reward 计算 advantage,并回写到
GRPO
所以 ReRe 对齐的对象不是:
- 离线 chosen / rejected pair
- 单个 item 的 pointwise correctness
- 一个纯文本 reasoning trace
而是:
generated item group 上的 verifiable reward geometry
这会逼着 Story Lab 再把 优化单位 这一列写得更细。
因为 DPO4Rec / S-DPO / RosePO / CausalDPO 这组路线主要还是在 pair 或 partial ranking 上做对齐,而 ReRe 已经把优化对象推进成:
on-policy generated item group
Table 1 说明它补的是公开 RLVR 主线,而不只是小幅工程修补
Table 1 的主结果很重要,因为它说明这条线不是只在某一个小配置上微调。
作者总结的相对最强 baseline 提升分别是:
- Amazon Toys:
27.13% - Amazon Industrial:
12.40% - Yelp:
8.95%
如果看具体数字:
Toys上,ReRe-Base的H@10 / N@10 = 0.1125 / 0.0762,高于D3的0.0940 / 0.0612Industrial上,ReRe-Base到0.1707 / 0.1256,高于SPRec的0.1525 / 0.1139Yelp上,最好结果来自ReRe-SFT,H@10 / N@10 = 0.0499 / 0.0265,略高于D3的0.0492 / 0.0249
这里还有一个很值得单独留下来的边界:
base model 并不总够用
论文正文明确指出:
Yelp这种更 domain-specific 的场景,base LLM 的先验知识不够- 先加一层 in-domain
SFT再做ReRe,会更稳
这说明 ReRe 虽然代表公开的推荐 RLVR 主线,但它并不宣称:
只要上 RL,一切 domain gap 都能自动补平
Table 4 让它和很多 paper-only 路线拉开了第二层差距:backbone family generality
ReRe 还有一个比很多推荐后训练方法更值得记住的点:
它不仅在单一 backbone 上有效,还专门做了 family / scale generality
论文 Table 4 在 Industrial 上对比了 D3 和 ReRe 在三种 backbone 上的结果:
Qwen2.5-1.5B:D3 0.1524 / 0.1120 -> ReRe 0.1727 / 0.1261Gemma-2B:0.1478 / 0.1043 -> 0.1663 / 0.1220Qwen2.5-7B:0.1432 / 0.1046 -> 0.1679 / 0.1432
作者给出的相对提升是:
13.52%18.28%20.70%
这让 ReRe 不只是一个 “Qwen-0.5B on Amazon” 的局部技巧,而更像:
recommendation-tailored RLVR substrate
公开边界要写准:repo 已经强于 paper-first,但也有明显 implementation drift
这条线的 repo 明显不是 placeholder。
GitHub API 截至 2026-03-25 能稳定核到:
- 仓库
sober-clever/ReRe创建于2025-08-29 09:29:06 UTC - 最近一次 push 为
2025-11-16 13:04:18 UTC size = 26956- 根目录已公开
rere.py、rere_trainer.py、rere.sh、evaluate.sh、data/process.py、config/zero2_opt.yaml等完整入口
这说明它已经不是“论文里写自己有代码”的程度,而是至少公开到了:
workflow code + data processing script
但边界也要写准。
我这一轮继续核 raw README 和 shell 脚本后,看到至少三处明显漂移:
- README 把训练脚本写成
train.sh,仓里实际没有这个文件,只有rere.sh - README 把评测脚本写成
evaluation.sh,仓里实际文件名是evaluate.sh rere.sh / evaluate.sh里都保留了path_to_model这类占位,且数据路径主要围绕data/Amazon
这意味着它当前更适合被记成:
workflow code with implementation drift / single-domain bias
而不是低门槛 turnkey reproduction。
中文传播层这次终于不再完全空白,但仍然不够强
这条线的中文传播层比很多同主题论文稍微好一点。
这一轮至少能稳定拿到:
它的价值主要是把下面这组关键词稳定带进中文可见层:
unique generation spacesparse ranking supervisionconstrained beam searchranking rewardreward hacking
但边界也要写准:
Moonlight 本质上仍是二手 AI 评述,不是事实判断依据
所以这一轮的事实判断仍然回到:
- arXiv 摘要页
- GitHub API
- 仓库 raw README / shell 脚本
与此同时,我继续补做了:
ReRe 推荐 中文site:xiaohongshu.com ReRe 推荐xhslink ReRe 推荐
截至 2026-03-25,稳定结果仍主要是论文页、仓库页、Moonlight 和噪声,没有拿到稳定高价值 xhslink。
证据与来源
Reinforced Preference Optimization for RecommendationarXiv 摘要页:用来确认问题定义、arXiv 时间、摘要口径与公开链接。2510.12211PDF:用来稳定复核Figure 1-4、Table 1-4、Section 3-4与仓库链接。sober-clever/ReRe:用来确认公开边界和实现入口。Moonlight中文评述页:只作为中文传播层入口,不作为一手事实依据。
下一步
- 把
ReRe并入DPO4Rec / S-DPO / SPRec / RosePO / CausalDPO / MiniOneRec / OpenOneRec这组后训练路线,新增negative exposure regime / output validity contract / reward verifiability / diversity-preserving search / proxy-reward hacking五列。 - 继续补
ReRe与MiniOneRec / OpenOneRec/verl_rl / OneRec-Think在sampling owner / reward contract / invalid-item control / beam consumer上的直接对照。 - 继续追更强的中文机制稿与稳定
xhslink;在此之前,不让传播层材料覆盖一手事实判断。