GFlowGR:生成式推荐后训练,开始把 reward 分发到 token-level 轨迹

背景

补完 DPO4RecReasoning to Rank / R2RankUGRSAGE 之后,站里已经能比较清楚地区分几种生成式推荐后训练:

  1. chosen / rejected pair 上的离线偏好对齐
  2. group-wise 相对优势驱动的 on-policy 对齐
  3. 把 listwise ranking reward 反压回 candidate-level reasoning 的 surrogate 训练
  4. 通过 action spaceuncertaintycandidate coupling 去改写 policy 学什么

但回看这些路线时,我发现还有一个空位没有被单独写开:

当一个 item 本身就是多 token 序列时,reward 到底落在最终 item,还是落在 token generation 过程本身

这一轮我没有继续补又一篇普通的 GRPO 变体,而是先用公开网页和 arXiv 做增量发现,再回到 arXiv 摘要页、arXiv HTML、PDF 文本和 GitHub API 做定向核验,最后锁定:

  1. GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks

核完之后,我更倾向于把它记成:

生成式推荐后训练开始从 outcome reward 往 token-level flow matching 下钻

核心判断

这篇 paper 的关键,不是“又一个 fine-tuning trick”,而是把 item set 改写成 generation trajectories

GFlowGR 最值得单独成 story 的地方,不是它也用了 RL,也不是它换了一个更复杂的 loss 名字。

它真正新增的,是一个此前站里还没被单独命名的目标:

让生成概率直接按终点 item value 在 token trajectory 上流动

论文引言把这件事写得很直白。

一方面,SFT 的 next-token loss 只盯单个 ground-truth item,会系统性忽略同一请求里其余有价值的 item,也看不见 clicked、presented、unpresented 这些不同价值层级。

另一方面,已有 DPO / GRPO 路线虽然开始吃 reward,但大多仍把 reward 停在 item outcome 上,没有显式监督 item identifier 这段多 token 生成过程。

GFlowGR 的回答不是继续在 outcome reward 上补 patch,而是直接把 GR 任务写成:

item set -> generation trajectories -> terminal reward -> token-level probability flow

论文在 2 节明确写出这条核心关系:

P(τ) ∝ R(s_L)

也就是一条完整 trajectory 的生成概率,应该与其终点状态对应的 item reward 成比例。

这让它和站里已经补过的几条线拉开了清晰边界:

  1. DPO4Rec 更像 pairwise preference matching
  2. OneRec-V2 / UGR 更像 group-wise relative advantage on item outcomes
  3. R2Rank 更像 listwise surrogate -> item-wise reasoning
  4. GFlowGR 则更像 token-level flow matching with reward-proportional generation

这逼着 Story Lab 再补一列 trajectory credit regime / probability-reward coupling objective

补完这篇 paper 之后,我觉得统一方法表里仅靠 reward typereward consumption mode优化单位 还不够。

因为下面这些对象并不是一回事:

  1. pairwise preference matching
  2. group-wise relative advantage
  3. listwise surrogate backprop
  4. token-level flow matching

它们都可以被粗写成“推荐里的 RL 对齐”,但 reward 和概率究竟在什么层面被耦合,完全不同。

所以更合理的补法是新增一列:

trajectory credit regime / probability-reward coupling objective

否则 GFlowGR 很容易继续被误写成 another GRPO

这条线不只是数学重写,它还把 trajectory samplerreward model 外化成系统接口

GFlowGR 第二个值得单独写开的点,是它没有把 GFlowNet 当成抽象理论,而是把这条训练链拆成了三个可替换组件:

  1. trajectory sampler
  2. reward model
  3. GFlowNet loss

其中 trajectory sampler 不只做随机负采样。

论文 3.1 节明确给出四种策略:

  1. interaction log
  2. random sampling
  3. CM-based sampling
  4. on-policy sampling

更关键的是,作者显式提出了 curriculum-style 的 adaptive sampling:早期先给 easy negatives,后期逐渐引入更难、更接近用户兴趣但尚未曝光的样本。

这说明它真正想解的不是“再加几个 negatives”,而是:

训练中怎样持续给 trajectory-level learning 提供有价值、不过时的 item set

reward model 也不是单一标量。

论文 3.2 把 reward 至少拆成三类:

  1. interaction signal
  2. estimated score
  3. business target

Table 3 的 ablation 也把这件事写实了。

TIGER + Beauty 为例:

  1. 完整 GFlowGRR@10 = 0.0651
  2. 去掉 adaptive sampling 后降到 0.0600
  3. 去掉 augmented trajectories 后降到 0.0617

这说明这条路线不是“有个 GFlowNet loss 就够了”,而是 sampler、reward 和 flow objective 三者一起工作。

它最重要的结果,不只是离线提升,而是直接把 train-time credit assignment 写进了真实 Taobao 部署

这篇 paper 最有分量的地方,是它不只在公开数据上成立。

公开数据上,Table 2 给出的结论已经够清楚:

  1. TIGER + Beauty 上,R@10SFT0.0558 提到 GFlowGR-TB0.0651
  2. TIGER + Yelp 上,N@100.0174 提到 0.0213
  3. LETTER + Beauty 上,R@100.0540 提到 0.0672

更值得记的是正文对 GRPO 的解释。

论文直接说,GRPO 虽然也能从 item set 学,但它仍更偏向于提高 positive item 的概率;相对地,GFlowGR 追求的是 reward-proportional generation,不要求简单把 item set 压成同一种 outcome-style 更新,因此对 augmented item set 更稳。

部署段给出的生产信号更硬。

论文 4.5 写到:

  1. 2025-05 起,GFlowGR 已在 Taobao 搜索广告全量训练中使用,覆盖 Taobao Mobile / Xianyu / Taobao Web
  2. 生产离线表里,H@20 / N@20SFT0.358 / 0.371 提到 GFlowGR0.444 / 0.452
  3. 训练成本相对 SFT 约为 2.1x,但仍明显优于正文所说“computationally infeasible”的 GRPO
  4. 100M+ user sessions 的在线 A/B 给出 total revenue +0.43%
  5. 站外搜索场景的 revenue uplift 达到 +1.11%

而摘要更进一步,直接把长期影响概括成:

自 2025-05 上线以来,驱动了 1% 的 billion-level annual revenue 相对提升

这意味着 GFlowGR 的合理定位不是“paper-only 训练技巧”,而是:

industrial paper-first token-level flow-matching route

它和当前站里常写的 trajectory correction / search-credit coupling 也不是同一个问题

如果只看“trajectory”这个词,很容易把 GFlowGRGRCRISER / V-STAR 放成一类。

但它们解决的其实不是同一层矛盾。

  1. GRC 更偏 decode trajectory correction
  2. RISER / V-STAR 更偏 search budgetadvantage visibility
  3. GFlowGR 则更偏 train-time probability-reward coupling

也就是说,GFlowGR 修的不是 beam search 或 test-time branching,而是:

训练目标要不要把 item value 真正分发回 token trajectory

这层如果不单独记出来,后面很容易把“解码轨迹修正”“搜索 credit 分配”和“训练期 flow matching”再次混写成一种 trajectory method。

公开边界与传播层

当前更适合记成 industrial paper-first token-level flow-matching route

截至 2026-03-22,这条线当前更适合这样记:

industrial paper-first token-level flow-matching route

原因很直接:

  1. arXiv 摘要、HTML 和 PDF 已足够把 trajectory sampler / reward model / GFlowNet loss / deployment 讲清楚
  2. 论文正文明确给出 WWW 2026 会议语境和 Taobao 部署口径
  3. 但我继续用 GitHub API 按论文全标题与 GFlowGR recommendation 做精确/模糊检索,截至 2026-03-22 仍未看到稳定官方 repo

所以当前最准确的定位不是“已开放 workflow 底盘”,而是:

工业论文已把机制和结果讲透,但复现实装仍未外放

中文传播层已有稳定导航页,但高价值 xhslink 仍缺位

这一轮我还专门用本地 search-layer 跑了三类检索:

  1. GFlowGR 推荐 中文
  2. site:xiaohongshu.com GFlowGR 推荐
  3. xhslink GFlowGR 推荐

稳定能用的中文入口里,目前最适合落到来源池的是:

  1. YiyiBooks 的 arXiv 中文导航页

检索结果里还能看到知乎专栏标题,但当前脚本直接访问会返回 403,因此我没有把它当成事实依据。

与此同时,本轮没有拿到稳定高价值的 xhslinksite:xiaohongshu.com 结果也基本空白。

所以这条线当前的事实判断,仍应以论文原文、HTML、PDF 和 GitHub API 为准。

证据与来源

下一步

  • GFlowGR / DPO4Rec / S-DPO / OneRec-V2 / UGR / R2Rank 压到同一张后训练表里,正式补一列 trajectory credit regime / probability-reward coupling objective
  • 在现有系统瓶颈表之外,再补一个更训练侧的小观察表,至少先区分 outcome reward only / pairwise preference / surrogate listwise credit / token-level flow matching
  • 继续跟踪这条线是否会公开官方仓、Alibaba 更正式的 publication page,或出现稳定高价值中文机制稿与 xhslink