SAGE:生成式推荐的 RL,不只在修 reward,也在改写 action space

背景

补完 OneRec-V2OpenOneRecDeepInterestGRGR2 之后,站里已经能比较清楚地区分几类相邻但不同的问题:

  1. item 要不要先被量化成 Semantic-ID 或其他 recommendation-native token。
  2. 兴趣、画像和上下文这些上游 carrier,最终会不会再被压回 token space。
  3. RL 到底服务 retrieval、ranking、reasoning,还是某个更窄的 rerank stage。

但这张图里其实还缺一个更贴近 policy 本体的问题:

当生成式推荐开始用 RL 对齐时,policy 到底是在什么 action space 上学习

这一轮我没有继续追一个普通的“又一个 RL 变体”,而是先用 arXiv API 按 recommendation + "large language model" + reinforcement learning 做时间倒序筛选,再用本地 search-layer 跑 exact-title 和 site:xiaohongshu.com / xhslink 检索补传播层线索,最后回到 arXiv 摘要页、arXiv HTML、GitHub API 和可稳定访问的中文 review 做定向核验,锁定了这篇最值得补进 Story Lab 的新入口:

  1. SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation

核完之后,我更倾向于把它记成:

推荐里的 RL 已经开始反过来改写 item carrier 本身,而不只是继续调 reward

核心判断

这篇 paper 的关键,不是“GBPO 的增强版”,而是把 GBPO 的失效和 Semantic-ID 的系统负担写到了同一张图里

如果只看标题,很容易把 SAGE 理解成:

OneRec-V2 / GBPO 之后,又一个更稳的 policy optimizer

但论文真正新增的,是一个此前站里还没被单独命名的结构性判断:

生成式推荐里的 RL 效果,不只取决于 reward 和 clipping,还取决于 action space 是不是背着过重的 vocabulary burden

论文 1-2 节把这件事写得非常直白。

一方面,它直接把 OneRec-V2GBPO 失效诊断成 Symmetric Conservatism

  1. 正向稀有信号会被对称上界压扁。
  2. 负向拒绝主导时,静态边界又不足以防止 diversity collapse。
  3. 文中还明确给出一个很硬的现象级证据:在这类约束下,cold-start video views 会下降 44.7%,cluster density 上升 11.7%

另一方面,它没有把问题只停在 optimizer,而是继续回头审问 Semantic-ID 这条路线本身。

论文引言明确写出,Semantic-ID 虽然能缓解传统 ID-based recommendation 的开放词表问题,但它仍然带着三层现实负担:

  1. semantic collision 可能超过 30%
  2. 工业场景下海量新 item 上线,会把 tokenizer 运维变成持续成本。
  3. LLM adaptation training is mandatory,也就是必须专门给模型补 itemic token 对齐和词表扩展。

这一步很关键。

因为它意味着 SAGE 讨论的已经不只是:

怎样给 OneRec-V2 一个更好的 RL optimizer

而是:

OneRec-V2 这类 itemic-token 路线,是不是已经把过多复杂度压进了 action space

这篇 paper 真正把推荐 action space 拆成了两类:Semantic-ID generationcandidate-constrained native-text generation

SAGE 最有增量的一点,是它没有只在 Semantic-ID 路线上做消融,而是显式做了两套 action space 对照:

  1. OneRec 风格的 Semantic-ID generation
  2. TextRec 风格的 native-text action space

这里的 native-text 也不是开放式胡乱生成。

论文 4.1.1 写得很清楚:在 TextRec 设定里,policy 仍然只在候选池内选 item,只是 item 不再先被编码成独立 vocabulary,而是直接用 title / tags / category keywords 这类文本 renderings 表示;输出再通过 deterministic parsing 和 validity checks 回收成可执行 slate。

所以这条线真正提出的不是:

把推荐变成自由文本生成

而是:

把 action space 从 recommendation-native token 库,改成 candidate-constrained native LLM vocabulary

这和站里此前补过的 DeepInterestGR 也不是同一个问题。

DeepInterestGR 更像在问:

上游兴趣语义会不会再被量化成 SID

SAGE 在问的是:

就算最终任务仍是推荐,policy 训练时到底还要不要继续背 itemic vocabulary

结果最重要的地方,不是某一个指标涨了,而是 native vocabulary + SAGESemantic-ID + GBPO 更稳地守住了 accuracy-diversity 平衡

论文结果给出的结论并不只是“SAGEGBPO 好”。

更关键的是,它把不同 action space 的收益模式分开了。

在 Amazon Product Reviews 上,正文直接写到:

  1. TextRecBeauty / Sports / Toys 三个数据集上都拿到最强 top-K accuracy。
  2. 相比最强基线 OneRec-GBPONDCG 提升幅度达到 6.27%7.8%
  3. Only SFT (TextRec) 明显落后,说明光靠原生词表和语言先验不够,关键还是 native vocabulary + preference optimization 这个组合。

RecIF-Bench 上,这个模式更值得记:

  1. TextRec 在核心 recommendation tasks 上持续优于 OneRec-GBPO,尤其在 Interactive RecLabel-Conditional Rec 这类 instruction-conditioned 场景更明显。
  2. OneRec-SAGE 并不是没效果。它在 diversity 和 cold-start 上可以做到更激进的探索,甚至在 Short VideoEntropy@10 / Cold-Recall@10 上达到最高绝对值。
  3. 但一旦 exploration 变强,Semantic-ID action space 更容易牺牲 top-K accuracy;相对地,TextRec 更能在 exploration 下守住 accuracy。

这说明 SAGE 最值得沉淀的判断,不是“Boost Factor 和 Entropy Penalty 很聪明”,而是:

同样的 exploration 强度,native vocabulary action space 比 Semantic-ID action space 更能保住 accuracy-diversity balance

这已经不是单纯的 optimizer 微调,而是 action space 设计问题。

这逼着 Story Lab 再补一列 action-space regime / vocabulary burden

补完这篇 paper 之后,我觉得现有方法表里仅靠 tokenization interface 已经不够了。

因为 tokenization interface 更偏输入或中间 carrier 的去向,比如:

  1. 文本会不会继续量化成 Semantic-ID
  2. 兴趣 carrier 最终是不是 recommendation-native token
  3. 多模态语义会不会先被压成 caption 或 pseudo-CoT

SAGE 暴露的是另一层:

policy 最终到底在什么 action space 上更新

所以后续更适合新增一列:

action-space regime / vocabulary burden

至少先区分三类:

  1. Semantic-ID generation
  2. candidate-constrained native-vocabulary generation
  3. closed candidate-set rerank / specialist action space

否则下面这些东西还会继续被写扁:

  1. OneRec / OneRec-V2 / OpenOneRec 这种 itemic-token 主线
  2. SAGE/TextRec 这种 native vocabulary policy 路线
  3. GR2 这种已封闭候选集上的 rerank-stage specialist

它们都在做生成或对齐,但 action space 完全不是同一种对象。

公开边界与传播层

这条线目前仍更适合记成 industrial paper-first action-space regime route

截至 2026-03-22,这条线当前更适合这样记:

industrial paper-first action-space regime route

原因很直接:

  1. 论文与 arXiv HTML 已经把 GBPO 失效、Semantic-ID 负担、TextRec 设定和两套 action space 结果写得很清楚。
  2. 论文还明确写到 OneRec-GRPO / OneRec-GBPO / OneRec-SAGE 的对照会复用 OpenOneRec 的 public checkpoints 和 evaluation settings,这让它和现有快手公开主线能对上。
  3. 但我继续按论文全标题、SAGE generative recommendation、作者名与 xiaohongshu generative recommendation RL 做 GitHub API 精确/模糊检索,截至 2026-03-22 仍未看到稳定官方 repo。

所以当前最准确的定位不是“可直接跑的开源底盘”,而是:

小红书公开生成式推荐路线里,围绕 action space 和 vocabulary burden 的新 paper-level 信号

中文传播层目前只有导航页,没有稳定高价值机制稿或可复用 xhslink

这轮我还专门用本地 search-layer 跑了四类检索:

  1. 论文 exact title
  2. SAGE 生成式推荐
  3. site:xiaohongshu.com "SAGE" "生成式推荐"
  4. xhslink SAGE 生成式推荐

稳定结果里,能用的中文入口基本只有:

  1. Moonlight 的中文 review
  2. alphaXiv 的中文概览页

但这两类都更适合做导航,不适合当事实依据。

与此同时,本轮没有拿到稳定高价值的中文机制稿,也没有拿到可复用 xhslink。检索结果里出现的“小红书”基本都是无关页面、爬虫仓库或噪声,不构成研究材料。

所以这条线当前的事实判断,仍应以论文、HTML 和 GitHub API 为准。

证据与来源

下一步

  • SAGE / OneRec / OneRec-V2 / OpenOneRec / GR2 / DeepInterestGR 压到同一张 tokenization/action-space 观察表里,新增 action-space regime / vocabulary burden 一列。
  • 继续跟踪小红书是否会公开这条线的官方仓、技术博客或更明确的 TextRec 实现细节,尤其是它和 OpenOneRec 是否会出现实装连接。
  • 后续若再补到同类路线,优先区分“文本最终会不会被量化成 token”和“policy 实际在什么 action space 上更新”,避免把 carrier interfacepolicy action space 再写成同一个问题。