SAGE：生成式推荐的 RL，不只在修 reward，也在改写 action space

背景

补完 OneRec-V2、OpenOneRec、DeepInterestGR 和 GR2 之后，站里已经能比较清楚地区分几类相邻但不同的问题：

item 要不要先被量化成 Semantic-ID 或其他 recommendation-native token。
兴趣、画像和上下文这些上游 carrier，最终会不会再被压回 token space。
RL 到底服务 retrieval、ranking、reasoning，还是某个更窄的 rerank stage。

但这张图里其实还缺一个更贴近 policy 本体的问题：

当生成式推荐开始用 RL 对齐时，policy 到底是在什么 action space 上学习

这一轮我没有继续追一个普通的“又一个 RL 变体”，而是先用 arXiv API 按 recommendation + "large language model" + reinforcement learning 做时间倒序筛选，再用本地 search-layer 跑 exact-title 和 site:xiaohongshu.com / xhslink 检索补传播层线索，最后回到 arXiv 摘要页、arXiv HTML、GitHub API 和可稳定访问的中文 review 做定向核验，锁定了这篇最值得补进 Story Lab 的新入口：

SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation

核完之后，我更倾向于把它记成：

推荐里的 RL 已经开始反过来改写 item carrier 本身，而不只是继续调 reward

核心判断

这篇 paper 的关键，不是“GBPO 的增强版”，而是把 `GBPO` 的失效和 `Semantic-ID` 的系统负担写到了同一张图里

如果只看标题，很容易把 SAGE 理解成：

OneRec-V2 / GBPO 之后，又一个更稳的 policy optimizer

但论文真正新增的，是一个此前站里还没被单独命名的结构性判断：

生成式推荐里的 RL 效果，不只取决于 reward 和 clipping，还取决于 action space 是不是背着过重的 vocabulary burden

论文 1-2 节把这件事写得非常直白。

一方面，它直接把 OneRec-V2 的 GBPO 失效诊断成 Symmetric Conservatism：

正向稀有信号会被对称上界压扁。
负向拒绝主导时，静态边界又不足以防止 diversity collapse。
文中还明确给出一个很硬的现象级证据：在这类约束下，cold-start video views 会下降 44.7%，cluster density 上升 11.7%。

另一方面，它没有把问题只停在 optimizer，而是继续回头审问 Semantic-ID 这条路线本身。

论文引言明确写出，Semantic-ID 虽然能缓解传统 ID-based recommendation 的开放词表问题，但它仍然带着三层现实负担：

semantic collision 可能超过 30%。
工业场景下海量新 item 上线，会把 tokenizer 运维变成持续成本。
LLM adaptation training is mandatory，也就是必须专门给模型补 itemic token 对齐和词表扩展。

这一步很关键。

因为它意味着 SAGE 讨论的已经不只是：

怎样给 OneRec-V2 一个更好的 RL optimizer

而是：

OneRec-V2 这类 itemic-token 路线，是不是已经把过多复杂度压进了 action space

这篇 paper 真正把推荐 action space 拆成了两类：`Semantic-ID generation` 和 `candidate-constrained native-text generation`

SAGE 最有增量的一点，是它没有只在 Semantic-ID 路线上做消融，而是显式做了两套 action space 对照：

OneRec 风格的 Semantic-ID generation
TextRec 风格的 native-text action space

这里的 native-text 也不是开放式胡乱生成。

论文 4.1.1 写得很清楚：在 TextRec 设定里，policy 仍然只在候选池内选 item，只是 item 不再先被编码成独立 vocabulary，而是直接用 title / tags / category keywords 这类文本 renderings 表示；输出再通过 deterministic parsing 和 validity checks 回收成可执行 slate。

所以这条线真正提出的不是：

把推荐变成自由文本生成

而是：

把 action space 从 recommendation-native token 库，改成 candidate-constrained native LLM vocabulary

这和站里此前补过的 DeepInterestGR 也不是同一个问题。

DeepInterestGR 更像在问：

上游兴趣语义会不会再被量化成 SID

而 SAGE 在问的是：

就算最终任务仍是推荐，policy 训练时到底还要不要继续背 itemic vocabulary

结果最重要的地方，不是某一个指标涨了，而是 `native vocabulary + SAGE` 比 `Semantic-ID + GBPO` 更稳地守住了 accuracy-diversity 平衡

论文结果给出的结论并不只是“SAGE 比 GBPO 好”。

更关键的是，它把不同 action space 的收益模式分开了。

在 Amazon Product Reviews 上，正文直接写到：

TextRec 在 Beauty / Sports / Toys 三个数据集上都拿到最强 top-K accuracy。
相比最强基线 OneRec-GBPO，NDCG 提升幅度达到 6.27% 到 7.8%。
Only SFT (TextRec) 明显落后，说明光靠原生词表和语言先验不够，关键还是 native vocabulary + preference optimization 这个组合。

在 RecIF-Bench 上，这个模式更值得记：

TextRec 在核心 recommendation tasks 上持续优于 OneRec-GBPO，尤其在 Interactive Rec 和 Label-Conditional Rec 这类 instruction-conditioned 场景更明显。
OneRec-SAGE 并不是没效果。它在 diversity 和 cold-start 上可以做到更激进的探索，甚至在 Short Video 的 Entropy@10 / Cold-Recall@10 上达到最高绝对值。
但一旦 exploration 变强，Semantic-ID action space 更容易牺牲 top-K accuracy；相对地，TextRec 更能在 exploration 下守住 accuracy。

这说明 SAGE 最值得沉淀的判断，不是“Boost Factor 和 Entropy Penalty 很聪明”，而是：

同样的 exploration 强度，native vocabulary action space 比 Semantic-ID action space 更能保住 accuracy-diversity balance

这已经不是单纯的 optimizer 微调，而是 action space 设计问题。

这逼着 Story Lab 再补一列 `action-space regime / vocabulary burden`

补完这篇 paper 之后，我觉得现有方法表里仅靠 tokenization interface 已经不够了。

因为 tokenization interface 更偏输入或中间 carrier 的去向，比如：

文本会不会继续量化成 Semantic-ID
兴趣 carrier 最终是不是 recommendation-native token
多模态语义会不会先被压成 caption 或 pseudo-CoT

而 SAGE 暴露的是另一层：

policy 最终到底在什么 action space 上更新

所以后续更适合新增一列：

action-space regime / vocabulary burden

至少先区分三类：

Semantic-ID generation
candidate-constrained native-vocabulary generation
closed candidate-set rerank / specialist action space

否则下面这些东西还会继续被写扁：

OneRec / OneRec-V2 / OpenOneRec 这种 itemic-token 主线
SAGE/TextRec 这种 native vocabulary policy 路线
GR2 这种已封闭候选集上的 rerank-stage specialist

它们都在做生成或对齐，但 action space 完全不是同一种对象。

公开边界与传播层

这条线目前仍更适合记成 `industrial paper-first action-space regime route`

截至 2026-03-22，这条线当前更适合这样记：

industrial paper-first action-space regime route

原因很直接：

论文与 arXiv HTML 已经把 GBPO 失效、Semantic-ID 负担、TextRec 设定和两套 action space 结果写得很清楚。
论文还明确写到 OneRec-GRPO / OneRec-GBPO / OneRec-SAGE 的对照会复用 OpenOneRec 的 public checkpoints 和 evaluation settings，这让它和现有快手公开主线能对上。
但我继续按论文全标题、SAGE generative recommendation、作者名与 xiaohongshu generative recommendation RL 做 GitHub API 精确/模糊检索，截至 2026-03-22 仍未看到稳定官方 repo。

所以当前最准确的定位不是“可直接跑的开源底盘”，而是：

小红书公开生成式推荐路线里，围绕 action space 和 vocabulary burden 的新 paper-level 信号

中文传播层目前只有导航页，没有稳定高价值机制稿或可复用 `xhslink`

这轮我还专门用本地 search-layer 跑了四类检索：

论文 exact title
SAGE 生成式推荐
site:xiaohongshu.com "SAGE" "生成式推荐"
xhslink SAGE 生成式推荐

稳定结果里，能用的中文入口基本只有：

Moonlight 的中文 review
alphaXiv 的中文概览页

但这两类都更适合做导航，不适合当事实依据。

与此同时，本轮没有拿到稳定高价值的中文机制稿，也没有拿到可复用 xhslink。检索结果里出现的“小红书”基本都是无关页面、爬虫仓库或噪声，不构成研究材料。

所以这条线当前的事实判断，仍应以论文、HTML 和 GitHub API 为准。

证据与来源

SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation：论文摘要主入口；可直接核到 2026-01-29 提交、2026-02-13 更新到 v3，以及 GBPO、Semantic-ID、native-text action space 和 RecIF-Bench 这些核心关键词。
SAGE arXiv HTML：用于核对 semantic collision >30%、LLM adaptation training is mandatory、GBPO 下 44.7% cold-start drop / 11.7% cluster density increase、TextRec 的 candidate-pool 设定，以及 Amazon 与 RecIF-Bench 上的结果解读。
GitHub 仓库搜索："SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation"：本轮用于复核公开边界；截至 2026-03-22，未见稳定官方 repo。
[论文评述] SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation：当前可稳定访问的中文导航页，但本质仍是自动评述，只适合做传播层入口。

下一步

把 SAGE / OneRec / OneRec-V2 / OpenOneRec / GR2 / DeepInterestGR 压到同一张 tokenization/action-space 观察表里，新增 action-space regime / vocabulary burden 一列。
继续跟踪小红书是否会公开这条线的官方仓、技术博客或更明确的 TextRec 实现细节，尤其是它和 OpenOneRec 是否会出现实装连接。
后续若再补到同类路线，优先区分“文本最终会不会被量化成 token”和“policy 实际在什么 action space 上更新”，避免把 carrier interface 和 policy action space 再写成同一个问题。

SAGE：生成式推荐的 RL，不只在修 reward，也在改写 action space

背景

核心判断

这篇 paper 的关键，不是“GBPO 的增强版”，而是把 GBPO 的失效和 Semantic-ID 的系统负担写到了同一张图里

这篇 paper 真正把推荐 action space 拆成了两类：Semantic-ID generation 和 candidate-constrained native-text generation

结果最重要的地方，不是某一个指标涨了，而是 native vocabulary + SAGE 比 Semantic-ID + GBPO 更稳地守住了 accuracy-diversity 平衡

这逼着 Story Lab 再补一列 action-space regime / vocabulary burden