SAGE:生成式推荐的 RL,不只在修 reward,也在改写 action space
背景
补完 OneRec-V2、OpenOneRec、DeepInterestGR 和 GR2 之后,站里已经能比较清楚地区分几类相邻但不同的问题:
- item 要不要先被量化成
Semantic-ID或其他 recommendation-native token。 - 兴趣、画像和上下文这些上游 carrier,最终会不会再被压回 token space。
RL到底服务 retrieval、ranking、reasoning,还是某个更窄的 rerank stage。
但这张图里其实还缺一个更贴近 policy 本体的问题:
当生成式推荐开始用 RL 对齐时,policy 到底是在什么 action space 上学习
这一轮我没有继续追一个普通的“又一个 RL 变体”,而是先用 arXiv API 按 recommendation + "large language model" + reinforcement learning 做时间倒序筛选,再用本地 search-layer 跑 exact-title 和 site:xiaohongshu.com / xhslink 检索补传播层线索,最后回到 arXiv 摘要页、arXiv HTML、GitHub API 和可稳定访问的中文 review 做定向核验,锁定了这篇最值得补进 Story Lab 的新入口:
核完之后,我更倾向于把它记成:
推荐里的 RL 已经开始反过来改写 item carrier 本身,而不只是继续调 reward
核心判断
这篇 paper 的关键,不是“GBPO 的增强版”,而是把 GBPO 的失效和 Semantic-ID 的系统负担写到了同一张图里
如果只看标题,很容易把 SAGE 理解成:
OneRec-V2 / GBPO 之后,又一个更稳的 policy optimizer
但论文真正新增的,是一个此前站里还没被单独命名的结构性判断:
生成式推荐里的 RL 效果,不只取决于 reward 和 clipping,还取决于 action space 是不是背着过重的 vocabulary burden
论文 1-2 节把这件事写得非常直白。
一方面,它直接把 OneRec-V2 的 GBPO 失效诊断成 Symmetric Conservatism:
- 正向稀有信号会被对称上界压扁。
- 负向拒绝主导时,静态边界又不足以防止 diversity collapse。
- 文中还明确给出一个很硬的现象级证据:在这类约束下,cold-start video views 会下降
44.7%,cluster density 上升11.7%。
另一方面,它没有把问题只停在 optimizer,而是继续回头审问 Semantic-ID 这条路线本身。
论文引言明确写出,Semantic-ID 虽然能缓解传统 ID-based recommendation 的开放词表问题,但它仍然带着三层现实负担:
semantic collision可能超过30%。- 工业场景下海量新 item 上线,会把 tokenizer 运维变成持续成本。
LLM adaptation training is mandatory,也就是必须专门给模型补 itemic token 对齐和词表扩展。
这一步很关键。
因为它意味着 SAGE 讨论的已经不只是:
怎样给 OneRec-V2 一个更好的 RL optimizer
而是:
OneRec-V2 这类 itemic-token 路线,是不是已经把过多复杂度压进了 action space
这篇 paper 真正把推荐 action space 拆成了两类:Semantic-ID generation 和 candidate-constrained native-text generation
SAGE 最有增量的一点,是它没有只在 Semantic-ID 路线上做消融,而是显式做了两套 action space 对照:
OneRec风格的Semantic-ID generationTextRec风格的native-text action space
这里的 native-text 也不是开放式胡乱生成。
论文 4.1.1 写得很清楚:在 TextRec 设定里,policy 仍然只在候选池内选 item,只是 item 不再先被编码成独立 vocabulary,而是直接用 title / tags / category keywords 这类文本 renderings 表示;输出再通过 deterministic parsing 和 validity checks 回收成可执行 slate。
所以这条线真正提出的不是:
把推荐变成自由文本生成
而是:
把 action space 从 recommendation-native token 库,改成 candidate-constrained native LLM vocabulary
这和站里此前补过的 DeepInterestGR 也不是同一个问题。
DeepInterestGR 更像在问:
上游兴趣语义会不会再被量化成 SID
而 SAGE 在问的是:
就算最终任务仍是推荐,policy 训练时到底还要不要继续背 itemic vocabulary
结果最重要的地方,不是某一个指标涨了,而是 native vocabulary + SAGE 比 Semantic-ID + GBPO 更稳地守住了 accuracy-diversity 平衡
论文结果给出的结论并不只是“SAGE 比 GBPO 好”。
更关键的是,它把不同 action space 的收益模式分开了。
在 Amazon Product Reviews 上,正文直接写到:
TextRec在Beauty / Sports / Toys三个数据集上都拿到最强 top-K accuracy。- 相比最强基线
OneRec-GBPO,NDCG提升幅度达到6.27%到7.8%。 Only SFT (TextRec)明显落后,说明光靠原生词表和语言先验不够,关键还是native vocabulary + preference optimization这个组合。
在 RecIF-Bench 上,这个模式更值得记:
TextRec在核心 recommendation tasks 上持续优于OneRec-GBPO,尤其在Interactive Rec和Label-Conditional Rec这类 instruction-conditioned 场景更明显。OneRec-SAGE并不是没效果。它在 diversity 和 cold-start 上可以做到更激进的探索,甚至在Short Video的Entropy@10 / Cold-Recall@10上达到最高绝对值。- 但一旦 exploration 变强,
Semantic-IDaction space 更容易牺牲 top-K accuracy;相对地,TextRec更能在 exploration 下守住 accuracy。
这说明 SAGE 最值得沉淀的判断,不是“Boost Factor 和 Entropy Penalty 很聪明”,而是:
同样的 exploration 强度,native vocabulary action space 比 Semantic-ID action space 更能保住 accuracy-diversity balance
这已经不是单纯的 optimizer 微调,而是 action space 设计问题。
这逼着 Story Lab 再补一列 action-space regime / vocabulary burden
补完这篇 paper 之后,我觉得现有方法表里仅靠 tokenization interface 已经不够了。
因为 tokenization interface 更偏输入或中间 carrier 的去向,比如:
- 文本会不会继续量化成
Semantic-ID - 兴趣 carrier 最终是不是 recommendation-native token
- 多模态语义会不会先被压成 caption 或 pseudo-CoT
而 SAGE 暴露的是另一层:
policy 最终到底在什么 action space 上更新
所以后续更适合新增一列:
action-space regime / vocabulary burden
至少先区分三类:
Semantic-ID generationcandidate-constrained native-vocabulary generationclosed candidate-set rerank / specialist action space
否则下面这些东西还会继续被写扁:
OneRec / OneRec-V2 / OpenOneRec这种 itemic-token 主线SAGE/TextRec这种 native vocabulary policy 路线GR2这种已封闭候选集上的 rerank-stage specialist
它们都在做生成或对齐,但 action space 完全不是同一种对象。
公开边界与传播层
这条线目前仍更适合记成 industrial paper-first action-space regime route
截至 2026-03-22,这条线当前更适合这样记:
industrial paper-first action-space regime route
原因很直接:
- 论文与 arXiv HTML 已经把
GBPO失效、Semantic-ID负担、TextRec设定和两套 action space 结果写得很清楚。 - 论文还明确写到
OneRec-GRPO / OneRec-GBPO / OneRec-SAGE的对照会复用OpenOneRec的 public checkpoints 和 evaluation settings,这让它和现有快手公开主线能对上。 - 但我继续按论文全标题、
SAGE generative recommendation、作者名与xiaohongshu generative recommendation RL做 GitHub API 精确/模糊检索,截至2026-03-22仍未看到稳定官方 repo。
所以当前最准确的定位不是“可直接跑的开源底盘”,而是:
小红书公开生成式推荐路线里,围绕 action space 和 vocabulary burden 的新 paper-level 信号
中文传播层目前只有导航页,没有稳定高价值机制稿或可复用 xhslink
这轮我还专门用本地 search-layer 跑了四类检索:
- 论文 exact title
SAGE 生成式推荐site:xiaohongshu.com "SAGE" "生成式推荐"xhslink SAGE 生成式推荐
稳定结果里,能用的中文入口基本只有:
Moonlight的中文 reviewalphaXiv的中文概览页
但这两类都更适合做导航,不适合当事实依据。
与此同时,本轮没有拿到稳定高价值的中文机制稿,也没有拿到可复用 xhslink。检索结果里出现的“小红书”基本都是无关页面、爬虫仓库或噪声,不构成研究材料。
所以这条线当前的事实判断,仍应以论文、HTML 和 GitHub API 为准。
证据与来源
SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation:论文摘要主入口;可直接核到2026-01-29提交、2026-02-13更新到v3,以及GBPO、Semantic-ID、native-text action space和RecIF-Bench这些核心关键词。SAGEarXiv HTML:用于核对semantic collision >30%、LLM adaptation training is mandatory、GBPO下44.7%cold-start drop /11.7%cluster density increase、TextRec的 candidate-pool 设定,以及 Amazon 与RecIF-Bench上的结果解读。GitHub仓库搜索:"SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation":本轮用于复核公开边界;截至2026-03-22,未见稳定官方 repo。[论文评述] SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation:当前可稳定访问的中文导航页,但本质仍是自动评述,只适合做传播层入口。
下一步
- 把
SAGE / OneRec / OneRec-V2 / OpenOneRec / GR2 / DeepInterestGR压到同一张 tokenization/action-space 观察表里,新增action-space regime / vocabulary burden一列。 - 继续跟踪小红书是否会公开这条线的官方仓、技术博客或更明确的
TextRec实现细节,尤其是它和OpenOneRec是否会出现实装连接。 - 后续若再补到同类路线,优先区分“文本最终会不会被量化成 token”和“policy 实际在什么 action space 上更新”,避免把
carrier interface和policy action space再写成同一个问题。