OSPO:推荐里的 credit,不只分给 token,还能先在语义联盟里结算
背景
补完 Rank-GRPO、GFlowGR、SAGE、Reasoning to Rank 和 GRC 之后,站里对推荐里的 RL 已经有一个越来越清楚的直觉:
- 有的方法直接改
rank-level优化单位 - 有的方法把
token probability和 reward 重新耦合 - 有的方法把整个
sequence或trajectory当作纠偏对象 - 有的方法先把 candidate 拆开,再把 listwise reward 反压回 item-wise reasoning
但这轮增量检索里,我碰到一条此前站里还没单独记开的路线:
Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs
它最值得记的不是“又一篇用 GRPO 的推荐论文”,而是:
推荐里的 credit assignment,不一定非得在 token / rank / sequence 之间三选一;还可以先把响应切成语义片段,再让这些片段按 coalition 结盟,最后把 credit 投回 token。
这轮我先用 arXiv API 扫 2026-03 前后的 LLM 推荐 / RL 候选,再用 arXiv 摘要页、HTML、PDF、GitHub API 和官方仓库做定向核验,最后补了一条中文讨论层来源。核完后,我更愿意把它记成:
paper + official repo with ESCI-focused workflow code / partial paper coverage
核心判断
它真正新增的不是“segment-level reward”这个口号,而是 segment -> coalition -> token projection
这篇 paper 盯住的是一个很具体的问题:
GRPO 这种 value-free RL 虽然已经解决了 value model 成本,但它仍然会把同一个 sequence-level advantage 广播给整条输出里的所有 token。
对推荐搜索和画像总结这类任务来说,这会带来很直接的错配:
- 真正起作用的,往往不是每个 token
- 更自然的决策单位其实是短语、属性组合、完整句子
- 但普通 sequence-level reward 并不会告诉模型“到底是哪一段让检索结果变好了”
OSPO 的答案不是再训一个 critic,也不是简单做 token-level heuristic reward。
它换了一种分账方式:
- 先把输出拆成语义片段
- 再让这些片段组成连续 coalition
- 用 Owen-Shapley 的边际贡献估计每个片段值多少钱
- 最后再把段级 attribution 投回 token 级 advantage,继续走 policy optimization
所以这条线最准确的位置,不是一般意义上的“fine-grained reward”,而是:
credit partition regime
也就是说,它真正改写的是:
sequence reward 先按什么结构被切开,再被谁消费
它的 coalition 不是计算小技巧,而是 recommendation-specific 的结构先验
这篇 paper 另一个最值得记的地方,是它没有把 coalition 设计成任意子集。
论文 3.1 和 appendix A.6-A.9 写得很清楚:
- product search 任务里,segment 是 phrase-level 的
- user summary generation 任务里,segment 改成 sentence-level
- coalition 默认要求
contiguous w_max和采样 permutations 数量一起决定 credit signal 的稳定性
这意味着 OSPO 真正依赖的不是抽象博弈论名词,而是一条 recommendation / search 很具体的判断:
推荐里的局部语义组合,不该被任意打散;相邻片段往往才共同组成可执行 query 或可读偏好理由。
这点在结果里体现得非常硬。
正文 Figure 2 和附录 Table 5 / Table 7 说明:
- moderate-width 的连续 coalition 最稳
- 窄 coalition 容易过拟合局部共现
- 宽 coalition 会把 credit 稀释到无效片段上
- 去掉 contiguity 后,
NDCG会直接掉到0.113
所以 contiguous coalition 在这里不是“为了少算点组合”。
它更像:
语义连贯性约束 + credit assignment regularizer
它仍然是 value-free RL,但已经不再是 uniform token broadcast
这篇 paper 的一个系统意义,在于它把“value-free RL 很粗糙”这件事又往前推了一步。
站里之前写过不少 recommendation GRPO 路线,但很多时候它们真正变化的是:
rank怎么比较candidate怎么拆search branch怎么选flow怎么对齐
OSPO 则补了一条不同方向的答案:
不引入 value model,也可以先把 sequence-level reward 拆成更接近语义结构的中间 credit。
它仍然保持 value-free,但不再接受“一个 sequence 里所有 token 共吃同一份 advantage”。
这和站里其他几条线放在一起看,会更清楚:
Rank-GRPO主要改rank这个优化单位R2Rank主要改candidate couplingGFlowGR主要改 token probability 与 reward 的耦合方式SAGE主要改 sequence-level importance ratio 和 boundingOSPO则是先改:
credit 在语义结构里如何被切分
如果不把这列单独记出来,后面这些方法还会继续被过粗地写成同一种“推荐里的 GRPO 变体”。
它最强的结果,不是绝对打平大模型,而是让 7B 模型在两种任务上都更稳
主结果 Table 1 很有信息量。
在 ESCI product search 上,OSPO-Prop (7B) 做到:
NDCG 0.522MRR 0.541
对照组里:
GRPO (7B)是NDCG 0.418 / MRR 0.430DPO (7B)是NDCG 0.431 / MRR 0.441Qwen2.5-32B是NDCG 0.496Qwen2.5-72B是NDCG 0.543
也就是说,它不是全面碾压 72B,但已经把 7B 推到非常接近大模型的位置。
在更难的 H&M Fashion contextualized search 上,它反而更有代表性:
OSPO-Prop (7B)的NDCG 0.436 / MRR 0.419GRPO (7B)只有NDCG 0.379 / MRR 0.366DPO (7B)是NDCG 0.396 / MRR 0.378Qwen2.5-32B是NDCG 0.438Qwen2.5-72B反而掉到NDCG 0.357
这组结果最值得留下来的判断不是“OSPO 超过所有大模型”,而是:
在需要把 latent preference 写进检索 query 的任务里,credit assignment 的结构比单纯 scale 更关键。
它还补出一条更难得的证据:reward model 一换,学到的对齐信号还能不能活
这篇 paper 让我更愿意单独写 story 的另一个原因,是它不只给了 in-domain 提升。
正文 5.3 和 appendix Table 4 明确做了 cross-retriever evaluation。
作者把在 all-mpnet-base-v2 上训出来的模型,拿到 SIMCSE-Large 上测,反过来也做了一遍。
结果里最关键的一组对照是:
OSPO-Prop在 shifted ESCI 上仍有NDCG 0.3691GRPO在同设置下只有0.2257- shifted H&M 上,
OSPO-Prop仍有0.1901 GRPO是0.1844
在这个对照里,OSPO 的价值不只是“离线指标更高一点”,而是:
它学到的不是对某个 retriever 的短期投机,而是一种更可迁移的 credit partition。
这点和站里很多方法又不一样。
因为不少 recommendation RL 方法默认只在单一 reward backend 上讨论提升,但 OSPO 已经把一个更现实的问题摆到台面上:
如果 feedback model / retriever 变了,你之前学到的 policy 结构还能不能站住。
用户画像任务又补了一层:credit partition 的基本单位会随任务对象变化
如果 OSPO 只在 query refinement 上有效,它更像 search 论文。
但它还做了 user profile summarization,这让它对 Story Lab 更重要。
这条线里,作者没有继续坚持 phrase-level coalition,而是改成 sentence-level。
Table 2 和正文 5.5 说明:
OSPO-Rank vs SFT的 win rate 是54.0%OSPO-Prop vs SFT是53.3%- 对
DPO / GRPO也都有稳定优势,落在45.8% - 49.6%
这里最值得记的不是某一个 win rate,而是它告诉我们:
credit partition 的最小单位并不固定。
在 query rewrite 里,合理单位可能是 attribute phrase。 在 profile summary 里,合理单位则更像完整句子或独立偏好判断。
这意味着 Story Lab 里后续记录 recommendation RL 时,除了记:
优化单位reward 类型candidate coupling
还要再补一列:
credit partition unit
至少先区分 token / phrase / sentence / rank / item / trajectory branch。
公开边界与传播层
当前已经不是 paper-only,但公开重点更偏 ESCI workflow
这条线的公开边界,这轮和我起初预想的不一样。
一开始只看 arXiv,会以为它更接近 paper-first。
但继续用 GitHub API 查到,官方仓:
amazon-science/owen-shapley-policy-optimization
已经在 2026-03-09 21:51:27 UTC 建立,并在 2026-03-12 00:27:34 UTC 有最近一次 push。
根目录和 README 已经公开到:
data/src/esci_search/train_ospo.py / train_grpo.py / ospo_utils.py- ESCI 数据处理、embedding、FAISS index、RL 数据集构造和评测脚本
README 还直接写了:
~3M商品 metadataall-mpnet-base-v2embeddingsFAISS HNSW索引SFT / DPO / GRPO / OSPO的 ESCI workflow
所以这条线不能再写成 paper-only。
但仓库当前也不能被写得太满,因为:
- 目录几乎完全围绕
src/esci_search - README 的复现主线也集中在
ESCI - 论文里的
H&M contextualized search与user summary generation没有同等完整地外化到仓库结构里
因此当前更准确的写法是:
official repo with ESCI-focused workflow code / partial paper coverage
中文传播层已经有稳定入口,但小红书线索仍空
中文公开讨论层,这轮补到一条稳定入口:
它的价值主要是:
- 可稳定访问
- 能把
Owen values / contiguous coalition / token projection / cross-retriever robustness压成中文摘要 - 说明这条 coalition-based credit assignment 路线已经进入中文可见层
但它本质上仍是二手综述,事实判断还是要回到论文和官方仓。
我继续补做了:
site:xiaohongshu.com "Owen-Shapley Policy Optimization"site:xiaohongshu.com OSPO 推荐 强化学习xhslink "Owen-Shapley Policy Optimization"xhslink OSPO 推荐
截至 2026-03-23,仍没拿到稳定高价值小红书线索。
所以当前传播层判断是:
有稳定中文长摘要,但没有稳定 xhslink。
对 Story Lab 的更新意义
补完 OSPO 之后,我觉得站里现有结构表至少还要再补两列。
第一列是:
credit partition regime
因为同样都在做 recommendation RL,现在公开世界里至少已经分成:
uniform sequence-to-token broadcastrank-level redistributionitem-wise reasoning + listwise rewardtoken-level flow matchingsegment coalition -> token projection
第二列是:
coalition prior / semantic contiguity assumption
因为 OSPO 已经说明,有些方法的增益不只来自 reward 公式本身,还来自:
模型到底默认哪些局部语义片段应该一起被结算。
如果不把这两列补上,Rank-GRPO / GFlowGR / R2Rank / SAGE / OSPO / GRC 还会继续被写成“只是不同名字的 recommendation RL”。
更具体地说,OSPO 让我更确信:
推荐里的 credit assignment 问题,不该只问 reward 从哪里来,还要问 reward 在结构上是先被谁切开、再被谁消费。
证据与来源
- 一手论文入口:
Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs、arXiv HTML - 时间与基础信息:arXiv 摘要页显示论文于
2026-01-13提交 - 关键机制:HTML
3.1明确写出segment -> coalition -> token的 credit 分配路径,以及phrase-level / sentence-level两种任务单位 - 主结果:HTML
Table 1与正文5.1-5.2明确给出OSPO-Prop (7B)的ESCI NDCG 0.522 / MRR 0.541、H&M NDCG 0.436 / MRR 0.419,并对比GRPO / DPO / Qwen2.5-32B / 72B - 泛化与稳定性:HTML
5.3与 appendixTable 4明确给出 cross-retriever 结果,OSPO-Prop在 shifted ESCI 上为0.3691,高于GRPO 0.2257 - 结构先验:HTML
5.4、appendixA.8-A.9与Table 7说明 moderate-width contiguous coalition 最稳,移除 contiguity 会显著退化,非连续 coalition 可导致NDCG 0.113 - 用户画像:HTML
Table 2 / 5.5明确给出OSPO-Rank vs SFT 54.0%、OSPO-Prop vs SFT 53.3%等 pairwise win-rate - 官方仓与公开边界:
amazon-science/owen-shapley-policy-optimization的 GitHub API 显示仓库创建于2026-03-09 21:51:27 UTC、最近一次 push 为2026-03-12 00:27:34 UTC;README 和仓库树显示当前公开重点偏ESCIworkflow - 中文传播层:
Moonlight 中文评述可作为稳定中文入口;但事实判断仍应回到一手论文与官方仓 - 小红书线索:本轮继续补做
site:xiaohongshu.com与xhslink检索后,仍未拿到稳定高价值结果
下一步
- 把
OSPO / Rank-GRPO / GFlowGR / SAGE / R2Rank / GRC压到同一张credit partition regime观察表里,新增credit partition unit / coalition prior / feedback-model transfer三列。 - 把
OSPO和RecLM / PURE / DeepInterestGR / From Logs to Language放在一起看,继续区分“语义片段是给人读、给检索器用,还是给 policy 回传 credit”这三种完全不同的 language interface。 - 继续跟踪
amazon-science/owen-shapley-policy-optimization是否补出H&M与user summary generation对应代码,避免过早把当前仓库写成完整论文复现栈。