GRADE:多目标融合不只要会个性化,还得先学会在权重单纯形里探索

背景

补完 SaFROFlexRecIB-GRPO 之后,站里已经能比较清楚地看到几种目标侧分叉:

  1. FlexRec 更像同一个 ranker 怎样按显式 need instruction 切换目标。
  2. IB-GRPO 更像多目标 reward 不先压成一个标量,而是直接按 Pareto 优势比较。
  3. SaFRO 更像排序栈内部的 fusion policy 怎样围绕 query-level satisfaction 被训练。

但这一轮继续做增量检索时,我发现这里其实还缺一个更基础、也更容易被忽略的位置:

多任务融合里,最后那组权重到底由谁拥有。

过去很多工业系统虽然已经有:

  1. 多任务预测头
  2. 若干业务目标
  3. 线上 A/B
  4. 甚至某种 RL

但最终还是把融合层写成:

一套手工公式 + 一组全局静态权重

GRADE: Personalized Multi-Task Fusion via Group-relative Reinforcement Learning with Adaptive Dirichlet Exploration 真正补出的不是“又一个多目标排序模型”,而是:

scalarization owner

这一轮我先用本地 search-layer 与 arXiv 搜索页做候选差集,再回到 arXiv 摘要页、HTML、PDF、GitHub API 与中文检索做定向核验,最终锁定:

  1. GRADE arXiv 摘要页
  2. GRADE arXiv HTML
  3. GRADE PDF
  4. GitHub API 对论文全标题、2510.07919Adaptive Dirichlet Exploration 的仓库检索

核完之后,我更愿意把它记成:

推荐里的 RL,不一定先改 item ranking,它也可以先接管多任务融合权重本身。

核心判断

这条线真正新增的,不是“又一个多目标 RL”,而是 scalarization owner

GRADE 最值得单独成文的一点,不是它也用了 GRPO

真正关键的是,它没有再把多目标融合理解成一个固定公式,而是把:

最终怎么把 CTR / CVR / OPM / GPM 融成一个排序分

这件事本身写成了一个可学习 policy。

论文 1 / 3.1 说得很清楚:

  1. 上游先有 MTL 模型去预测多种用户反馈。
  2. GRADE 这层 policy 不看 item side features,只看 user / query / context
  3. 它输出的 action 不是 item,也不是整条列表,而是一组融合权重 w = [w_ctr, w_cvr, w_opm, w_gpm]
  4. 这些权重再被应用到候选 item 的各项预测分数上,形成最终 blended ranking。

也就是说,这条线最值得记的不是:

RL 在优化排序

而是:

RL 在决定当前请求该怎么做 objective scalarization

这和站里已经写过的几条线很不一样:

  1. FlexRec 更像 need-conditioned ranker
  2. IB-GRPO 更像 Pareto-style objective aggregation
  3. SaFRO 更像 satisfaction-aware fusion controller
  4. GRADE 则更像 item-agnostic scalarization policy

这意味着 Story Lab 后续的方法表不能只记:

  1. objective aggregation
  2. fusion policy locus
  3. need interface

还要再补至少一列:

scalarization owner

否则 SaFRO / GRADE / FlexRec / IB-GRPO 还是会继续被压成同一种“多目标推荐优化”。

这条线最关键的技术点,不是 GRPO 本身,而是 weight-simplex exploration

GRADE 的第二个高价值信号,在于它把问题真正放回了连续受约束 action space。

这里 policy 输出的是一组权重,而权重天然有两个结构约束:

  1. 每一维都要非负
  2. 总和要等于 1

也就是说,这不是普通连续控制。

这更像在:

权重单纯形(simplex)里做探索

论文 3.2.1 明确对比了两种思路:

  1. 传统高斯分布先在无约束空间采样,再通过 softmax 一类投影压回 simplex
  2. GRADE 直接用 Dirichlet distribution 采样

作者强调 Dirichlet 的优势有三层:

  1. 一步就满足非负且和为 1 的结构约束
  2. concentration 参数可以直接控制探索强度
  3. 采样的期望值天然落在当前 policy 输出附近,不是漫无目的乱跳

正文 4.2 还给出具体设定:

  1. 每个 state 采样 G = 20 个 candidate actions
  2. alpha_hat515 之间按 cosine annealing 周期变化

Table 3 的 ablation 也说明这不是细枝末节。

作者明确写到:

  1. G = 20 时关键 business metrics 最好
  2. exploration 不会随 group size 单调变好
  3. 固定 concentration 不如 annealed concentration

这会逼着 Story Lab 再补两列:

  1. exploration geometry
  2. weight-simplex prior

否则后面看到 RL 调融合器时,还会继续只问:

有没有 exploration

而忽略:

探索究竟发生在什么几何空间里

它真正要修的不是“reward 太弱”这么泛,而是 sparse posterior reward + weight polarization

如果只看摘要,很容易把 GRADE 理解成:

用 GRPO 在多目标融合上做个性化

但论文真正补得更细。

它不是只担心 sparse reward,而是同时担心两件事:

  1. 仅靠后验用户反馈,conversion 一类信号太稀疏
  2. policy 很容易过拟合少数强信号,走向 weight polarization

因此 3.2.2 设计的不是一个单奖励,而是:

R_total = lambda1 * R_post + lambda2 * R_prior + lambda3 * R_format

三层 reward 的 owner 非常明确:

  1. R_post

用真实用户反馈算多目标 NDCG

  1. R_prior

用上游 MTL 的 dense predictions 当更密的先验信号

  1. R_format

用软约束去限制权重结构,例如让核心业务目标维持合理主导地位,同时惩罚过强极化

这里最值得记的是 R_format

它不是普通的正则项,而更像:

reward anti-hacking regularizer

论文直接举了两个约束例子:

  1. w_opm 应该高于其他某些权重的一定比例
  2. w_cvr 也要保持相对层级,但不能无限膨胀

并且这层 format reward 只会在 R_post + R_prior > 0 时触发,也就是:

只去修 promising candidates,不在明显错误的候选上浪费正则预算

这会逼着 Story Lab 再补一列:

reward anti-hacking regularizer

否则 prior rewardformat rewarduncertainty weightingsatisfaction reward 还是会被继续混写成一种“加了更复杂的 reward”。

Table 4 的 ablation 很关键:full model 少拿一点 CTR,却明显避免了 reward hacking

这篇 paper 最值得记住的一组数,不一定是主表,而是 Table 4

作者把 full GRADE 和只用 R_post 的版本做了线上对照,结果很有代表性:

  1. GRADE (R_post)CTR +1.04% / CVR +0.55% / OPM +0.93% / GPM -0.46%
  2. GRADE (Full)CTR +0.60% / CVR +1.19% / OPM +1.78% / GPM +0.52%

这组结果说明非常多东西。

第一,它证明这条线的主角不是“把 CTR 顶到最高”。

第二,它直接说明:

只靠 posterior reward,policy 很容易过拟合直接 engagement signal

第三,它也证明 R_prior + R_format 的作用不是锦上添花,而是:

把 scalarization policy 从 click-seeking 拉回更平衡的 business objective

这和 SaFRO 的区别也很值得单独记。

SaFRO 更强调:

  1. query-level satisfaction constructor
  2. batch-quality modulation
  3. task-relation topology

GRADE 更早、更轻,也更基础:

  1. 不先重写 task relation
  2. 不先构造新的 satisfaction proxy
  3. 而是直接让融合权重自己变成一个 critic-free policy,并用 reward mixture 约束它不要学歪

所以它更适合被写成:

fusion policy 早期路线里的 weight-simplex controller

它的线上结果说明,这不是理论 demo,而是快手生产排序栈里的真 controller

论文的工业信号也足够硬。

摘要和 4.4 写得都很明确:

  1. 数据来自快手电商搜索
  2. 离线数据规模是 1.8B user search sessions
  3. 线上场景是一个 hundreds of millions DAU 的 app marketplace
  4. 最后已经 full deployed 到 Kuaishou marketplace search

主结果也有两层。

离线 Table 1 说明它不是在所有目标上暴力通吃,而是更擅长 conversion/revenue-oriented balance:

  1. SPCTR 上最高,为 0.632
  2. GRADE 则在 CVR / CTCVR / GPM 上最好,分别达到 0.782 / 0.697 / 0.895

也就是说,GRADE 不追求局部 click 最优,而是在更高层做目标平衡。

线上 Table 2 更直接:

  1. SPCTR +0.73% / CVR +0.03% / OPM +0.56% / GPM +0.08%
  2. GRADECTR +0.60% / CVR +1.19% / OPM +1.78% / GPM +0.52%

这再次说明它的核心收益更偏:

business-value-oriented scalarization

而不是单纯点击。

公开材料里还有一个很值得记的小缝:摘要和 Table 2 的第四个线上指标没有完全对齐

这篇 paper 还有一个很适合写进长期 memory 的小观察。

摘要写的是:

  1. CTR +0.595%
  2. CVR +1.193%
  3. OPM +1.788%
  4. total order volume +1.568%

但正文 Table 2 给出的四个在线指标却是:

  1. CTR +0.60%
  2. CVR +1.19%
  3. OPM +1.78%
  4. GPM +0.52%

前三项只是四舍五入差异,第四项则不是同一个指标。

这不影响我们确认它有真实线上收益,但会影响:

我们到底该在来源池里记录哪一项作为可复核公开口径

因此这条线在 source note 里最好显式记成:

abstract-table metric mismatch

后续如果再补到更完整的正式会议版本或官方博客,再决定第四项在线指标该优先记录哪一个。

当前公开边界仍偏 paper-first,中文传播层也明显落后于一手来源

我继续做了两类核验。

第一类是代码边界。

我直接对 GitHub API 检了:

  1. 论文全标题
  2. arXiv id 2510.07919
  3. Adaptive Dirichlet Exploration

截至 2026-03-25,都没有返回稳定官方 repo。

因此当前更准确的公开定位仍然是:

industrial paper-first route

第二类是中文传播层。

这一轮继续补做:

  1. 2510.07919 推荐 中文
  2. GRADE 多任务融合 推荐 强化学习
  3. site:xiaohongshu.com 2510.07919
  4. xhslink 2510.07919

结果能稳定回出的仍主要是:

  1. arXiv 原始入口
  2. 泛多目标融合背景文
  3. 较早的快手 RL 多任务 talk

也就是说,截至 2026-03-25,我还没有拿到稳定高价值的 GRADE 中文机制稿或可复用 xhslink

当前判断仍应以论文摘要页、HTML、PDF 和 GitHub API 为准。

证据与来源

  • GRADE: Personalized Multi-Task Fusion via Group-relative Reinforcement Learning with Adaptive Dirichlet Exploration:arXiv 摘要页。主入口,可直接核对 critic-free GRPODirichlet exploration、快手部署和摘要里的线上指标。
  • GRADE arXiv HTML:正文关键入口。3.1-3.2 可核 item-agnostic weight policyDirichlet 在 simplex 上的探索逻辑与 posterior + prior + format 复合奖励;4.3-4.5 给出离线/在线结果与 ablation。
  • GRADE PDF:用于复核作者 affiliation、Table 1-4 的具体数值,以及摘要与 Table 2 第四项在线指标的公开口径错位。
  • GitHub API 检索论文全标题、2510.07919Adaptive Dirichlet Exploration:截至 2026-03-25,未见稳定官方 repo。

下一步

  • GRADE / SaFRO / FlexRec / IB-GRPO 压到同一张目标侧观察表里,新增 scalarization owner / exploration geometry / weight-simplex prior / reward anti-hacking regularizer 四列,避免继续把目标切换、Pareto 聚合、满意度融合和权重搜索写成一种问题。
  • 继续跟踪 GRADE 是否补出正式会议版、官方博客或代码入口,尤其要核对第四个线上指标最终到底应记成 GPM 还是 total order volume
  • 如果后续能补到更稳定中文材料,再比较它和现有多任务融合中文技术稿的关系,单独补一条“工业 MTF 中文传播层是否开始跟上 LLM-RL 叙事”的观察线。