GRADE：多目标融合不只要会个性化，还得先学会在权重单纯形里探索

背景

补完 SaFRO、FlexRec 和 IB-GRPO 之后，站里已经能比较清楚地看到几种目标侧分叉：

FlexRec 更像同一个 ranker 怎样按显式 need instruction 切换目标。
IB-GRPO 更像多目标 reward 不先压成一个标量，而是直接按 Pareto 优势比较。
SaFRO 更像排序栈内部的 fusion policy 怎样围绕 query-level satisfaction 被训练。

但这一轮继续做增量检索时，我发现这里其实还缺一个更基础、也更容易被忽略的位置：

多任务融合里，最后那组权重到底由谁拥有。

过去很多工业系统虽然已经有：

多任务预测头
若干业务目标
线上 A/B
甚至某种 RL

但最终还是把融合层写成：

一套手工公式 + 一组全局静态权重

而 GRADE: Personalized Multi-Task Fusion via Group-relative Reinforcement Learning with Adaptive Dirichlet Exploration 真正补出的不是“又一个多目标排序模型”，而是：

scalarization owner

这一轮我先用本地 search-layer 与 arXiv 搜索页做候选差集，再回到 arXiv 摘要页、HTML、PDF、GitHub API 与中文检索做定向核验，最终锁定：

GRADE arXiv 摘要页
GRADE arXiv HTML
GRADE PDF
GitHub API 对论文全标题、2510.07919 与 Adaptive Dirichlet Exploration 的仓库检索

核完之后，我更愿意把它记成：

推荐里的 RL，不一定先改 item ranking，它也可以先接管多任务融合权重本身。

核心判断

这条线真正新增的，不是“又一个多目标 RL”，而是 `scalarization owner`

GRADE 最值得单独成文的一点，不是它也用了 GRPO。

真正关键的是，它没有再把多目标融合理解成一个固定公式，而是把：

最终怎么把 CTR / CVR / OPM / GPM 融成一个排序分

这件事本身写成了一个可学习 policy。

论文 1 / 3.1 说得很清楚：

上游先有 MTL 模型去预测多种用户反馈。
GRADE 这层 policy 不看 item side features，只看 user / query / context。
它输出的 action 不是 item，也不是整条列表，而是一组融合权重 w = [w_ctr, w_cvr, w_opm, w_gpm]。
这些权重再被应用到候选 item 的各项预测分数上，形成最终 blended ranking。

也就是说，这条线最值得记的不是：

RL 在优化排序

而是：

RL 在决定当前请求该怎么做 objective scalarization

这和站里已经写过的几条线很不一样：

FlexRec 更像 need-conditioned ranker
IB-GRPO 更像 Pareto-style objective aggregation
SaFRO 更像 satisfaction-aware fusion controller
GRADE 则更像 item-agnostic scalarization policy

这意味着 Story Lab 后续的方法表不能只记：

objective aggregation
fusion policy locus
need interface

还要再补至少一列：

scalarization owner

否则 SaFRO / GRADE / FlexRec / IB-GRPO 还是会继续被压成同一种“多目标推荐优化”。

这条线最关键的技术点，不是 `GRPO` 本身，而是 `weight-simplex exploration`

GRADE 的第二个高价值信号，在于它把问题真正放回了连续受约束 action space。

这里 policy 输出的是一组权重，而权重天然有两个结构约束：

每一维都要非负
总和要等于 1

也就是说，这不是普通连续控制。

这更像在：

权重单纯形（simplex）里做探索

论文 3.2.1 明确对比了两种思路：

传统高斯分布先在无约束空间采样，再通过 softmax 一类投影压回 simplex
GRADE 直接用 Dirichlet distribution 采样

作者强调 Dirichlet 的优势有三层：

一步就满足非负且和为 1 的结构约束
concentration 参数可以直接控制探索强度
采样的期望值天然落在当前 policy 输出附近，不是漫无目的乱跳

正文 4.2 还给出具体设定：

每个 state 采样 G = 20 个 candidate actions
alpha_hat 在 5 到 15 之间按 cosine annealing 周期变化

Table 3 的 ablation 也说明这不是细枝末节。

作者明确写到：

G = 20 时关键 business metrics 最好
exploration 不会随 group size 单调变好
固定 concentration 不如 annealed concentration

这会逼着 Story Lab 再补两列：

exploration geometry
weight-simplex prior

否则后面看到 RL 调融合器时，还会继续只问：

有没有 exploration

而忽略：

探索究竟发生在什么几何空间里

它真正要修的不是“reward 太弱”这么泛，而是 `sparse posterior reward + weight polarization`

如果只看摘要，很容易把 GRADE 理解成：

用 GRPO 在多目标融合上做个性化

但论文真正补得更细。

它不是只担心 sparse reward，而是同时担心两件事：

仅靠后验用户反馈，conversion 一类信号太稀疏
policy 很容易过拟合少数强信号，走向 weight polarization

因此 3.2.2 设计的不是一个单奖励，而是：

R_total = lambda1 * R_post + lambda2 * R_prior + lambda3 * R_format

三层 reward 的 owner 非常明确：

R_post

用真实用户反馈算多目标 NDCG

R_prior

用上游 MTL 的 dense predictions 当更密的先验信号

R_format

用软约束去限制权重结构，例如让核心业务目标维持合理主导地位，同时惩罚过强极化

这里最值得记的是 R_format。

它不是普通的正则项，而更像：

reward anti-hacking regularizer

论文直接举了两个约束例子：

w_opm 应该高于其他某些权重的一定比例
w_cvr 也要保持相对层级，但不能无限膨胀

并且这层 format reward 只会在 R_post + R_prior > 0 时触发，也就是：

只去修 promising candidates，不在明显错误的候选上浪费正则预算

这会逼着 Story Lab 再补一列：

reward anti-hacking regularizer

否则 prior reward、format reward、uncertainty weighting、satisfaction reward 还是会被继续混写成一种“加了更复杂的 reward”。

`Table 4` 的 ablation 很关键：full model 少拿一点 CTR，却明显避免了 reward hacking

这篇 paper 最值得记住的一组数，不一定是主表，而是 Table 4。

作者把 full GRADE 和只用 R_post 的版本做了线上对照，结果很有代表性：

GRADE (R_post)：CTR +1.04% / CVR +0.55% / OPM +0.93% / GPM -0.46%
GRADE (Full)：CTR +0.60% / CVR +1.19% / OPM +1.78% / GPM +0.52%

这组结果说明非常多东西。

第一，它证明这条线的主角不是“把 CTR 顶到最高”。

第二，它直接说明：

只靠 posterior reward，policy 很容易过拟合直接 engagement signal

第三，它也证明 R_prior + R_format 的作用不是锦上添花，而是：

把 scalarization policy 从 click-seeking 拉回更平衡的 business objective

这和 SaFRO 的区别也很值得单独记。

SaFRO 更强调：

query-level satisfaction constructor
batch-quality modulation
task-relation topology

而 GRADE 更早、更轻，也更基础：

不先重写 task relation
不先构造新的 satisfaction proxy
而是直接让融合权重自己变成一个 critic-free policy，并用 reward mixture 约束它不要学歪

所以它更适合被写成：

fusion policy 早期路线里的 weight-simplex controller

它的线上结果说明，这不是理论 demo，而是快手生产排序栈里的真 controller

论文的工业信号也足够硬。

摘要和 4.4 写得都很明确：

数据来自快手电商搜索
离线数据规模是 1.8B user search sessions
线上场景是一个 hundreds of millions DAU 的 app marketplace
最后已经 full deployed 到 Kuaishou marketplace search

主结果也有两层。

离线 Table 1 说明它不是在所有目标上暴力通吃，而是更擅长 conversion/revenue-oriented balance：

SP 在 CTR 上最高，为 0.632
GRADE 则在 CVR / CTCVR / GPM 上最好，分别达到 0.782 / 0.697 / 0.895

也就是说，GRADE 不追求局部 click 最优，而是在更高层做目标平衡。

线上 Table 2 更直接：

SP：CTR +0.73% / CVR +0.03% / OPM +0.56% / GPM +0.08%
GRADE：CTR +0.60% / CVR +1.19% / OPM +1.78% / GPM +0.52%

这再次说明它的核心收益更偏：

business-value-oriented scalarization

而不是单纯点击。

公开材料里还有一个很值得记的小缝：摘要和 `Table 2` 的第四个线上指标没有完全对齐

这篇 paper 还有一个很适合写进长期 memory 的小观察。

摘要写的是：

CTR +0.595%
CVR +1.193%
OPM +1.788%
total order volume +1.568%

但正文 Table 2 给出的四个在线指标却是：

CTR +0.60%
CVR +1.19%
OPM +1.78%
GPM +0.52%

前三项只是四舍五入差异，第四项则不是同一个指标。

这不影响我们确认它有真实线上收益，但会影响：

我们到底该在来源池里记录哪一项作为可复核公开口径

因此这条线在 source note 里最好显式记成：

abstract-table metric mismatch

后续如果再补到更完整的正式会议版本或官方博客，再决定第四项在线指标该优先记录哪一个。

当前公开边界仍偏 `paper-first`，中文传播层也明显落后于一手来源

我继续做了两类核验。

第一类是代码边界。

我直接对 GitHub API 检了：

论文全标题
arXiv id 2510.07919
Adaptive Dirichlet Exploration

截至 2026-03-25，都没有返回稳定官方 repo。

因此当前更准确的公开定位仍然是：

industrial paper-first route

第二类是中文传播层。

这一轮继续补做：

2510.07919 推荐中文
GRADE 多任务融合推荐强化学习
site:xiaohongshu.com 2510.07919
xhslink 2510.07919

结果能稳定回出的仍主要是：

arXiv 原始入口
泛多目标融合背景文
较早的快手 RL 多任务 talk

也就是说，截至 2026-03-25，我还没有拿到稳定高价值的 GRADE 中文机制稿或可复用 xhslink。

当前判断仍应以论文摘要页、HTML、PDF 和 GitHub API 为准。

证据与来源

GRADE: Personalized Multi-Task Fusion via Group-relative Reinforcement Learning with Adaptive Dirichlet Exploration：arXiv 摘要页。主入口，可直接核对 critic-free GRPO、Dirichlet exploration、快手部署和摘要里的线上指标。
GRADE arXiv HTML：正文关键入口。3.1-3.2 可核 item-agnostic weight policy、Dirichlet 在 simplex 上的探索逻辑与 posterior + prior + format 复合奖励；4.3-4.5 给出离线/在线结果与 ablation。
GRADE PDF：用于复核作者 affiliation、Table 1-4 的具体数值，以及摘要与 Table 2 第四项在线指标的公开口径错位。
GitHub API 检索论文全标题、2510.07919 与 Adaptive Dirichlet Exploration：截至 2026-03-25，未见稳定官方 repo。

下一步

把 GRADE / SaFRO / FlexRec / IB-GRPO 压到同一张目标侧观察表里，新增 scalarization owner / exploration geometry / weight-simplex prior / reward anti-hacking regularizer 四列，避免继续把目标切换、Pareto 聚合、满意度融合和权重搜索写成一种问题。
继续跟踪 GRADE 是否补出正式会议版、官方博客或代码入口，尤其要核对第四个线上指标最终到底应记成 GPM 还是 total order volume。
如果后续能补到更稳定中文材料，再比较它和现有多任务融合中文技术稿的关系，单独补一条“工业 MTF 中文传播层是否开始跟上 LLM-RL 叙事”的观察线。

GRADE：多目标融合不只要会个性化，还得先学会在权重单纯形里探索

背景

核心判断

这条线真正新增的，不是“又一个多目标 RL”，而是 scalarization owner

这条线最关键的技术点，不是 GRPO 本身，而是 weight-simplex exploration

它真正要修的不是“reward 太弱”这么泛，而是 sparse posterior reward + weight polarization

Table 4 的 ablation 很关键：full model 少拿一点 CTR，却明显避免了 reward hacking