SaFRO:短视频搜索的多任务融合开始被写成满意度 policy
背景
补完站里现有的 SearchLLM、小红书搜索 relevance teacher -> 轻量 ranker、S-GRec 和 IB-GRPO 之后,我发现站里虽然已经把:
reward governancereasoning teacher -> student handofftrain-time semantic judgePareto-style objective aggregation
拆得比较细,但工业搜索栈里还有一个此前没被单独记成层的位置:
多任务预测头最后是怎样被融合成一个 ranking score 的?
过去很多公开路线默认把这一步写成:
- 若干 task head 先预测
CTR / long-play / duration / relevance - 再用固定权重、规则或轻量融合器把它们合成一个最终分数
也就是说,大家更常把融合层看成一个静态后处理器,而不是一个会被长期目标直接优化的 policy。
这一轮我先用本地 search-layer 做 exact-title / 中文检索,确认中文传播层几乎还是空的;随后回到 arXiv 摘要页、HTML、PDF 与 GitHub API 做一手核验,最终锁定:
SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video SearchSaFROarXiv HTMLSaFROPDF
核完之后,我更倾向于把它记成:
短视频搜索的多任务融合开始被写成满意度 policy
核心判断
这条线真正新增的,不是“又一个搜索 RL 模型”,而是 multi-task fusion 本身开始被当成 policy 学习
SaFRO 最值得单独成文的一点,是它没有继续把 RL 压在:
- 生成 query 的上游模型
- 在线 answer synthesis
- train-time semantic judge
- teacher-student distillation
这些更显眼的位置上。
它真正改写的是搜索排序栈内部那层经常被默认成工程细节的模块:
Multi-Task Fusion
论文开头就把问题写得很明确。工业短视频搜索里,系统通常会同时预测:
clicklong-playdurationrelevance
但这些信号并不天然等价于长期满意度。静态融合器虽然能吃到即时 engagement,却不一定能对齐长期满意、回访和平台忠诚度。
因此 SaFRO 真正新增的系统位不是“又一个 RL ranker”,而是:
fusion policy
也就是:
到底该怎样根据 query、user 和 candidate context,动态决定各个目标头在当前请求里各占多少权重。
这对 Story Lab 很重要,因为它说明搜索/推荐里的 LLM-RL 协同不只会发生在 generator、judge 或 teacher 这些“看起来像 AI 的地方”,也可能发生在传统工业排序栈内部最核心、但最容易被忽略的 score fusion 层。
它把满意度 reward 的 owner 前推到 query level,而不是继续停在 item-level click 上
SaFRO 第二个值得记住的点,是它没有把长期满意度继续粗暴写成 session 末端的黑箱标签,也没有直接拿次日留存当唯一 reward。
它先构造了一个 satisfaction-aware reward model,核心依赖三类 query-level 线索:
query reformulationnormalized session gapnext-day retention
其中最关键的是这两个 query-level proxy:
query reformulation被当成强负信号session gap被当成 retention 的连续代理
论文 4.2 直接说明:
- 如果用户看完结果后很快改写 query,往往意味着 intent 没被满足
- retained users 会表现出更低的 reformulation rate 和更短的 session gap
更细一点,它还不是直接拿原始 session gap,而是先按用户自己的历史分位数做归一化。论文写 beta = 60%,先用用户个人历史 60% 分位的 gap 作为 baseline,再做指数衰减压缩。
最终的 r_sat 也不是简单求和,而是:
- 用
alpha平衡连续的 gap proxy 和二值的次日 retention - 再乘上
(1 - I_reform)
这意味着一旦 query 发生 reformulation,这一轮满意度奖励会被直接压成 0。
我觉得这是这篇 paper 最值得长期记住的地方之一:
满意度 constructor 在这里不是 item-level click 的线性延伸,而是 query intent fulfillment + retention tendency 的联合建模。
所以它补出的新观察位,不只是“有没有 satisfaction reward”,而是:
satisfaction constructorquery-level retention proxyproxy horizon
否则后面很容易把 ECPO 的 dissatisfaction constructor、SearchLLM 的 evidence-conditioned reward owner、S-GRec 的 semantic judge 和 SaFRO 的 search-log-derived satisfaction constructor,又写成同一种“奖励设计”。
DRPO 的关键不是又一个 PPO 变体,而是把梯度预算从低质量 query 挪向高质量 query
如果只看摘要,很容易把 DRPO 误解成又一个 GRPO / PPO 变体。
但正文里它真正要修的问题更具体:
搜索场景里 query 之间质量差异很大,直接按组内相对优势更新,会把很多梯度浪费在低质量 query 上。
因此 Dual-Relative Policy Optimization 做了两层相对比较:
within-groupacross-batch
也就是不仅看同一 query 采样出来的候选动作之间谁更好,还要看这整个 query 相对 batch 均值到底是高质量还是低质量。
论文 4.3 和 Figure 5 的关键结论是:
DRPO会保留组内 preference direction- 但会通过 batch-relative shift,把优势分布整体上移或下移
- 高质量 query 会拿到更强梯度
- 低质量 query 的梯度会被抑制
这让它和普通 GRPO 的差别变得很具体:
不是只在 query 内做相对排序,而是开始在 batch 级别判断“这类 query 值不值得继续花优化预算”。
我会把这层记成:
batch-quality modulation
因为它补的不是通用 RL 技巧,而是搜索场景里一个很现实的工业问题:
同样一单位训练预算,不同 query 的可学价值并不相同。
TRAF 说明 objective fusion 也有自己的结构拓扑,而不只是几个 head 加权求和
SaFRO 第三个很值得单独记的点,是它没有停在“reward 做好了,RL 自然会学会融合”。
论文 4.4 又专门加了一层:
Task-Relation-Aware Fusion (TRAF)
这层修的问题也很明确:以往很多方法给每个 objective 单独分配权重,但忽略了不同任务之间本身有关系。
TRAF 的做法是:
- 先把隐状态投影成 task-specific embeddings
- 再通过任务两两内积得到 interaction scores
- 用这些 interaction scores 对 base logits 做 attention-style 聚合
- 再配上 gated residual,得到 refined logits
也就是说,它不再假设:
CTR / long-play / duration / relevance
只是四个彼此独立、最后做线性加权的头。
它显式承认:
objective relation topology
本身就是一个要学的对象。
这对 Story Lab 的方法表也很关键,因为过去我们很容易只记:
scalarizationPareto dominanceper-reward normalizationgate-before-utility
但 SaFRO 说明还不够。
后面至少还要再补:
fusion policy locustask-relation topologycontext-sensitive weight adaptation
否则 IB-GRPO / SearchLLM / SafeCRS / SaFRO 会继续被写成同一种“多目标优化”。
它的线上价值,说明这不是 reward 分析论文,而是生产搜索栈里的 fusion controller
SaFRO 的工业信号也很硬。
论文 5.1 直接给出数据规模:
- 来自快手短视频搜索
400Musers806Mitems2.15Bsessions
离线 Table 1 也不是只在单个指标上取巧,而是同时把短期 ranking 和长期满意度都往前推。SaFRO 达到:
Average NDCG = 0.7102Satisfaction Score = 0.8656User Retention = 0.8173
相比强基线:
- 高于
DCN的0.7037 / 0.8422 / 0.8054 - 也高于
AURO的0.7040 / 0.8467 / 0.8026
更关键的是线上实验。
论文 5.4 直接写到:
- 在快手生产搜索系统里做了两个月
- 分配了
10%总搜索流量 - baseline 是面向 user engagement 的
DDPG
结果 Table 3 给出:
QRR -0.319%CTR +0.136%LPR +0.495%Watch Time +0.611%
同时 Figure 8 还显示,和 baseline 相比,SaFRO 的 retention 曲线会在 60 天窗口里持续向上分离。
所以它更适合被记成:
industrial satisfaction-aware fusion controller
而不是:
- 普通搜索 reranker
- 普通 reward shaping
- 普通 retention paper
对 Story Lab 的意义
SaFRO 补出的不是一条新 benchmark,而是一组此前站里没有单独记开的观察位:
fusion policy locus:对齐发生在 generator、teacher、judge 还是 fusion 层satisfaction constructor:满意度到底是来自 query log proxy、semantic judge 还是 simulated userquery-level retention proxy:长期目标是不是先被压到 query 这一层batch-quality modulation:优化预算会不会因 query 质量不同而再分配task-relation topology:objective 之间的关系是不是被显式建模
如果不补这几列,后面很容易把这些路线又压回同一种搜索/推荐对齐:
SearchLLM更像reward governance contract小红书搜索 relevance teacher更像criteria-grounded reasoning teacher -> light studentS-GRec更像train-time semantic judgeSaFRO则是在multi-task fusion layer上直接学满意度 policy
这四条线的 consumer 其实已经完全不同。
公开边界与中文传播层
这条线当前的公开边界也比较清楚。
我这轮直接按以下三组关键词做了 GitHub API 检索:
- 论文全标题
SaFRO short-video search2603.19585
截至 2026-03-24,都没有返回稳定官方 repo。
所以当前更适合把它记成:
industrial paper-first satisfaction-aware fusion-policy route
而不是“已公开 workflow”。
中文传播层目前也明显偏弱。
这轮我继续补做了:
SaFRO short-video search 中文site:xiaohongshu.com SaFRO 搜索xhslink SaFRO 搜索2603.19585 中文
稳定结果基本还是:
- arXiv 摘要页
- arXiv HTML
- arXiv PDF
- 少量泛快手搜索/推荐讨论页
还没有拿到稳定高价值中文机制稿,也没有可复用的小红书线索。
所以截至 2026-03-24,这条线仍应以论文、HTML、PDF 与 GitHub API 为准。
证据与来源
SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search:摘要页明确给出query-level behavioral proxies、DRPO、TRAF、快手短视频搜索线上A/B这些关键信号。SaFROarXiv HTML:用于核对4.2的query reformulation + normalized session gap + next-day retention、4.3的 dual-relative advantage、4.4的 task-relation modeling,以及5.4的两个月线上实验。SaFROPDF:用于复核数据规模400M users / 806M items / 2.15B sessions、Table 1的离线最优结果,以及Table 3的QRR / CTR / LPR / Watch Time线上指标。- GitHub API 定向检索:按论文全标题、
SaFRO short-video search与 arXiv id2603.19585检索,截至2026-03-24仍未看到稳定官方实现仓。 - 本地
search-layer定向检索:"SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search"、site:xiaohongshu.com SaFRO 搜索、xhslink SaFRO 搜索与2603.19585 中文的结果显示中文传播层仍明显滞后,尚不足以替代一手材料。
下一步
- 把
SaFRO / SearchLLM / 小红书搜索 relevance teacher / S-GRec / IB-GRPO压到同一张搜索/推荐 alignment 观察表里,新增fusion policy locus / satisfaction constructor / query-level retention proxy / batch-quality modulation / task-relation topology五列。 - 继续追这条线是否出现官方仓、技术博客、Slides,或者更强的中文机制稿与稳定
xhslink;在这之前,不让传播层材料覆盖一手事实判断。