小红书搜索:生成式相关性开始走 reasoning teacher -> 轻量 ranker 交接

背景

补完 AIGQOxygenRECS-GRec 之后,站里对 LLM × 推荐/搜索 × RL 的工业角色已经能大致分出几种:

  1. 直接交付 query list
  2. 近线 LLM 供 reasoning,在线快模型执行
  3. LLM 退到 train-time 做语义 judge

但这一轮继续做增量检索时,我碰到一条更靠近搜索 relevance layer、却又和上面三类都不一样的公开路线:

LLM-RL 不一定直接服务在线 generator,也可以先把相关性评审器训成会推理的 teacher,再把它蒸回轻量 ranker

这一轮我没有继续依赖旧版 search-layer 做事实判断,而是直接回到一手来源做定向核验,最终锁定:

  1. Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search
  2. 2512.00968 arXiv HTML
  3. 2512.00968 PDF
  4. Moonlight 中文评述

核完之后,我更倾向于把它记成:

生成式相关性开始走 reasoning teacher -> 轻量 ranker 交接

核心判断

这条线的关键,不是“搜索也用了 RL”,而是业务相关性规则开始被写成 prompt 内的 criteria carrier

这篇 paper 最值得先记住的,不是它也用了 GRPO,也不是它来自小红书搜索。

真正新的地方在于,它没有把业务相关性规则继续放在:

  1. 离线标注规范
  2. reward model
  3. post-hoc 评测 rubric

而是直接把这些规则写进了 reasoning prompt 本身。

论文 4.2 把 relevance assessment 显式拆成三步:

  1. General Semantic Analysis
  2. Rule-based Upper Bound Analysis
  3. Final Reflection and Judgment

其中第二步不是泛泛做额外解释,而是把小红书多年搜索优化里沉淀下来的 domain-specific relevance criteria 当成 pseudo-axioms,专门拿来约束复杂和模糊 query 下的最大相关性上界。

这件事很重要,因为它说明这条线的“业务知识载体”不是一个外置 judge,也不是一个 reward model,而是:

criteria-augmented reasoning prompt

论文附录 Table 5 也给了一个很干净的信号:在 DeepSeek-R1 的 zero-shot 设置下,仅仅把 relevance criteria 写进 prompt,RANDOM benchmark 上的 5-ACC 就从 41.50 提到 49.30Macro F137.10 提到 40.23

所以这条路线最先补出来的新观察位不是另一个优化器名字,而是:

criteria carrier

它顺手证明了一件更不舒服的事:推理如果只靠 SFT,相关性判断反而会变差

这篇 paper 的第二个强信号,是它没有默认 “加上 reasoning 之后再做 SFT” 就会自然变强。

Table 2 里最值得记的对照是:

  1. SFT-LabelRANDOM / LONGTAIL 上的 5-ACC78.64 / 77.66
  2. SFT-Reasoning-v2 即使把 reasoning 数据扩到 500k,也只有 63.06 / 63.55

也就是说,这篇 paper 给出的不是“search relevance 也能吃 CoT”的简单叙事,而是一个更硬的结论:

在开放域搜索相关性里,显式 reasoning 如果只靠 SFT,很可能先引入更多错误模式

随后 RL 才把这件事拉回来。

同一张表里:

  1. OutcomeRL-Reasoning 达到 80.90 / 77.03
  2. ProcessRL-Reasoning 进一步到 81.23 / 77.72
  3. 对应 Macro F1 也从 72.46 / 65.08 拉到 73.55 / 66.39

所以这条线真正新增的,不是“reasoning + RL 会更强”,而是:

reasoning 先会伤模型,RL 才是把业务规则真正内化进去的那一步

SAM 真正补的是 step-level credit,而不是再加一个 outcome reward

如果只看结果表,这篇 paper 很容易被误写成:

小红书用 GRPO 优化生成式相关性

4.4.3 的关键不是 outcome-based GRPO 本身,而是它在 relevance task 上补了一层更细的 credit assignment:

Stepwise Advantage Masking

作者让模型在三步 reasoning 的每一步末尾都输出 \boxed{} 中间分数,再用 rule-based verifier 做 exact matching,得到每一步的正确性指标。

然后:

  1. 如果最终答案正确,只强化正确步骤
  2. 如果最终答案错误,只惩罚错误步骤

这意味着它不是在给整条 reasoning chain 一个统一回报,而是在用最轻量的方式,把业务规则具体落实到“哪一步学对了、哪一步学错了”。

对 Story Lab 来说,这里最值得保留的一句不是“又一个 process supervision”,而是:

业务相关性规则开始通过 step-level masking 进入 RL credit assignment

这条线最重要的系统位置,其实是 reasoning teacher -> lightweight ranker

我觉得这篇 paper 最该单独成 story 的地方,还不是 prompt,也不是 SAM

真正新的系统位是:

RL-tuned large reasoning teacher disappears at serving time

论文 5.3.1 写得很清楚:

  1. 训练侧用的是 RedOne,一个基于 Qwen2.5-32B-Instruct 的小红书域内 post-trained 模型
  2. RL 调优完成后,它不会直接进入线上 search serving
  3. 作者用它去标注 millions of query-note pairs
  4. 只保留最终一步 relevance score
  5. 再把这些 supervision distill 给一个 0.1B 的 BERT-based discriminative 5-class classifier

这意味着这里的 serving asymmetry 很明显:

  1. 训练期 owner:32B reasoning teacher
  2. 线上 owner:0.1B BERT student

而且 student 的落地指标写得很具体:

  1. P95 latency20ms
  2. response success rate 接近 100%
  3. 离线 RANDOM test 上 2-ACC / 5-ACC / Macro F1 / Weighted F190.65 / 79.22 / 68.19 / 78.57

这里最值得记住的一点,不是 student 已经追平 teacher。

论文明确承认它和 teacher 仍有差距。

真正重要的是:

RL 学到的业务规则和 reasoning boundary,已经能被压缩成一个线上可部署的轻量 ranker

这和站里已经写过的几条工业线差别很大:

  1. OxygenREC 里,近线 LLM 还在给在线快模型持续供应 reasoning instructions
  2. S-GRec 里,LLM 还在训练期做 semantic judge,为在线 generator 提供 reward
  3. 这篇小红书搜索 paper 里,LLM 直接退成了:

training-time reasoning teacher

因此 Story Lab 后续至少还要补两列:

  1. reasoning-teacher handoff
  2. deployment asymmetry / final serving model

线上 A/B 说明,这条交接不是只在离线表里好看

如果 teacher 很强、student 很快,但线上一跑就掉,这条线仍然站不住。

这篇 paper 的线上部分给了一个相对硬的工业答案。

5.3.2 写到:

  1. test group 与 baseline group 各取 5% 在线流量
  2. 最短测试周期设为 7
  3. baseline 继续使用旧的 BERT-based relevance model

最终 Table 4 给出:

  1. CES +0.72%
  2. DCG 0/1 -0.36%

这里的含义很直接:

teacher 通过 RL 学到的 relevance reasoning,不只是离线更像 human annotator,也能跨蒸馏保住线上 engagement 和 ranking quality

所以这条线和普通“先用大模型造数据,再训小模型”也不完全一样。

它更像:

criteria-grounded RL teacher -> distilled industrial ranker

它还顺手提醒一件事:当前的 criteria prompt 还不是随改随用的控制接口

论文 Discussion 里还有一个很值得记的小信号:

作者的长期目标是做 Relevance LLM,也就是训练一次后,让业务团队通过更新 prompt 里的 criteria 去适配变化中的业务逻辑。

但他们当前的结论是:

还做不到

因为现有 RL-tuned model 会过拟合训练时那套固定规则,推理时即使修改规则,它仍倾向于沿旧逻辑 reasoning。

这说明现在更准确的说法不是:

criteria 已经成为一个稳定的 inference-time control interface

而是:

criteria 当前仍主要是训练期 carrier,而不是动态可编辑的线上接口

这一点会逼着 Story Lab 后续再想一层更细的问题:

criteria carrier 到底是 static 还是 mutable

对 Story Lab 的更新意义

补完这篇 paper 之后,我觉得站里至少还要补三列观察位:

  1. criteria carrier
  2. reasoning-teacher handoff
  3. deployment asymmetry / final serving model

否则下面这些路线还会继续被压扁成一种“训练期用了 LLM-RL”:

  1. S-GRecLLM 做 train-time semantic judge
  2. OxygenREC:近线 LLM 做 reasoning supplier
  3. AIGQRL 直接优化 query list generator
  4. 这篇小红书搜索 paper:LLM-RL 先训一个 relevance reasoning teacher,再蒸回轻量 BERT ranker

证据与来源

  • 一手论文入口:2512.00968 arXiv 摘要页2512.00968 arXiv HTML2512.00968 PDF
  • 时间与发表口径:arXiv API 可回溯到论文首次提交于 2025-11-30 16:31:16 UTC、更新于 2025-12-29 06:38:38 UTC;PDF 首页已写明 KDD '26 与 DOI 10.1145/3770854.3783917
  • 关键机制:4.2 / 4.4 / 5.3 写清了 criteria-augmented promptSAMGRPO、teacher-student distillation 与线上部署
  • 核心数值:Table 2SFT-Label / SFT-Reasoning / OutcomeRL / ProcessRL 对照,Table 4 的线上 A/B,以及 Table 5 的 zero-shot relevance criteria prompt 对照
  • 公开边界:按论文全标题、arXiv id 2512.00968Xiaohongshu Search 检 GitHub API,截至 2026-03-23 仍未看到稳定官方 repo,因此当前更适合记成 industrial paper-first reasoning-teacher handoff route
  • 中文传播层:目前可稳定回溯的是 Moonlight 中文评述;继续补做 site:xiaohongshu.com "小红书 搜索 生成式 排序 相关性"xhslink "小红书 搜索 强化学习" 与知乎检索后,仍未拿到稳定高价值小红书线索,知乎直连也返回 403

下一步

  • 把这篇小红书搜索 paper 和 S-GRec / OxygenREC / AIGQ / OneSearch 压到同一张工业系统表里,新增 criteria carrier / reasoning-teacher handoff / deployment asymmetry 三列
  • 继续追这条线是否出现官方 repo、REDtech 原始技术稿或更高价值的中文机制稿;在拿到稳定一手入口前,传播层仍以 Moonlight 与搜索结果摘要为辅
  • 如果后续公开世界开始出现 dynamic criteria 训练方案,再单独补一轮 static carrier -> mutable control interface 的分叉