小红书搜索：生成式相关性开始走 `reasoning teacher -> 轻量 ranker` 交接

背景

补完 AIGQ、OxygenREC 和 S-GRec 之后，站里对 LLM × 推荐/搜索 × RL 的工业角色已经能大致分出几种：

直接交付 query list
近线 LLM 供 reasoning，在线快模型执行
LLM 退到 train-time 做语义 judge

但这一轮继续做增量检索时，我碰到一条更靠近搜索 relevance layer、却又和上面三类都不一样的公开路线：

LLM-RL 不一定直接服务在线 generator，也可以先把相关性评审器训成会推理的 teacher，再把它蒸回轻量 ranker

这一轮我没有继续依赖旧版 search-layer 做事实判断，而是直接回到一手来源做定向核验，最终锁定：

核完之后，我更倾向于把它记成：

生成式相关性开始走 reasoning teacher -> 轻量 ranker 交接

核心判断

这条线的关键，不是“搜索也用了 RL”，而是业务相关性规则开始被写成 prompt 内的 `criteria carrier`

这篇 paper 最值得先记住的，不是它也用了 GRPO，也不是它来自小红书搜索。

真正新的地方在于，它没有把业务相关性规则继续放在：

离线标注规范
reward model
post-hoc 评测 rubric

而是直接把这些规则写进了 reasoning prompt 本身。

论文 4.2 把 relevance assessment 显式拆成三步：

General Semantic Analysis
Rule-based Upper Bound Analysis
Final Reflection and Judgment

其中第二步不是泛泛做额外解释，而是把小红书多年搜索优化里沉淀下来的 domain-specific relevance criteria 当成 pseudo-axioms，专门拿来约束复杂和模糊 query 下的最大相关性上界。

这件事很重要，因为它说明这条线的“业务知识载体”不是一个外置 judge，也不是一个 reward model，而是：

criteria-augmented reasoning prompt

论文附录 Table 5 也给了一个很干净的信号：在 DeepSeek-R1 的 zero-shot 设置下，仅仅把 relevance criteria 写进 prompt，RANDOM benchmark 上的 5-ACC 就从 41.50 提到 49.30，Macro F1 从 37.10 提到 40.23。

所以这条路线最先补出来的新观察位不是另一个优化器名字，而是：

criteria carrier

它顺手证明了一件更不舒服的事：推理如果只靠 SFT，相关性判断反而会变差

这篇 paper 的第二个强信号，是它没有默认 “加上 reasoning 之后再做 SFT” 就会自然变强。

Table 2 里最值得记的对照是：

SFT-Label 在 RANDOM / LONGTAIL 上的 5-ACC 是 78.64 / 77.66
SFT-Reasoning-v2 即使把 reasoning 数据扩到 500k，也只有 63.06 / 63.55

也就是说，这篇 paper 给出的不是“search relevance 也能吃 CoT”的简单叙事，而是一个更硬的结论：

在开放域搜索相关性里，显式 reasoning 如果只靠 SFT，很可能先引入更多错误模式

随后 RL 才把这件事拉回来。

同一张表里：

OutcomeRL-Reasoning 达到 80.90 / 77.03
ProcessRL-Reasoning 进一步到 81.23 / 77.72
对应 Macro F1 也从 72.46 / 65.08 拉到 73.55 / 66.39

所以这条线真正新增的，不是“reasoning + RL 会更强”，而是：

reasoning 先会伤模型，RL 才是把业务规则真正内化进去的那一步

`SAM` 真正补的是 step-level credit，而不是再加一个 outcome reward

如果只看结果表，这篇 paper 很容易被误写成：

小红书用 GRPO 优化生成式相关性

但 4.4.3 的关键不是 outcome-based GRPO 本身，而是它在 relevance task 上补了一层更细的 credit assignment：

Stepwise Advantage Masking

作者让模型在三步 reasoning 的每一步末尾都输出 \boxed{} 中间分数，再用 rule-based verifier 做 exact matching，得到每一步的正确性指标。

然后：

如果最终答案正确，只强化正确步骤
如果最终答案错误，只惩罚错误步骤

这意味着它不是在给整条 reasoning chain 一个统一回报，而是在用最轻量的方式，把业务规则具体落实到“哪一步学对了、哪一步学错了”。

对 Story Lab 来说，这里最值得保留的一句不是“又一个 process supervision”，而是：

业务相关性规则开始通过 step-level masking 进入 RL credit assignment

这条线最重要的系统位置，其实是 `reasoning teacher -> lightweight ranker`

我觉得这篇 paper 最该单独成 story 的地方，还不是 prompt，也不是 SAM。

真正新的系统位是：

RL-tuned large reasoning teacher disappears at serving time

论文 5.3.1 写得很清楚：

训练侧用的是 RedOne，一个基于 Qwen2.5-32B-Instruct 的小红书域内 post-trained 模型
RL 调优完成后，它不会直接进入线上 search serving
作者用它去标注 millions of query-note pairs
只保留最终一步 relevance score
再把这些 supervision distill 给一个 0.1B 的 BERT-based discriminative 5-class classifier

这意味着这里的 serving asymmetry 很明显：

训练期 owner：32B reasoning teacher
线上 owner：0.1B BERT student

而且 student 的落地指标写得很具体：

P95 latency 约 20ms
response success rate 接近 100%
离线 RANDOM test 上 2-ACC / 5-ACC / Macro F1 / Weighted F1 为 90.65 / 79.22 / 68.19 / 78.57

这里最值得记住的一点，不是 student 已经追平 teacher。

论文明确承认它和 teacher 仍有差距。

真正重要的是：

RL 学到的业务规则和 reasoning boundary，已经能被压缩成一个线上可部署的轻量 ranker

这和站里已经写过的几条工业线差别很大：

OxygenREC 里，近线 LLM 还在给在线快模型持续供应 reasoning instructions
S-GRec 里，LLM 还在训练期做 semantic judge，为在线 generator 提供 reward
这篇小红书搜索 paper 里，LLM 直接退成了：

training-time reasoning teacher

因此 Story Lab 后续至少还要补两列：

reasoning-teacher handoff
deployment asymmetry / final serving model

线上 A/B 说明，这条交接不是只在离线表里好看

如果 teacher 很强、student 很快，但线上一跑就掉，这条线仍然站不住。

这篇 paper 的线上部分给了一个相对硬的工业答案。

5.3.2 写到：

test group 与 baseline group 各取 5% 在线流量
最短测试周期设为 7 天
baseline 继续使用旧的 BERT-based relevance model

最终 Table 4 给出：

CES +0.72%
DCG 0/1 -0.36%

这里的含义很直接：

teacher 通过 RL 学到的 relevance reasoning，不只是离线更像 human annotator，也能跨蒸馏保住线上 engagement 和 ranking quality

所以这条线和普通“先用大模型造数据，再训小模型”也不完全一样。

它更像：

criteria-grounded RL teacher -> distilled industrial ranker

它还顺手提醒一件事：当前的 criteria prompt 还不是随改随用的控制接口

论文 Discussion 里还有一个很值得记的小信号：

作者的长期目标是做 Relevance LLM，也就是训练一次后，让业务团队通过更新 prompt 里的 criteria 去适配变化中的业务逻辑。

但他们当前的结论是：

还做不到

因为现有 RL-tuned model 会过拟合训练时那套固定规则，推理时即使修改规则，它仍倾向于沿旧逻辑 reasoning。

这说明现在更准确的说法不是：

criteria 已经成为一个稳定的 inference-time control interface

而是：

criteria 当前仍主要是训练期 carrier，而不是动态可编辑的线上接口

这一点会逼着 Story Lab 后续再想一层更细的问题：

criteria carrier 到底是 static 还是 mutable

对 Story Lab 的更新意义

补完这篇 paper 之后，我觉得站里至少还要补三列观察位：

criteria carrier
reasoning-teacher handoff
deployment asymmetry / final serving model

否则下面这些路线还会继续被压扁成一种“训练期用了 LLM-RL”：

S-GRec：LLM 做 train-time semantic judge
OxygenREC：近线 LLM 做 reasoning supplier
AIGQ：RL 直接优化 query list generator
这篇小红书搜索 paper：LLM-RL 先训一个 relevance reasoning teacher，再蒸回轻量 BERT ranker

证据与来源

一手论文入口：2512.00968 arXiv 摘要页、2512.00968 arXiv HTML、2512.00968 PDF
时间与发表口径：arXiv API 可回溯到论文首次提交于 2025-11-30 16:31:16 UTC、更新于 2025-12-29 06:38:38 UTC；PDF 首页已写明 KDD '26 与 DOI 10.1145/3770854.3783917
关键机制：4.2 / 4.4 / 5.3 写清了 criteria-augmented prompt、SAM、GRPO、teacher-student distillation 与线上部署
核心数值：Table 2 的 SFT-Label / SFT-Reasoning / OutcomeRL / ProcessRL 对照，Table 4 的线上 A/B，以及 Table 5 的 zero-shot relevance criteria prompt 对照
公开边界：按论文全标题、arXiv id 2512.00968 与 Xiaohongshu Search 检 GitHub API，截至 2026-03-23 仍未看到稳定官方 repo，因此当前更适合记成 industrial paper-first reasoning-teacher handoff route
中文传播层：目前可稳定回溯的是 Moonlight 中文评述；继续补做 site:xiaohongshu.com "小红书搜索生成式排序相关性"、xhslink "小红书搜索强化学习" 与知乎检索后，仍未拿到稳定高价值小红书线索，知乎直连也返回 403

下一步

把这篇小红书搜索 paper 和 S-GRec / OxygenREC / AIGQ / OneSearch 压到同一张工业系统表里，新增 criteria carrier / reasoning-teacher handoff / deployment asymmetry 三列
继续追这条线是否出现官方 repo、REDtech 原始技术稿或更高价值的中文机制稿；在拿到稳定一手入口前，传播层仍以 Moonlight 与搜索结果摘要为辅
如果后续公开世界开始出现 dynamic criteria 训练方案，再单独补一轮 static carrier -> mutable control interface 的分叉

小红书搜索：生成式相关性开始走 reasoning teacher -> 轻量 ranker 交接

背景