小红书搜索:生成式相关性开始走 reasoning teacher -> 轻量 ranker 交接
背景
补完 AIGQ、OxygenREC 和 S-GRec 之后,站里对 LLM × 推荐/搜索 × RL 的工业角色已经能大致分出几种:
- 直接交付
query list - 近线
LLM供 reasoning,在线快模型执行 LLM退到 train-time 做语义 judge
但这一轮继续做增量检索时,我碰到一条更靠近搜索 relevance layer、却又和上面三类都不一样的公开路线:
LLM-RL 不一定直接服务在线 generator,也可以先把相关性评审器训成会推理的 teacher,再把它蒸回轻量 ranker
这一轮我没有继续依赖旧版 search-layer 做事实判断,而是直接回到一手来源做定向核验,最终锁定:
Optimizing Generative Ranking Relevance via Reinforcement Learning in Xiaohongshu Search2512.00968arXiv HTML2512.00968PDF- Moonlight 中文评述
核完之后,我更倾向于把它记成:
生成式相关性开始走 reasoning teacher -> 轻量 ranker 交接
核心判断
这条线的关键,不是“搜索也用了 RL”,而是业务相关性规则开始被写成 prompt 内的 criteria carrier
这篇 paper 最值得先记住的,不是它也用了 GRPO,也不是它来自小红书搜索。
真正新的地方在于,它没有把业务相关性规则继续放在:
- 离线标注规范
- reward model
- post-hoc 评测 rubric
而是直接把这些规则写进了 reasoning prompt 本身。
论文 4.2 把 relevance assessment 显式拆成三步:
General Semantic AnalysisRule-based Upper Bound AnalysisFinal Reflection and Judgment
其中第二步不是泛泛做额外解释,而是把小红书多年搜索优化里沉淀下来的 domain-specific relevance criteria 当成 pseudo-axioms,专门拿来约束复杂和模糊 query 下的最大相关性上界。
这件事很重要,因为它说明这条线的“业务知识载体”不是一个外置 judge,也不是一个 reward model,而是:
criteria-augmented reasoning prompt
论文附录 Table 5 也给了一个很干净的信号:在 DeepSeek-R1 的 zero-shot 设置下,仅仅把 relevance criteria 写进 prompt,RANDOM benchmark 上的 5-ACC 就从 41.50 提到 49.30,Macro F1 从 37.10 提到 40.23。
所以这条路线最先补出来的新观察位不是另一个优化器名字,而是:
criteria carrier
它顺手证明了一件更不舒服的事:推理如果只靠 SFT,相关性判断反而会变差
这篇 paper 的第二个强信号,是它没有默认 “加上 reasoning 之后再做 SFT” 就会自然变强。
Table 2 里最值得记的对照是:
SFT-Label在RANDOM / LONGTAIL上的5-ACC是78.64 / 77.66SFT-Reasoning-v2即使把 reasoning 数据扩到500k,也只有63.06 / 63.55
也就是说,这篇 paper 给出的不是“search relevance 也能吃 CoT”的简单叙事,而是一个更硬的结论:
在开放域搜索相关性里,显式 reasoning 如果只靠 SFT,很可能先引入更多错误模式
随后 RL 才把这件事拉回来。
同一张表里:
OutcomeRL-Reasoning达到80.90 / 77.03ProcessRL-Reasoning进一步到81.23 / 77.72- 对应
Macro F1也从72.46 / 65.08拉到73.55 / 66.39
所以这条线真正新增的,不是“reasoning + RL 会更强”,而是:
reasoning 先会伤模型,RL 才是把业务规则真正内化进去的那一步
SAM 真正补的是 step-level credit,而不是再加一个 outcome reward
如果只看结果表,这篇 paper 很容易被误写成:
小红书用 GRPO 优化生成式相关性
但 4.4.3 的关键不是 outcome-based GRPO 本身,而是它在 relevance task 上补了一层更细的 credit assignment:
Stepwise Advantage Masking
作者让模型在三步 reasoning 的每一步末尾都输出 \boxed{} 中间分数,再用 rule-based verifier 做 exact matching,得到每一步的正确性指标。
然后:
- 如果最终答案正确,只强化正确步骤
- 如果最终答案错误,只惩罚错误步骤
这意味着它不是在给整条 reasoning chain 一个统一回报,而是在用最轻量的方式,把业务规则具体落实到“哪一步学对了、哪一步学错了”。
对 Story Lab 来说,这里最值得保留的一句不是“又一个 process supervision”,而是:
业务相关性规则开始通过 step-level masking 进入 RL credit assignment
这条线最重要的系统位置,其实是 reasoning teacher -> lightweight ranker
我觉得这篇 paper 最该单独成 story 的地方,还不是 prompt,也不是 SAM。
真正新的系统位是:
RL-tuned large reasoning teacher disappears at serving time
论文 5.3.1 写得很清楚:
- 训练侧用的是
RedOne,一个基于Qwen2.5-32B-Instruct的小红书域内 post-trained 模型 RL调优完成后,它不会直接进入线上 search serving- 作者用它去标注 millions of query-note pairs
- 只保留最终一步 relevance score
- 再把这些 supervision distill 给一个
0.1B的 BERT-based discriminative5-classclassifier
这意味着这里的 serving asymmetry 很明显:
- 训练期 owner:
32Breasoning teacher - 线上 owner:
0.1BBERT student
而且 student 的落地指标写得很具体:
P95 latency约20msresponse success rate接近100%- 离线
RANDOMtest 上2-ACC / 5-ACC / Macro F1 / Weighted F1为90.65 / 79.22 / 68.19 / 78.57
这里最值得记住的一点,不是 student 已经追平 teacher。
论文明确承认它和 teacher 仍有差距。
真正重要的是:
RL 学到的业务规则和 reasoning boundary,已经能被压缩成一个线上可部署的轻量 ranker
这和站里已经写过的几条工业线差别很大:
OxygenREC里,近线LLM还在给在线快模型持续供应 reasoning instructionsS-GRec里,LLM还在训练期做 semantic judge,为在线 generator 提供 reward- 这篇小红书搜索 paper 里,
LLM直接退成了:
training-time reasoning teacher
因此 Story Lab 后续至少还要补两列:
reasoning-teacher handoffdeployment asymmetry / final serving model
线上 A/B 说明,这条交接不是只在离线表里好看
如果 teacher 很强、student 很快,但线上一跑就掉,这条线仍然站不住。
这篇 paper 的线上部分给了一个相对硬的工业答案。
5.3.2 写到:
- test group 与 baseline group 各取
5%在线流量 - 最短测试周期设为
7天 - baseline 继续使用旧的 BERT-based relevance model
最终 Table 4 给出:
CES +0.72%DCG 0/1 -0.36%
这里的含义很直接:
teacher 通过 RL 学到的 relevance reasoning,不只是离线更像 human annotator,也能跨蒸馏保住线上 engagement 和 ranking quality
所以这条线和普通“先用大模型造数据,再训小模型”也不完全一样。
它更像:
criteria-grounded RL teacher -> distilled industrial ranker
它还顺手提醒一件事:当前的 criteria prompt 还不是随改随用的控制接口
论文 Discussion 里还有一个很值得记的小信号:
作者的长期目标是做 Relevance LLM,也就是训练一次后,让业务团队通过更新 prompt 里的 criteria 去适配变化中的业务逻辑。
但他们当前的结论是:
还做不到
因为现有 RL-tuned model 会过拟合训练时那套固定规则,推理时即使修改规则,它仍倾向于沿旧逻辑 reasoning。
这说明现在更准确的说法不是:
criteria 已经成为一个稳定的 inference-time control interface
而是:
criteria 当前仍主要是训练期 carrier,而不是动态可编辑的线上接口
这一点会逼着 Story Lab 后续再想一层更细的问题:
criteria carrier 到底是 static 还是 mutable
对 Story Lab 的更新意义
补完这篇 paper 之后,我觉得站里至少还要补三列观察位:
criteria carrierreasoning-teacher handoffdeployment asymmetry / final serving model
否则下面这些路线还会继续被压扁成一种“训练期用了 LLM-RL”:
S-GRec:LLM做 train-time semantic judgeOxygenREC:近线LLM做 reasoning supplierAIGQ:RL直接优化 query list generator- 这篇小红书搜索 paper:
LLM-RL先训一个 relevance reasoning teacher,再蒸回轻量 BERT ranker
证据与来源
- 一手论文入口:
2512.00968arXiv 摘要页、2512.00968arXiv HTML、2512.00968PDF - 时间与发表口径:arXiv API 可回溯到论文首次提交于
2025-11-30 16:31:16 UTC、更新于2025-12-29 06:38:38 UTC;PDF 首页已写明KDD '26与 DOI10.1145/3770854.3783917 - 关键机制:
4.2 / 4.4 / 5.3写清了criteria-augmented prompt、SAM、GRPO、teacher-student distillation 与线上部署 - 核心数值:
Table 2的SFT-Label / SFT-Reasoning / OutcomeRL / ProcessRL对照,Table 4的线上A/B,以及Table 5的 zero-shot relevance criteria prompt 对照 - 公开边界:按论文全标题、arXiv id
2512.00968与Xiaohongshu Search检 GitHub API,截至2026-03-23仍未看到稳定官方 repo,因此当前更适合记成industrial paper-first reasoning-teacher handoff route - 中文传播层:目前可稳定回溯的是 Moonlight 中文评述;继续补做
site:xiaohongshu.com "小红书 搜索 生成式 排序 相关性"、xhslink "小红书 搜索 强化学习"与知乎检索后,仍未拿到稳定高价值小红书线索,知乎直连也返回403
下一步
- 把这篇小红书搜索 paper 和
S-GRec / OxygenREC / AIGQ / OneSearch压到同一张工业系统表里,新增criteria carrier / reasoning-teacher handoff / deployment asymmetry三列 - 继续追这条线是否出现官方 repo、
REDtech原始技术稿或更高价值的中文机制稿;在拿到稳定一手入口前,传播层仍以 Moonlight 与搜索结果摘要为辅 - 如果后续公开世界开始出现
dynamic criteria训练方案,再单独补一轮static carrier -> mutable control interface的分叉