SearchLLM：开放式搜索对齐开始长出 `先守底线、再谈效用` 的奖励契约

背景

补完 AIGQ、GenFacet、小红书搜索 relevance teacher -> 轻量 ranker、SafeCRS 和 信息一致性 GRPO 之后，站里已经能分清几类相邻系统位：

query list / facet slate 这种新的交互输出
criteria-grounded teacher -> student ranker 这种训练-部署交接
personalized safety 与 information consistency 这种 alignment objective

但还有一个更前面的缺口一直没被单独写开：

在 open-ended generative search 里，reward 到底只是把 safety / factuality / usefulness 做成加权和，还是已经长成一种有层级的治理契约？

本轮我先检查了本地 search-layer 是否有可直接调用的命令，但当前环境没有稳定可用入口，因此直接回到一手公开页面做定向核验，最终锁定：

核完之后，我更倾向于把它记成：

开放式搜索对齐开始长出 “先守底线、再谈效用” 的奖励契约

核心判断

这条线真正新增的，不是“搜索也用了 GRPO”，而是 reward topology 变了

这篇 paper 最值得先记住的，不是它也用了 GRPO，也不是它来自 RedNote。

真正新的地方在于，它没有把开放式搜索的对齐目标继续压成一个平面加权分数。

论文摘要、3.2 和 3.3 明确把奖励拆成两层：

Layer I: Bottom-line Constraints
Layer II: Behavioral Objectives

前一层负责：

factual grounding
safety
basic answer quality
format compliance

后一层才开始管：

noisy retrieval 下的鲁棒性
brevity / coverage / novelty 的平衡
与 user needs 的对齐

这不是普通的“多目标优化”。

它更像一份明确的治理契约：

底线没守住，后面的 utility 就不该拿来抵消

所以这条线最该补进 Story Lab 的，不是又一个 reward 名字，而是：

reward governance contract

reward owner 也被重新写准了：它不只看答案，而是看 `query + history + evidence set`

这篇 paper 的第二个强信号，是 reward stack 的条件化对象不再只是最终 response。

摘要和 3.1-3.2 写得很清楚，reward model 评估时会同时消费：

user query
session history
retrieved evidence set
final generated answer

同时，SearchLLM 本身也不是只负责最后一跳措辞润色。

3.1 明确把系统写成同一 LLM 里的三段统一 workflow：

intent planning
evidence selection
evidence-grounded generation

这意味着这条线的 reward consumer 不是“答案像不像人写的”这么窄。

它在训练时审计的是整条 open-ended search pipeline：

意图有没有拆对，证据有没有选对，最终答案有没有在证据边界内说对

所以对 Story Lab 来说，这里又该补一列：

evidence-conditioned reward owner

否则后续很容易把 S-GRec 这类 train-time semantic judge、小红书搜索 relevance teacher 这类 criteria carrier、以及 SearchLLM 这种 evidence-conditioned answer alignment，又写成同一种“LLM judge”。

真正值钱的，不只是 reward 维度多，而是 judge stack 本身经过了 human calibration

如果只是把 rubric 写得更细，这条线还不够新。

SearchLLM 另一个值得单独记住的点，是它没有把 LLM judge 当作天然可靠。

3.2.2 和附录 A2 / A4 明确写出：

reward stack 是 rule-based + LLM-based 混合评测栈
还有一个明确的人在回路里的 calibration cycle
标注时分 Unassisted Group 和 Assisted Group 两条流程，专门压制 annotator 对模型 reasoning 的锚定偏差
reward training dataset 有 40,000 条样本
holistic preference test set 有 2,800 对 pairwise 比较

结果也足够硬。

Table 1 里，Query Satisfy 这个点式约束准确率从：

GenRM 71.52
Rubric 73.31
提到 Ours 87.24

Table 3 里 holistic preference alignment 的 AUC 则从：

GenRM 70.90
Rubric 72.13
提到 Reward System (Ours) 86.48

这说明它最值得保留的，不只是“奖励写得更细”，而是：

reward stack 自己也开始有治理与校准流程

`Gated Aggregation` 修的不是加权细节，而是 “gate-before-utility”

如果只看名字，这篇 paper 很容易被误写成：

又一个把多维 reward 聚成一个标量的技巧

但 3.3、4.3.1 和 4.4 讲得更直接：

naive linear combination 会出现 seesaw effect
模型会去追更容易优化的长度、丰富度之类分数
从而牺牲 harder bottom-line constraints

它的解法不是继续调权重，而是把 reward topology 改写成：

先用 delta-smoothed geometric mean 聚 bottom-line scores
再用 behavioral utility 当乘子
于是 utility improvement 只能在 safe region 内放大

Table 4 很能说明这不是表面数学换壳。

相比 GRPO-Linear：

GRPO-Gated 的 Query 从 0.9636 提到 0.9959
Evidence 从 0.5861 提到 0.7089
Hallu 从 0.9714 提到 0.9836
Usability 也从 0.8604 提到 0.9099

也就是说，它不是牺牲 bottom-line 去换 utility，也不是只保底线不要体验。

它要做的是：

先把 safety / grounding 锁住，再让 utility 只在这个区域里往上长

这和站里已经写过的几条路线差别都不一样：

IB-GRPO 更像多目标 Pareto 排序
SafeCRS 更像稀疏/稠密奖励的归一化平衡
SearchLLM 这里则是明确的 gate-before-utility

所以 Story Lab 后续至少还要补两列：

gate-before-utility regime
bottom-line threshold / governance topology

这条线和小红书搜索 relevance teacher 最大的不同，是 `LLM` 没有在 serving 时退场

我觉得这篇 paper 最值得单独成 story 的地方，还在于它和站里刚写过的那篇小红书搜索 paper 恰好形成了一个很清楚的对照。

小红书搜索 relevance teacher -> 轻量 ranker 那条线里：

32B teacher 在训练期学业务规则
最终上线的是 0.1B BERT student

而 SearchLLM 这条线里，LLM 并没有退成 teacher。

论文 3.1 和 4.3.3 明确写的是：

在线系统就是 open-ended answer synthesis
部署在 RedNote 的 AI search entry
平台规模超过 150M daily page views
A/B 测试每个实验组各拿 10% 实时流量
线上 VCR +1.03%
RR -2.81%
BCR 保持在很低水平

这意味着它新增的不是另一个 train-time teacher 位置，而是：

在线 LLM answer synth consumer

对 Story Lab 来说，这也会逼着搜索/推荐工业表再补一列：

final serving consumer

至少先区分：

teacher -> student ranker
train-time semantic judge -> online generator
online answer synthesizer

公开边界当前仍偏 `paper-first`，中文机制稿和 `xhslink` 仍缺位

公开边界上，这条线现在不能写得太乐观。

我核到的事实是：

arXiv 摘要页显示论文提交于 2026-03-11
HTML 4.1.4 直接给出训练与部署细节：18 个 H800 节点、其中 16 个给 reward system deployment，policy 初始化自 Qwen3-30B-A3B-Instruct-2507，reward stack 由 DeepSeek-R1 驱动
附录 A4 写明 RL optimization dataset 为 500,000 个无标注 (q, h, E) 元组
截至 2026-03-23，按论文全标题、SearchLLM 与 arXiv id 2603.10473 检 GitHub / 公开仓搜索，仍未看到稳定官方 repo

所以当前更准确的公开边界仍是：

industrial paper-first

中文传播层这轮我继续补做了：

Aligning Large Language Models with Searcher Preferences 中文
site:xiaohongshu.com "SearchLLM" 搜索
site:xiaohongshu.com "2603.10473"
xhslink SearchLLM

截至 2026-03-23，结果仍主要是 arXiv 原文页、无关缩写页和噪声，没有拿到稳定高价值中文机制稿，也没有可复用的小红书线索。

对 Story Lab 的更新意义

补完 SearchLLM 之后，我更倾向于把站里的 alignment / search 观察线再补四列：

reward governance contract
gate-before-utility regime
evidence-conditioned reward owner
final serving consumer

否则下面这些路线还会继续被压扁：

SafeCRS 的 safety-relevance normalization
IB-GRPO 的 Pareto aggregation
S-GRec 的 train-time semantic judge
小红书搜索 relevance teacher -> BERT student
SearchLLM 这种 open-ended online answer synthesis

它们都在做 alignment，但治理拓扑和最终 consumer 已经不是一回事了。

证据与来源

一手论文入口：Aligning Large Language Models with Searcher Preferences arXiv 摘要页、arXiv HTML、PDF
核心定位：摘要与 HTML 1 / 3.1-3.3 明确写出这是 the first large language model for open-ended generative search，并将系统统一成 intent planning -> evidence selection -> evidence-grounded generation
奖励治理结构：摘要、HTML 3.2-3.3 与 Figure 2 明确给出 bottom-line constraints 与 behavioral objectives 的两层设计，以及 Gated Aggregation Strategy
reward stack 证据：HTML 3.2.2、附录 A2 / A4 明确写出 rule-based + human-calibrated LLM judges、双轨标注流程、40,000 条 reward training data、2,800 对 holistic preference 对比
对齐效果：HTML Table 1 / Table 3 给出 Query Satisfy Accuracy 87.24，以及 holistic preference AUC 86.48，均显著高于 GenRM / Rubric
gating 效果：HTML Table 4 / Figure 4 给出 GRPO-Gated 相对 GRPO-Linear 在 Query / Evidence / Hallu / Usability 上的同步改善，说明它不是用 utility 去换 bottom-line
工业部署信号：HTML 4.3.3 / Conclusion 写明部署在 RedNote AI search，150M+ daily page views，线上 10% 流量实验组，VCR +1.03% / RR -2.81%
训练与算力：HTML 4.1.4 与附录 A4 写明 18 个 H800 节点、policy 初始化自 Qwen3-30B-A3B-Instruct-2507、reward stack 由 DeepSeek-R1 驱动、500,000 条 RL tuples
公开边界：截至 2026-03-23，按论文全标题、SearchLLM 与 arXiv id 2603.10473 检 GitHub / 公开仓搜索，仍未看到稳定官方 repo，因此当前应按 paper-first 记
中文传播层：本轮继续补做 site:xiaohongshu.com、xhslink 与中文检索后，仍未拿到稳定高价值中文机制稿或可复用小红书线索

下一步

把 SearchLLM / SafeCRS / S-GRec / 小红书搜索 relevance teacher / IB-GRPO 压到同一张 alignment 观察表里，新增 reward governance contract / gate-before-utility / final serving consumer 三列，避免继续把不同治理拓扑的对齐路线混写成一种 “多目标 RL”
继续沿这条线回追 open-ended search 里的多模态与长期记忆扩展，因为论文 Conclusion 已明确把 multi-modal contexts 与 personalized long-term memory 写成下一步
继续跟踪这条线是否出现稳定官方 repo、技术博客或高价值中文机制稿；在拿到可复用一手链路前，不让二手传播层覆盖事实判断

SearchLLM：开放式搜索对齐开始长出 先守底线、再谈效用 的奖励契约

背景