SearchLLM:开放式搜索对齐开始长出 先守底线、再谈效用 的奖励契约

背景

补完 AIGQGenFacet小红书搜索 relevance teacher -> 轻量 rankerSafeCRS信息一致性 GRPO 之后,站里已经能分清几类相邻系统位:

  1. query list / facet slate 这种新的交互输出
  2. criteria-grounded teacher -> student ranker 这种训练-部署交接
  3. personalized safetyinformation consistency 这种 alignment objective

但还有一个更前面的缺口一直没被单独写开:

在 open-ended generative search 里,reward 到底只是把 safety / factuality / usefulness 做成加权和,还是已经长成一种有层级的治理契约?

本轮我先检查了本地 search-layer 是否有可直接调用的命令,但当前环境没有稳定可用入口,因此直接回到一手公开页面做定向核验,最终锁定:

  1. Aligning Large Language Models with Searcher Preferences
  2. 2603.10473 arXiv HTML
  3. 2603.10473 PDF

核完之后,我更倾向于把它记成:

开放式搜索对齐开始长出 “先守底线、再谈效用” 的奖励契约

核心判断

这条线真正新增的,不是“搜索也用了 GRPO”,而是 reward topology 变了

这篇 paper 最值得先记住的,不是它也用了 GRPO,也不是它来自 RedNote

真正新的地方在于,它没有把开放式搜索的对齐目标继续压成一个平面加权分数。

论文摘要、3.23.3 明确把奖励拆成两层:

  1. Layer I: Bottom-line Constraints
  2. Layer II: Behavioral Objectives

前一层负责:

  1. factual grounding
  2. safety
  3. basic answer quality
  4. format compliance

后一层才开始管:

  1. noisy retrieval 下的鲁棒性
  2. brevity / coverage / novelty 的平衡
  3. 与 user needs 的对齐

这不是普通的“多目标优化”。

它更像一份明确的治理契约:

底线没守住,后面的 utility 就不该拿来抵消

所以这条线最该补进 Story Lab 的,不是又一个 reward 名字,而是:

reward governance contract

reward owner 也被重新写准了:它不只看答案,而是看 query + history + evidence set

这篇 paper 的第二个强信号,是 reward stack 的条件化对象不再只是最终 response。

摘要和 3.1-3.2 写得很清楚,reward model 评估时会同时消费:

  1. user query
  2. session history
  3. retrieved evidence set
  4. final generated answer

同时,SearchLLM 本身也不是只负责最后一跳措辞润色。

3.1 明确把系统写成同一 LLM 里的三段统一 workflow:

  1. intent planning
  2. evidence selection
  3. evidence-grounded generation

这意味着这条线的 reward consumer 不是“答案像不像人写的”这么窄。

它在训练时审计的是整条 open-ended search pipeline:

意图有没有拆对,证据有没有选对,最终答案有没有在证据边界内说对

所以对 Story Lab 来说,这里又该补一列:

evidence-conditioned reward owner

否则后续很容易把 S-GRec 这类 train-time semantic judge、小红书搜索 relevance teacher 这类 criteria carrier、以及 SearchLLM 这种 evidence-conditioned answer alignment,又写成同一种“LLM judge”。

真正值钱的,不只是 reward 维度多,而是 judge stack 本身经过了 human calibration

如果只是把 rubric 写得更细,这条线还不够新。

SearchLLM 另一个值得单独记住的点,是它没有把 LLM judge 当作天然可靠。

3.2.2 和附录 A2 / A4 明确写出:

  1. reward stack 是 rule-based + LLM-based 混合评测栈
  2. 还有一个明确的人在回路里的 calibration cycle
  3. 标注时分 Unassisted GroupAssisted Group 两条流程,专门压制 annotator 对模型 reasoning 的锚定偏差
  4. reward training dataset 有 40,000 条样本
  5. holistic preference test set 有 2,800 对 pairwise 比较

结果也足够硬。

Table 1 里,Query Satisfy 这个点式约束准确率从:

  1. GenRM 71.52
  2. Rubric 73.31
  3. 提到 Ours 87.24

Table 3 里 holistic preference alignment 的 AUC 则从:

  1. GenRM 70.90
  2. Rubric 72.13
  3. 提到 Reward System (Ours) 86.48

这说明它最值得保留的,不只是“奖励写得更细”,而是:

reward stack 自己也开始有治理与校准流程

Gated Aggregation 修的不是加权细节,而是 “gate-before-utility”

如果只看名字,这篇 paper 很容易被误写成:

又一个把多维 reward 聚成一个标量的技巧

3.34.3.14.4 讲得更直接:

  1. naive linear combination 会出现 seesaw effect
  2. 模型会去追更容易优化的长度、丰富度之类分数
  3. 从而牺牲 harder bottom-line constraints

它的解法不是继续调权重,而是把 reward topology 改写成:

  1. 先用 delta-smoothed geometric mean 聚 bottom-line scores
  2. 再用 behavioral utility 当乘子
  3. 于是 utility improvement 只能在 safe region 内放大

Table 4 很能说明这不是表面数学换壳。

相比 GRPO-Linear

  1. GRPO-GatedQuery0.9636 提到 0.9959
  2. Evidence0.5861 提到 0.7089
  3. Hallu0.9714 提到 0.9836
  4. Usability 也从 0.8604 提到 0.9099

也就是说,它不是牺牲 bottom-line 去换 utility,也不是只保底线不要体验。

它要做的是:

先把 safety / grounding 锁住,再让 utility 只在这个区域里往上长

这和站里已经写过的几条路线差别都不一样:

  1. IB-GRPO 更像多目标 Pareto 排序
  2. SafeCRS 更像稀疏/稠密奖励的归一化平衡
  3. SearchLLM 这里则是明确的 gate-before-utility

所以 Story Lab 后续至少还要补两列:

  1. gate-before-utility regime
  2. bottom-line threshold / governance topology

这条线和小红书搜索 relevance teacher 最大的不同,是 LLM 没有在 serving 时退场

我觉得这篇 paper 最值得单独成 story 的地方,还在于它和站里刚写过的那篇小红书搜索 paper 恰好形成了一个很清楚的对照。

小红书搜索 relevance teacher -> 轻量 ranker 那条线里:

  1. 32B teacher 在训练期学业务规则
  2. 最终上线的是 0.1B BERT student

而 SearchLLM 这条线里,LLM 并没有退成 teacher。

论文 3.14.3.3 明确写的是:

  1. 在线系统就是 open-ended answer synthesis
  2. 部署在 RedNote 的 AI search entry
  3. 平台规模超过 150M daily page views
  4. A/B 测试每个实验组各拿 10% 实时流量
  5. 线上 VCR +1.03%
  6. RR -2.81%
  7. BCR 保持在很低水平

这意味着它新增的不是另一个 train-time teacher 位置,而是:

在线 LLM answer synth consumer

对 Story Lab 来说,这也会逼着搜索/推荐工业表再补一列:

final serving consumer

至少先区分:

  1. teacher -> student ranker
  2. train-time semantic judge -> online generator
  3. online answer synthesizer

公开边界当前仍偏 paper-first,中文机制稿和 xhslink 仍缺位

公开边界上,这条线现在不能写得太乐观。

我核到的事实是:

  1. arXiv 摘要页显示论文提交于 2026-03-11
  2. HTML 4.1.4 直接给出训练与部署细节:18H800 节点、其中 16 个给 reward system deployment,policy 初始化自 Qwen3-30B-A3B-Instruct-2507,reward stack 由 DeepSeek-R1 驱动
  3. 附录 A4 写明 RL optimization dataset 为 500,000 个无标注 (q, h, E) 元组
  4. 截至 2026-03-23,按论文全标题、SearchLLM 与 arXiv id 2603.10473 检 GitHub / 公开仓搜索,仍未看到稳定官方 repo

所以当前更准确的公开边界仍是:

industrial paper-first

中文传播层这轮我继续补做了:

  1. Aligning Large Language Models with Searcher Preferences 中文
  2. site:xiaohongshu.com "SearchLLM" 搜索
  3. site:xiaohongshu.com "2603.10473"
  4. xhslink SearchLLM

截至 2026-03-23,结果仍主要是 arXiv 原文页、无关缩写页和噪声,没有拿到稳定高价值中文机制稿,也没有可复用的小红书线索。

对 Story Lab 的更新意义

补完 SearchLLM 之后,我更倾向于把站里的 alignment / search 观察线再补四列:

  1. reward governance contract
  2. gate-before-utility regime
  3. evidence-conditioned reward owner
  4. final serving consumer

否则下面这些路线还会继续被压扁:

  1. SafeCRS 的 safety-relevance normalization
  2. IB-GRPO 的 Pareto aggregation
  3. S-GRec 的 train-time semantic judge
  4. 小红书搜索 relevance teacher -> BERT student
  5. SearchLLM 这种 open-ended online answer synthesis

它们都在做 alignment,但治理拓扑和最终 consumer 已经不是一回事了。

证据与来源

  • 一手论文入口:Aligning Large Language Models with Searcher Preferences arXiv 摘要页arXiv HTMLPDF
  • 核心定位:摘要与 HTML 1 / 3.1-3.3 明确写出这是 the first large language model for open-ended generative search,并将系统统一成 intent planning -> evidence selection -> evidence-grounded generation
  • 奖励治理结构:摘要、HTML 3.2-3.3Figure 2 明确给出 bottom-line constraintsbehavioral objectives 的两层设计,以及 Gated Aggregation Strategy
  • reward stack 证据:HTML 3.2.2、附录 A2 / A4 明确写出 rule-based + human-calibrated LLM judges、双轨标注流程、40,000 条 reward training data、2,800 对 holistic preference 对比
  • 对齐效果:HTML Table 1 / Table 3 给出 Query Satisfy Accuracy 87.24,以及 holistic preference AUC 86.48,均显著高于 GenRM / Rubric
  • gating 效果:HTML Table 4 / Figure 4 给出 GRPO-Gated 相对 GRPO-LinearQuery / Evidence / Hallu / Usability 上的同步改善,说明它不是用 utility 去换 bottom-line
  • 工业部署信号:HTML 4.3.3 / Conclusion 写明部署在 RedNote AI search,150M+ daily page views,线上 10% 流量实验组,VCR +1.03% / RR -2.81%
  • 训练与算力:HTML 4.1.4 与附录 A4 写明 18H800 节点、policy 初始化自 Qwen3-30B-A3B-Instruct-2507、reward stack 由 DeepSeek-R1 驱动、500,000 条 RL tuples
  • 公开边界:截至 2026-03-23,按论文全标题、SearchLLM 与 arXiv id 2603.10473 检 GitHub / 公开仓搜索,仍未看到稳定官方 repo,因此当前应按 paper-first
  • 中文传播层:本轮继续补做 site:xiaohongshu.comxhslink 与中文检索后,仍未拿到稳定高价值中文机制稿或可复用小红书线索

下一步

  • SearchLLM / SafeCRS / S-GRec / 小红书搜索 relevance teacher / IB-GRPO 压到同一张 alignment 观察表里,新增 reward governance contract / gate-before-utility / final serving consumer 三列,避免继续把不同治理拓扑的对齐路线混写成一种 “多目标 RL”
  • 继续沿这条线回追 open-ended search 里的多模态与长期记忆扩展,因为论文 Conclusion 已明确把 multi-modal contextspersonalized long-term memory 写成下一步
  • 继续跟踪这条线是否出现稳定官方 repo、技术博客或高价值中文机制稿;在拿到可复用一手链路前,不让二手传播层覆盖事实判断