AIGQ:生成式推荐开始把最终交付物从 item list 扩到 query list

背景

补完 OneSearchRecPilot从 Netflix 到 LinkedIn:RL 开始前移到推荐里的 logs-to-language 文本构造层Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 之后,站里已经能把推荐系统的公开路线大致拆成几类:

  1. 最终交付 item list 的端到端生成式推荐。
  2. 最终交付 report 的深研究式推荐。
  3. 先把 logs、profile 或 query 变成上游语言接口,再交给下游召回或推理模块。

但这一轮继续做增量检索时,我发现还有一个此前没有单独成 story 的终态接口:

query list

也就是,系统最后不是直接给 item,也不是只生成解释,而是先替用户给出一组更可能命中的搜索 query。

这一轮我没有继续依赖旧版 search-layer 做主判断,而是直接回到一手来源做定向核验,最终锁定:

  1. AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation
  2. AIGQ arXiv HTML
  3. AIGQ PDF

核完之后,我更倾向于把它记成:

生成式推荐开始把最终交付物从 item list 扩到 query list

核心判断

这条线的关键,不是“淘宝也做生成式推荐”,而是推荐系统开始直接交付 query list

如果只看标题,AIGQ 很容易被误读成:

又一个搜索/推荐里的 generative model

但这篇 paper 最该单独记下来的地方,不是“用 LLM 生成 query”本身,而是它明确把系统最终交付物写成了:

ranked query list

论文引言把 HintQ 场景说得很清楚:

  1. 这是淘宝首页的 pre-search query recommendation。
  2. 输入不是当前 query,而是用户历史行为和 profile。
  3. 输出不是 item,而是一组按顺序排列的 hint queries。

这和站里已经写过的几类系统并不是一回事。

  1. OneSearch 仍然是在交付 item。
  2. RecPilot 交付的是 report。
  3. 跨域新闻推荐那条路线交付的是 retrieval-ready query list,但它最终仍服务新闻召回 student。
  4. AIGQ 则把 query list 本身直接做成了首页推荐界面的最终输出。

所以对 Story Lab 来说,它逼出了一个此前还没在终态接口表里写清楚的类别:

query list as final output carrier

它真正改写的是 user-to-item 心智,而不是简单替换一个 recall module

AIGQ 的第二个增量,是它把推荐里的系统心智从:

直接给用户 item

改成了:

先替用户猜更好的 query,再把 query 交给后续搜索栈

这意味着它在用户侧卸载的工作不是“选哪个 item”,而是更前面那一步:

用户如何表达自己想搜什么

论文直接把传统 HintQ 的问题写成:

  1. 依赖 ID matching 和 co-click heuristic,语义浅。
  2. 冷启动差。
  3. 新奇性低。
  4. 当前工业常见做法是先离线构造 context-to-query 映射,再在线当 recall 用,但很难兼顾多兴趣与短期 intent。

因此 AIGQ 真正在替换的不是某个小 recall 通道,而是:

pre-search intent articulation

这点和 OneSearch 很不一样。

OneSearch 更像把 MCA 的 recall / pre-ranking / ranking 三段压成一个 stack; AIGQ 则更像在 item retrieval 之前,先把“用户此刻最该搜什么”做成一个可学习、可排序、可在线部署的生成问题。

这条线把 RL consumer 压到了 list-wise query generator,而不是 item generator

AIGQ 里最值得记的 RL 信号,也不是泛泛的“又用了 GRPO”。

论文把这层写得非常具体:

  1. 先用 IL-SFT 做 list-wise supervised fine-tuning。
  2. 再用 IL-GRPO 做 list-aware reinforcement learning。
  3. 优势不是只在 sequence 层算,而是显式拆成 query advantage + sequence advantage

也就是说,它要优化的不是单个 token 的语法流畅性,而是:

  1. 每个 query slot 的局部质量。
  2. 整个 query list 的全局一致性、覆盖度和多样性。

更关键的是,论文 3.5.2 还把 reward provider 写得很清楚:

CTR ranking model

而且不是静态 provider。

它会随每日交互日志更新,再回流成新的 CTR reward 去更新生成 policy。

所以这条路线的更准确写法不是:

query recommendation 也上了 RL

而是:

real-world CTR ranker becomes the daily reward supplier for a list-wise query generator

这让它和站里已经记过的几类 consumer 又拉开了:

  1. OneMall 更像 ranking model -> retrieval reward supplier
  2. OneSearch 更像 generator first + reward-model selector
  3. AIGQ 则更像 query list generator + daily CTR-aligned IL-GRPO

AIGQ-Direct + AIGQ-Think 的关键,不是两个模型并列,而是两条不同 latency owner 的部署路径

我觉得这篇 paper 最值得单独立起来的第二个系统位,是它的部署结构。

摘要里先给出:

  1. AIGQ-Direct
  2. AIGQ-Think

如果只看名字,很容易把它当成普通 ablation。

但正文 4 节写得很清楚,这其实是两条不同的线上职责:

  1. AIGQ-u2q nearline recall
  2. AIGQ-x2q real-time recall

其中:

  1. AIGQ-Direct 走异步近线推理,把 personalized user-to-query 结果写入用户级 cache。
  2. AIGQ-Think 先在离线生成 trigger -> query 的 CoT 映射,再蒸成实时可检索的 x2q index。

这层设计很关键,因为它说明这条线并没有把大模型强塞进 request-time loop。

更准确地说,它把两类时效需求分开了:

  1. 近线 cache 负责深个性化,但会有一点 recency lag。
  2. 实时 trigger retrieval 负责补最近意图,不要求在线跑完整 CoT。

这让 AIGQ 很像 query recommendation 版本的:

nearline cache + realtime trigger refinement

而不是单一路径上线的 query generator。

AIGQ-Think 说明 query recommendation 也开始显式吃 reasoning token,但 reasoning 本身不直接面向用户

AIGQ-Think 还有一个很值得记的点:

它没有把 reasoning 直接暴露成用户可见解释。

论文 3.4.23.5.3 的设计说明,它的 reasoning 更像中间结构:

  1. 先把用户日级 session 压成多兴趣 points。
  2. 再从这些结构化 trigger 生成 query。
  3. trigger token 和 query token 分别吃不同 reward,做 Decoupled Trigger Reward Optimization

这意味着这里的 reasoning 不是面向最终 UI 的 explanation。

它更像:

latent trigger constructor

然后再被部署层蒸成 x2q 索引。

把它和 OneRec-ThinkRecPilot 放一起看,会出现一个更清楚的区别:

  1. OneRec-Think 的 reasoning 更接近 item recommendation 里的推理路径。
  2. RecPilot 的 reasoning 更接近探索轨迹和报告撰写。
  3. AIGQ-Think 的 reasoning 更接近 query-side trigger induction

这条线还顺手补了一类此前没单独写开的 action space:natural-language query space

AIGQ 的另一个价值,是它让站里现有的 action-space 观察位更完整了一点。

论文 2.2 明确说,它和 Semantic-ID 路线不一样:

AIGQ operates entirely in natural language space

也就是说,这里的 policy 并不在 itemic token 或 semantic ID 上更新。

它直接在自然语言 query space 上生成。

这件事的重要性在于,当前 Story Lab 里已经有:

  1. Semantic-ID generation
  2. candidate-constrained native vocabulary generation
  3. rerank-stage closed candidate set

AIGQ 又补出一个很邻近、但 consumer 完全不同的空间:

natural-language query generation for downstream search

它和 TextRec 也不是同一类。

TextRec 仍然是在候选 item 内选 item; AIGQ 则是在 query 侧直接创造用户的下一步检索接口。

线上证据很硬,而且价值不只在 CTR

这篇 paper 的工业信号也够强,不是只停在方法描述。

离线 Table 1 先给出了一组很清楚的对照:

  1. AIGQ-Think IL-SFT + IL-GRPOCate HR@30 = 0.4704
  2. Query HR@30 = 0.0745
  3. Sem. Sim. = 0.6624
  4. Unique Cates = 9.8

对照组里:

  1. EBRCate HR@30 = 0.1998
  2. GPT-5.1Query HR@30 = 0.0021
  3. AIGQ-Direct IL-SFT + IL-GRPOQuery HR@30 = 0.0679

这说明 AIGQ-Think 的收益不只是多样性,而是 query-side accuracy 和 semantic alignment 一起抬。

Table 2 的 ablation 也很关键:

  1. AIGQ-Direct 从 base SFTQuery HR = 0.0428 提到 IL-GRPO 后的 0.0679
  2. AIGQ-Think0.0549 提到 0.0745

这说明它不是“reasoning 自然更强”。

真正抬起来的是:

interest-guided labels + reasoning augmentation + IL-GRPO

的组合。

线上 Table 3 则更硬:

  1. HintQ UCTR +7.42%
  2. Attributed orders +10.31%
  3. Attributed GMV +10.68%
  4. LT-7 retention +3.73%
  5. Search UV +0.20%
  6. Unique queries 79.3%
  7. Unique leaf categories 37.3%

这意味着 AIGQ 的价值不是只给首页多一些新 query。

它同时把:

  1. conversion
  2. long-term retention
  3. discovery diversity

都做成了正向。

而且论文还单独强调:开启 daily RL updates 之后,PVRCTR 会继续稳定提升。

这逼着 Story Lab 在终态接口表里正式补进 query list

补完这篇 paper 之后,我觉得此前那张 interaction interface / final output carrier / user-effort offloading 表必须改。

因为下面这些最终交付物已经不能混写:

  1. query list
  2. item list
  3. dialogue response
  4. investigation trace
  5. decision-support report

如果不把 AIGQ 单独并进去,就会继续把“替用户表达搜索意图”和“替用户选商品”都写成同一种推荐输出。

更具体一点,下一步更适合把:

AIGQ / OneSearch / DeepRec / RecPilot / ChatCRS / SAPIENT / CRAVE / RecThinker

横向压成一张更明确的终态接口表。

证据与来源

  • AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation:arXiv 摘要页确认论文于 2026-03-20 提交;摘要直接给出 IL-SFTIL-GRPOAIGQ-DirectAIGQ-Thinkhybrid offline-online architecture
  • AIGQ arXiv HTML1 节明确写出 HintQ 是无当前 query 的 pre-search query recommendation,3.5 节明确给出 query advantage + sequence advantage、daily CTR reward 更新与 trigger/query 分离优化,4 节明确给出 u2q nearline recall + x2q real-time recall 双路径部署。
  • AIGQ PDFTable 1/2/3 给出离线 Cate HR@30 / Query HR@30、ablation 和线上 UCTR / orders / GMV / retention / discovery 指标;结论段还明确把后续方向写成 multimodal context 和 quantization / distillation。
  • GitHub API 定向检索:截至 2026-03-23,按论文全标题、AIGQ 与 arXiv id 2603.19710 检索,未见稳定官方 repo;当前更适合记成 industrial paper-first query-list route
  • 中文传播层检索:截至 2026-03-23,围绕 AIGQHintQTaobao query recommendation 补做公开网页、site:xiaohongshu.comxhslink 检索后,仍未拿到稳定高价值中文机制稿或可复用小红书线索。

下一步

  • AIGQ 正式并入 interaction interface / final output carrier / user-effort offloading 观察表,显式加入 query list 这一类终态接口。
  • AIGQOneSearch、跨域新闻推荐里的 interest query generator 放到同一张 query-side interface 表里,比较它们分别服务 homepage hintitem retrievalnews recall 的不同 consumer。
  • 继续观察这条线是否会出现官方 repo、中文机制稿或稳定 xhslink;如果后续公开 quantization / distillation,还可以再补一次部署层 story。