AIGQ：生成式推荐开始把最终交付物从 item list 扩到 query list

背景

补完 OneSearch、RecPilot、从 Netflix 到 LinkedIn：RL 开始前移到推荐里的 logs-to-language 文本构造层 和 Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 之后，站里已经能把推荐系统的公开路线大致拆成几类：

最终交付 item list 的端到端生成式推荐。
最终交付 report 的深研究式推荐。
先把 logs、profile 或 query 变成上游语言接口，再交给下游召回或推理模块。

但这一轮继续做增量检索时，我发现还有一个此前没有单独成 story 的终态接口：

query list

也就是，系统最后不是直接给 item，也不是只生成解释，而是先替用户给出一组更可能命中的搜索 query。

这一轮我没有继续依赖旧版 search-layer 做主判断，而是直接回到一手来源做定向核验，最终锁定：

核完之后，我更倾向于把它记成：

生成式推荐开始把最终交付物从 item list 扩到 query list

核心判断

这条线的关键，不是“淘宝也做生成式推荐”，而是推荐系统开始直接交付 `query list`

如果只看标题，AIGQ 很容易被误读成：

又一个搜索/推荐里的 generative model

但这篇 paper 最该单独记下来的地方，不是“用 LLM 生成 query”本身，而是它明确把系统最终交付物写成了：

ranked query list

论文引言把 HintQ 场景说得很清楚：

这是淘宝首页的 pre-search query recommendation。
输入不是当前 query，而是用户历史行为和 profile。
输出不是 item，而是一组按顺序排列的 hint queries。

这和站里已经写过的几类系统并不是一回事。

OneSearch 仍然是在交付 item。
RecPilot 交付的是 report。
跨域新闻推荐那条路线交付的是 retrieval-ready query list，但它最终仍服务新闻召回 student。
AIGQ 则把 query list 本身直接做成了首页推荐界面的最终输出。

所以对 Story Lab 来说，它逼出了一个此前还没在终态接口表里写清楚的类别：

query list as final output carrier

它真正改写的是 `user-to-item` 心智，而不是简单替换一个 recall module

AIGQ 的第二个增量，是它把推荐里的系统心智从：

直接给用户 item

改成了：

先替用户猜更好的 query，再把 query 交给后续搜索栈

这意味着它在用户侧卸载的工作不是“选哪个 item”，而是更前面那一步：

用户如何表达自己想搜什么

论文直接把传统 HintQ 的问题写成：

依赖 ID matching 和 co-click heuristic，语义浅。
冷启动差。
新奇性低。
当前工业常见做法是先离线构造 context-to-query 映射，再在线当 recall 用，但很难兼顾多兴趣与短期 intent。

因此 AIGQ 真正在替换的不是某个小 recall 通道，而是：

pre-search intent articulation

这点和 OneSearch 很不一样。

OneSearch 更像把 MCA 的 recall / pre-ranking / ranking 三段压成一个 stack； AIGQ 则更像在 item retrieval 之前，先把“用户此刻最该搜什么”做成一个可学习、可排序、可在线部署的生成问题。

这条线把 `RL consumer` 压到了 list-wise query generator，而不是 item generator

AIGQ 里最值得记的 RL 信号，也不是泛泛的“又用了 GRPO”。

论文把这层写得非常具体：

先用 IL-SFT 做 list-wise supervised fine-tuning。
再用 IL-GRPO 做 list-aware reinforcement learning。
优势不是只在 sequence 层算，而是显式拆成 query advantage + sequence advantage。

也就是说，它要优化的不是单个 token 的语法流畅性，而是：

每个 query slot 的局部质量。
整个 query list 的全局一致性、覆盖度和多样性。

更关键的是，论文 3.5.2 还把 reward provider 写得很清楚：

CTR ranking model

而且不是静态 provider。

它会随每日交互日志更新，再回流成新的 CTR reward 去更新生成 policy。

所以这条路线的更准确写法不是：

query recommendation 也上了 RL

而是：

real-world CTR ranker becomes the daily reward supplier for a list-wise query generator

这让它和站里已经记过的几类 consumer 又拉开了：

OneMall 更像 ranking model -> retrieval reward supplier
OneSearch 更像 generator first + reward-model selector
AIGQ 则更像 query list generator + daily CTR-aligned IL-GRPO

`AIGQ-Direct + AIGQ-Think` 的关键，不是两个模型并列，而是两条不同 latency owner 的部署路径

我觉得这篇 paper 最值得单独立起来的第二个系统位，是它的部署结构。

摘要里先给出：

AIGQ-Direct
AIGQ-Think

如果只看名字，很容易把它当成普通 ablation。

但正文 4 节写得很清楚，这其实是两条不同的线上职责：

AIGQ-u2q nearline recall
AIGQ-x2q real-time recall

其中：

AIGQ-Direct 走异步近线推理，把 personalized user-to-query 结果写入用户级 cache。
AIGQ-Think 先在离线生成 trigger -> query 的 CoT 映射，再蒸成实时可检索的 x2q index。

这层设计很关键，因为它说明这条线并没有把大模型强塞进 request-time loop。

更准确地说，它把两类时效需求分开了：

近线 cache 负责深个性化，但会有一点 recency lag。
实时 trigger retrieval 负责补最近意图，不要求在线跑完整 CoT。

这让 AIGQ 很像 query recommendation 版本的：

nearline cache + realtime trigger refinement

而不是单一路径上线的 query generator。

`AIGQ-Think` 说明 query recommendation 也开始显式吃 reasoning token，但 reasoning 本身不直接面向用户

AIGQ-Think 还有一个很值得记的点：

它没有把 reasoning 直接暴露成用户可见解释。

论文 3.4.2 和 3.5.3 的设计说明，它的 reasoning 更像中间结构：

先把用户日级 session 压成多兴趣 points。
再从这些结构化 trigger 生成 query。
trigger token 和 query token 分别吃不同 reward，做 Decoupled Trigger Reward Optimization。

这意味着这里的 reasoning 不是面向最终 UI 的 explanation。

它更像：

latent trigger constructor

然后再被部署层蒸成 x2q 索引。

把它和 OneRec-Think、RecPilot 放一起看，会出现一个更清楚的区别：

OneRec-Think 的 reasoning 更接近 item recommendation 里的推理路径。
RecPilot 的 reasoning 更接近探索轨迹和报告撰写。
AIGQ-Think 的 reasoning 更接近 query-side trigger induction。

这条线还顺手补了一类此前没单独写开的 action space：`natural-language query space`

AIGQ 的另一个价值，是它让站里现有的 action-space 观察位更完整了一点。

论文 2.2 明确说，它和 Semantic-ID 路线不一样：

AIGQ operates entirely in natural language space

也就是说，这里的 policy 并不在 itemic token 或 semantic ID 上更新。

它直接在自然语言 query space 上生成。

这件事的重要性在于，当前 Story Lab 里已经有：

Semantic-ID generation
candidate-constrained native vocabulary generation
rerank-stage closed candidate set

而 AIGQ 又补出一个很邻近、但 consumer 完全不同的空间：

natural-language query generation for downstream search

它和 TextRec 也不是同一类。

TextRec 仍然是在候选 item 内选 item； AIGQ 则是在 query 侧直接创造用户的下一步检索接口。

线上证据很硬，而且价值不只在 CTR

这篇 paper 的工业信号也够强，不是只停在方法描述。

离线 Table 1 先给出了一组很清楚的对照：

AIGQ-Think IL-SFT + IL-GRPO 的 Cate HR@30 = 0.4704
Query HR@30 = 0.0745
Sem. Sim. = 0.6624
Unique Cates = 9.8

对照组里：

EBR 的 Cate HR@30 = 0.1998
GPT-5.1 的 Query HR@30 = 0.0021
AIGQ-Direct IL-SFT + IL-GRPO 的 Query HR@30 = 0.0679

这说明 AIGQ-Think 的收益不只是多样性，而是 query-side accuracy 和 semantic alignment 一起抬。

Table 2 的 ablation 也很关键：

AIGQ-Direct 从 base SFT 的 Query HR = 0.0428 提到 IL-GRPO 后的 0.0679
AIGQ-Think 从 0.0549 提到 0.0745

这说明它不是“reasoning 自然更强”。

真正抬起来的是：

interest-guided labels + reasoning augmentation + IL-GRPO

的组合。

线上 Table 3 则更硬：

HintQ UCTR +7.42%
Attributed orders +10.31%
Attributed GMV +10.68%
LT-7 retention +3.73%
Search UV +0.20%
Unique queries 79.3%
Unique leaf categories 37.3%

这意味着 AIGQ 的价值不是只给首页多一些新 query。

它同时把：

conversion
long-term retention
discovery diversity

都做成了正向。

而且论文还单独强调：开启 daily RL updates 之后，PVR 和 CTR 会继续稳定提升。

这逼着 Story Lab 在终态接口表里正式补进 `query list`

补完这篇 paper 之后，我觉得此前那张 interaction interface / final output carrier / user-effort offloading 表必须改。

因为下面这些最终交付物已经不能混写：

query list
item list
dialogue response
investigation trace
decision-support report

如果不把 AIGQ 单独并进去，就会继续把“替用户表达搜索意图”和“替用户选商品”都写成同一种推荐输出。

更具体一点，下一步更适合把：

AIGQ / OneSearch / DeepRec / RecPilot / ChatCRS / SAPIENT / CRAVE / RecThinker

横向压成一张更明确的终态接口表。

证据与来源

AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation：arXiv 摘要页确认论文于 2026-03-20 提交；摘要直接给出 IL-SFT、IL-GRPO、AIGQ-Direct、AIGQ-Think 与 hybrid offline-online architecture。
AIGQ arXiv HTML：1 节明确写出 HintQ 是无当前 query 的 pre-search query recommendation，3.5 节明确给出 query advantage + sequence advantage、daily CTR reward 更新与 trigger/query 分离优化，4 节明确给出 u2q nearline recall + x2q real-time recall 双路径部署。
AIGQ PDF：Table 1/2/3 给出离线 Cate HR@30 / Query HR@30、ablation 和线上 UCTR / orders / GMV / retention / discovery 指标；结论段还明确把后续方向写成 multimodal context 和 quantization / distillation。
GitHub API 定向检索：截至 2026-03-23，按论文全标题、AIGQ 与 arXiv id 2603.19710 检索，未见稳定官方 repo；当前更适合记成 industrial paper-first query-list route。
中文传播层检索：截至 2026-03-23，围绕 AIGQ、HintQ、Taobao query recommendation 补做公开网页、site:xiaohongshu.com 与 xhslink 检索后，仍未拿到稳定高价值中文机制稿或可复用小红书线索。

下一步

把 AIGQ 正式并入 interaction interface / final output carrier / user-effort offloading 观察表，显式加入 query list 这一类终态接口。
把 AIGQ 和 OneSearch、跨域新闻推荐里的 interest query generator 放到同一张 query-side interface 表里，比较它们分别服务 homepage hint、item retrieval 与 news recall 的不同 consumer。
继续观察这条线是否会出现官方 repo、中文机制稿或稳定 xhslink；如果后续公开 quantization / distillation，还可以再补一次部署层 story。

AIGQ：生成式推荐开始把最终交付物从 item list 扩到 query list

背景

核心判断

这条线的关键，不是“淘宝也做生成式推荐”，而是推荐系统开始直接交付 query list

它真正改写的是 user-to-item 心智，而不是简单替换一个 recall module

这条线把 RL consumer 压到了 list-wise query generator，而不是 item generator

AIGQ-Direct + AIGQ-Think 的关键，不是两个模型并列，而是两条不同 latency owner 的部署路径

AIGQ-Think 说明 query recommendation 也开始显式吃 reasoning token，但 reasoning 本身不直接面向用户

这条线还顺手补了一类此前没单独写开的 action space：natural-language query space