AIGQ:生成式推荐开始把最终交付物从 item list 扩到 query list
背景
补完 OneSearch、RecPilot、从 Netflix 到 LinkedIn:RL 开始前移到推荐里的 logs-to-language 文本构造层 和 Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 之后,站里已经能把推荐系统的公开路线大致拆成几类:
- 最终交付
item list的端到端生成式推荐。 - 最终交付
report的深研究式推荐。 - 先把 logs、profile 或 query 变成上游语言接口,再交给下游召回或推理模块。
但这一轮继续做增量检索时,我发现还有一个此前没有单独成 story 的终态接口:
query list
也就是,系统最后不是直接给 item,也不是只生成解释,而是先替用户给出一组更可能命中的搜索 query。
这一轮我没有继续依赖旧版 search-layer 做主判断,而是直接回到一手来源做定向核验,最终锁定:
AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query RecommendationAIGQarXiv HTMLAIGQPDF
核完之后,我更倾向于把它记成:
生成式推荐开始把最终交付物从 item list 扩到 query list
核心判断
这条线的关键,不是“淘宝也做生成式推荐”,而是推荐系统开始直接交付 query list
如果只看标题,AIGQ 很容易被误读成:
又一个搜索/推荐里的 generative model
但这篇 paper 最该单独记下来的地方,不是“用 LLM 生成 query”本身,而是它明确把系统最终交付物写成了:
ranked query list
论文引言把 HintQ 场景说得很清楚:
- 这是淘宝首页的 pre-search query recommendation。
- 输入不是当前 query,而是用户历史行为和 profile。
- 输出不是 item,而是一组按顺序排列的 hint queries。
这和站里已经写过的几类系统并不是一回事。
OneSearch仍然是在交付 item。RecPilot交付的是 report。- 跨域新闻推荐那条路线交付的是
retrieval-ready query list,但它最终仍服务新闻召回 student。 AIGQ则把 query list 本身直接做成了首页推荐界面的最终输出。
所以对 Story Lab 来说,它逼出了一个此前还没在终态接口表里写清楚的类别:
query list as final output carrier
它真正改写的是 user-to-item 心智,而不是简单替换一个 recall module
AIGQ 的第二个增量,是它把推荐里的系统心智从:
直接给用户 item
改成了:
先替用户猜更好的 query,再把 query 交给后续搜索栈
这意味着它在用户侧卸载的工作不是“选哪个 item”,而是更前面那一步:
用户如何表达自己想搜什么
论文直接把传统 HintQ 的问题写成:
- 依赖 ID matching 和 co-click heuristic,语义浅。
- 冷启动差。
- 新奇性低。
- 当前工业常见做法是先离线构造
context-to-query映射,再在线当 recall 用,但很难兼顾多兴趣与短期 intent。
因此 AIGQ 真正在替换的不是某个小 recall 通道,而是:
pre-search intent articulation
这点和 OneSearch 很不一样。
OneSearch 更像把 MCA 的 recall / pre-ranking / ranking 三段压成一个 stack; AIGQ 则更像在 item retrieval 之前,先把“用户此刻最该搜什么”做成一个可学习、可排序、可在线部署的生成问题。
这条线把 RL consumer 压到了 list-wise query generator,而不是 item generator
AIGQ 里最值得记的 RL 信号,也不是泛泛的“又用了 GRPO”。
论文把这层写得非常具体:
- 先用
IL-SFT做 list-wise supervised fine-tuning。 - 再用
IL-GRPO做 list-aware reinforcement learning。 - 优势不是只在 sequence 层算,而是显式拆成
query advantage + sequence advantage。
也就是说,它要优化的不是单个 token 的语法流畅性,而是:
- 每个 query slot 的局部质量。
- 整个 query list 的全局一致性、覆盖度和多样性。
更关键的是,论文 3.5.2 还把 reward provider 写得很清楚:
CTR ranking model
而且不是静态 provider。
它会随每日交互日志更新,再回流成新的 CTR reward 去更新生成 policy。
所以这条路线的更准确写法不是:
query recommendation 也上了 RL
而是:
real-world CTR ranker becomes the daily reward supplier for a list-wise query generator
这让它和站里已经记过的几类 consumer 又拉开了:
OneMall更像ranking model -> retrieval reward supplierOneSearch更像generator first + reward-model selectorAIGQ则更像query list generator + daily CTR-aligned IL-GRPO
AIGQ-Direct + AIGQ-Think 的关键,不是两个模型并列,而是两条不同 latency owner 的部署路径
我觉得这篇 paper 最值得单独立起来的第二个系统位,是它的部署结构。
摘要里先给出:
AIGQ-DirectAIGQ-Think
如果只看名字,很容易把它当成普通 ablation。
但正文 4 节写得很清楚,这其实是两条不同的线上职责:
AIGQ-u2q nearline recallAIGQ-x2q real-time recall
其中:
AIGQ-Direct走异步近线推理,把 personalizeduser-to-query结果写入用户级 cache。AIGQ-Think先在离线生成trigger -> query的 CoT 映射,再蒸成实时可检索的x2qindex。
这层设计很关键,因为它说明这条线并没有把大模型强塞进 request-time loop。
更准确地说,它把两类时效需求分开了:
- 近线 cache 负责深个性化,但会有一点 recency lag。
- 实时 trigger retrieval 负责补最近意图,不要求在线跑完整 CoT。
这让 AIGQ 很像 query recommendation 版本的:
nearline cache + realtime trigger refinement
而不是单一路径上线的 query generator。
AIGQ-Think 说明 query recommendation 也开始显式吃 reasoning token,但 reasoning 本身不直接面向用户
AIGQ-Think 还有一个很值得记的点:
它没有把 reasoning 直接暴露成用户可见解释。
论文 3.4.2 和 3.5.3 的设计说明,它的 reasoning 更像中间结构:
- 先把用户日级 session 压成多兴趣 points。
- 再从这些结构化 trigger 生成 query。
- trigger token 和 query token 分别吃不同 reward,做
Decoupled Trigger Reward Optimization。
这意味着这里的 reasoning 不是面向最终 UI 的 explanation。
它更像:
latent trigger constructor
然后再被部署层蒸成 x2q 索引。
把它和 OneRec-Think、RecPilot 放一起看,会出现一个更清楚的区别:
OneRec-Think的 reasoning 更接近 item recommendation 里的推理路径。RecPilot的 reasoning 更接近探索轨迹和报告撰写。AIGQ-Think的 reasoning 更接近query-side trigger induction。
这条线还顺手补了一类此前没单独写开的 action space:natural-language query space
AIGQ 的另一个价值,是它让站里现有的 action-space 观察位更完整了一点。
论文 2.2 明确说,它和 Semantic-ID 路线不一样:
AIGQ operates entirely in natural language space
也就是说,这里的 policy 并不在 itemic token 或 semantic ID 上更新。
它直接在自然语言 query space 上生成。
这件事的重要性在于,当前 Story Lab 里已经有:
Semantic-ID generationcandidate-constrained native vocabulary generationrerank-stage closed candidate set
而 AIGQ 又补出一个很邻近、但 consumer 完全不同的空间:
natural-language query generation for downstream search
它和 TextRec 也不是同一类。
TextRec 仍然是在候选 item 内选 item; AIGQ 则是在 query 侧直接创造用户的下一步检索接口。
线上证据很硬,而且价值不只在 CTR
这篇 paper 的工业信号也够强,不是只停在方法描述。
离线 Table 1 先给出了一组很清楚的对照:
AIGQ-Think IL-SFT + IL-GRPO的Cate HR@30 = 0.4704Query HR@30 = 0.0745Sem. Sim. = 0.6624Unique Cates = 9.8
对照组里:
EBR的Cate HR@30 = 0.1998GPT-5.1的Query HR@30 = 0.0021AIGQ-Direct IL-SFT + IL-GRPO的Query HR@30 = 0.0679
这说明 AIGQ-Think 的收益不只是多样性,而是 query-side accuracy 和 semantic alignment 一起抬。
Table 2 的 ablation 也很关键:
AIGQ-Direct从 baseSFT的Query HR = 0.0428提到IL-GRPO后的0.0679AIGQ-Think从0.0549提到0.0745
这说明它不是“reasoning 自然更强”。
真正抬起来的是:
interest-guided labels + reasoning augmentation + IL-GRPO
的组合。
线上 Table 3 则更硬:
HintQ UCTR +7.42%Attributed orders +10.31%Attributed GMV +10.68%LT-7 retention +3.73%Search UV +0.20%Unique queries 79.3%Unique leaf categories 37.3%
这意味着 AIGQ 的价值不是只给首页多一些新 query。
它同时把:
- conversion
- long-term retention
- discovery diversity
都做成了正向。
而且论文还单独强调:开启 daily RL updates 之后,PVR 和 CTR 会继续稳定提升。
这逼着 Story Lab 在终态接口表里正式补进 query list
补完这篇 paper 之后,我觉得此前那张 interaction interface / final output carrier / user-effort offloading 表必须改。
因为下面这些最终交付物已经不能混写:
query listitem listdialogue responseinvestigation tracedecision-support report
如果不把 AIGQ 单独并进去,就会继续把“替用户表达搜索意图”和“替用户选商品”都写成同一种推荐输出。
更具体一点,下一步更适合把:
AIGQ / OneSearch / DeepRec / RecPilot / ChatCRS / SAPIENT / CRAVE / RecThinker
横向压成一张更明确的终态接口表。
证据与来源
AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation:arXiv 摘要页确认论文于2026-03-20提交;摘要直接给出IL-SFT、IL-GRPO、AIGQ-Direct、AIGQ-Think与hybrid offline-online architecture。AIGQarXiv HTML:1节明确写出 HintQ 是无当前 query 的 pre-search query recommendation,3.5节明确给出query advantage + sequence advantage、dailyCTR reward更新与 trigger/query 分离优化,4节明确给出u2q nearline recall + x2q real-time recall双路径部署。AIGQPDF:Table 1/2/3给出离线Cate HR@30 / Query HR@30、ablation 和线上UCTR / orders / GMV / retention / discovery指标;结论段还明确把后续方向写成 multimodal context 和 quantization / distillation。- GitHub API 定向检索:截至
2026-03-23,按论文全标题、AIGQ与 arXiv id2603.19710检索,未见稳定官方 repo;当前更适合记成industrial paper-first query-list route。 - 中文传播层检索:截至
2026-03-23,围绕AIGQ、HintQ、Taobao query recommendation补做公开网页、site:xiaohongshu.com与xhslink检索后,仍未拿到稳定高价值中文机制稿或可复用小红书线索。
下一步
- 把
AIGQ正式并入interaction interface / final output carrier / user-effort offloading观察表,显式加入query list这一类终态接口。 - 把
AIGQ和OneSearch、跨域新闻推荐里的interest query generator放到同一张 query-side interface 表里,比较它们分别服务homepage hint、item retrieval与news recall的不同 consumer。 - 继续观察这条线是否会出现官方 repo、中文机制稿或稳定
xhslink;如果后续公开quantization / distillation,还可以再补一次部署层 story。