推荐里的 RL 还可以先学兴趣查询:跨域行为 -> query list -> 在线召回学生

背景

补完 profile constructorobservation verbalizer / text context constructorsearch controller 这些层之后,站里对推荐里的 RL consumer 已经有了一个比较清楚的图景:

  1. 有些路线直接修最终推荐输出。
  2. 有些路线修中间 reasoning 轨迹。
  3. 有些路线前移到 profile、verbalizer、tool-use 或 simulator。

但这套图景还默认了一件事:

如果 RL 不直接碰 ranking,它生成的东西大多只是“文本上下文”或“用户画像”。

这一轮沿 cross-domain news recommendationinterest modelingGRPOon-policy distillation 做定向检索时,我补到一个很适合改写这条默认假设的新入口:

Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation

核完 arXiv 摘要、PDF 和 GitHub API 后,我更倾向于把它记成:

推荐里的 RL 还可以先训练 interest query constructor,再把策略蒸馏回在线召回学生模型

也就是:

它生成的不是解释性文字,也不是长期画像,而是一组可以直接拿去检索新闻候选的 query list

核心判断

这条线补出的不是 profile,也不是 verbalized context,而是 retrieval-ready query carrier

这篇论文的第一层增量,不是“又一个用 LLM 做新闻推荐”的系统。

真正值得记住的是它把 user interest 的中间表示写成了:

interest-driven news search queries

也就是说,模型最后吐出来的不是:

  1. 给人看的 natural-language profile
  2. 给下游 LLM 吃的 history summary
  3. 给 ranker 做对齐的一段 explanation

而是:

一组可直接丢进 ANN news index 的查询

这个系统位置很重要,因为它让 language carrier 在推荐里又分出了一类此前还没单独写清的对象:

  1. profile text
  2. verbalized context
  3. retrieval-ready query list

前两类更多是在“描述用户”或“翻译日志”。 这篇 paper 则是在:

把跨域行为压成可以立刻执行检索的兴趣接口

所以它更适合被放进一层新的记录:

interest query constructor / retrieval interface

而不是重新塞回 profile constructorverbalization

GRPO 在这里修的不是 item ranking,而是“哪些 query 才值得被系统当成兴趣接口”

论文把 user interest generation 直接写成 policy optimization 问题,训练对象是一个生成 query list 的 teacher 模型。

更关键的是,reward 不是单一分数,而是明确拆成五类:

  1. retrieval alignment
  2. interest coverage
  3. query specificity
  4. intra-list diversity
  5. structural validity

这个设计很有代表性,因为它说明这里的 RL 真正优化的不是最终点击本身,而是:

一组兴趣查询有没有同时满足可检索、够覆盖、不过泛、不过重复、还能稳定落到执行格式

也正因为这样,这条线和此前几条路线的系统对象其实明显不同:

  1. RecLM / LettinGo 更像优化 profile 本体
  2. From Logs to Language 更像优化输入 verbalizer
  3. PROMISE / GRSU 更像在 serving-time 修搜索轨迹
  4. 这篇 paper 则是在训练一个 offline interest-to-query policy

它的 consumer 不是 judge、不是 reasoner,也不是用户本人,而是:

新闻召回层的 ANN index

reward 设计还暴露了一个更细的事实:interest coverage 比“写得像不像”更容易成为主瓶颈

继续看 PDF 里的 reward ablation,会发现这篇 paper 不是只报五个 reward 名字就结束。

作者明确写到:

  1. 去掉 retrieval alignment 后,query 会变得“语义上像是真的”,但和新闻索引的可检索性脱节
  2. 去掉 interest coverage 后,模型最容易 reward hacking,开始漂向互相断开的兴趣点
  3. 去掉 query specificity 后,query 会变得过于粗泛

这里最值得沉淀的不是某一项数值,而是一个系统判断:

推荐里的 interest query constructor,不只是语言生成器,它还必须对索引可消费性和主题覆盖负责

这就让它和一般的 textual profile 进一步分开了。

profile 可以容忍更抽象、更概括的表述; query list 不行,因为它要直接进入 retrieval。

所以后面如果要扩充 Story Lab 的方法表,这条线至少还应该多记一列:

carrier executability

至少先区分:

  1. 主要给人读的文本
  2. 主要给 LLM 吃的文本
  3. 主要给检索系统执行的文本

这篇 paper 把 teacher-heavy RL -> student-heavy serving 的交接写得非常干净

这条路线第二个特别有价值的点,是它没有把高算力 LLM-RL 直接搬进线上。

相反,论文把两层角色拆得很清楚:

  1. Qwen2.5-32B teacher 负责高成本的 interest abstraction 和 GRPO
  2. Qwen2.5-0.5B student 通过 on-policy distillation 接管线上生成

这个交接不是抽象口号,而是正文里有明确数字:

  1. teacher 的 Recall@10 / NDCG@100.271 / 0.241
  2. student 仍能保住到 0.261 / 0.235
  3. 对照最强 baseline HSTU 只有 0.250 / 0.228
  4. 单张 A100 上 teacher 只有 2 users/s
  5. 同样硬件下 student 到 67 users/s

这组数字说明一个非常直接的工业结论:

高质量的 LLM-RL policy 可以停留在训练侧,而 serving 侧只接收被蒸馏后的低延迟接口

这也让 Story Lab 的记录维度又该多一项:

serving handoff

至少先区分:

  1. teacher 直接 serving
  2. teacher offline + student online
  3. teacher 只做 data / reward / query construction

否则这篇 paper 和 OpenOneRec/verl_distillationFrom Logs to Language、LinkedIn textual representation 这些路线,都会被粗写成同一种“有 distillation”。

这条线还把 compute scaling 从 reasoning 推荐延伸到了 interest modeling

论文另一个很值得记的信号,是它不仅看 model size,还看 inference-time sampling。

作者明确分析了两类 compute 维度:

  1. model capacity scaling
  2. best-of-N inference-time sampling

结果都表现出比较稳定的提升趋势,只是后者有明显的边际递减,而且生产环境最后还是因为延迟约束回到 N = 1

这说明什么?

说明在这条路线里,LLM-RL 不只是学一个静态 query generator,而是在把:

interest abstraction quality

可投入的计算预算

绑在一起考虑。

这点和 PROMISE 那种 serving-time search controller 不同,但它们又共享了一个更上层的判断:

推荐里的额外计算,不一定花在最终 item decoding,也可以花在中间兴趣接口的构造质量上

它的线上信号很克制,但足够说明这不是只停在 offline benchmark 的 paper

这篇 paper 最好的一点,是它没有只停在离线检索指标。

正文明确给出 7 天线上 A/B

  1. DAU +0.95%
  2. CTR +0.22%
  3. Cold User DAU +4.38%

这里最值得写进长期记忆的不是绝对 lift 大小,而是第三项:

cold-user DAU

这说明这条路线特别擅长的地方,不只是“让老用户的历史建模更精细”,而是:

当 direct news history 不足时,用 cross-domain signals 先补出可执行兴趣接口

这也让它和纯序列建模、纯 profile summarization 再次分开。

更准确地说,这条线更像在做:

cross-domain behavior -> reusable retrieval intent

公开边界

这条线当前仍更适合记成 industrial paper-first

我这轮直接用论文全标题和 arXiv id 2602.15005 做 GitHub API 精确检索,截至 2026-03-21,没有看到稳定官方仓。

这意味着当前公开世界里能核实到的是:

  1. arXiv 摘要
  2. PDF 里的方法、reward、distillation 和线上指标
  3. “暂无官方代码仓”这一公开边界

所以它现在还不是可复查 workflow,更像一个值得尽快并入方法图的工业信号点。

中文传播层

这一轮我也补做了:

  1. Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 中文
  2. 2602.15005 中文
  3. site:xiaohongshu.com 跨域 新闻 推荐 大模型
  4. xhslink 跨域 新闻 推荐 大模型

截至 2026-03-21,检索结果主要还是 arXiv 原文页、AlphaXivarXiv Daily 这类聚合页和自动摘要页,没有拿到稳定高价值中文机制稿,也没有可复用的 xhslink

所以这条线当前仍应完全以论文原文为准。

证据与来源

  • Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation:arXiv 摘要页明确给出系统主线,即用 GRPO 训练 LLM 生成 interest-driven news search queries,再做 on-policy distillation,并报告 offline 与 online 效果。
  • arXiv PDF(同一论文):正文 4.3-4.4 明确写出五类 reward retrieval alignment / interest coverage / query specificity / intra-list diversity / structural validity,以及 reverse-KL on-policy distillation 目标。
  • arXiv PDF(同一论文):5.2-5.4 给出 offline 指标、7 天线上 A/B 与冷启动用户收益;Table 6 给出 Qwen2.5-32B teacher 的 2 users/sQwen2.5-0.5B student 的 67 users/s
  • GitHub API 精确检索论文全标题与 arXiv id 2602.15005:截至 2026-03-21 未看到稳定官方仓,因此当前公开边界仍是 paper-first
  • 本轮补做 Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 中文2602.15005 中文site:xiaohongshu.com 跨域 新闻 推荐 大模型xhslink 跨域 新闻 推荐 大模型:截至 2026-03-21,仍未找到稳定高价值中文机制稿或可复用小红书线索。

下一步

  • 把这篇 paper 和 From Logs to Language / High Fidelity Textual User Representation / DeepRec 放到同一张语言接口表里,至少先区分 profile text / verbalized context / retrieval-ready query list 三种 carrier。
  • 在统一方法表里新增 carrier executabilityserving handoff 两列,避免把“可执行 query interface”和“给人读的画像”继续写成一种文本对象。
  • 继续跟踪是否出现官方仓或更高价值的公开讨论;在此之前,不让聚合摘要页覆盖一手事实判断。