推荐里的 RL 还可以先学兴趣查询：跨域行为 -> query list -> 在线召回学生

背景

补完 profile constructor、observation verbalizer / text context constructor、search controller 这些层之后，站里对推荐里的 RL consumer 已经有了一个比较清楚的图景：

有些路线直接修最终推荐输出。
有些路线修中间 reasoning 轨迹。
有些路线前移到 profile、verbalizer、tool-use 或 simulator。

但这套图景还默认了一件事：

如果 RL 不直接碰 ranking，它生成的东西大多只是“文本上下文”或“用户画像”。

这一轮沿 cross-domain news recommendation、interest modeling、GRPO、on-policy distillation 做定向检索时，我补到一个很适合改写这条默认假设的新入口：

Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation

核完 arXiv 摘要、PDF 和 GitHub API 后，我更倾向于把它记成：

推荐里的 RL 还可以先训练 interest query constructor，再把策略蒸馏回在线召回学生模型

也就是：

它生成的不是解释性文字，也不是长期画像，而是一组可以直接拿去检索新闻候选的 query list

核心判断

这条线补出的不是 profile，也不是 verbalized context，而是 `retrieval-ready query carrier`

这篇论文的第一层增量，不是“又一个用 LLM 做新闻推荐”的系统。

真正值得记住的是它把 user interest 的中间表示写成了：

interest-driven news search queries

也就是说，模型最后吐出来的不是：

给人看的 natural-language profile
给下游 LLM 吃的 history summary
给 ranker 做对齐的一段 explanation

而是：

一组可直接丢进 ANN news index 的查询

这个系统位置很重要，因为它让 language carrier 在推荐里又分出了一类此前还没单独写清的对象：

profile text
verbalized context
retrieval-ready query list

前两类更多是在“描述用户”或“翻译日志”。这篇 paper 则是在：

把跨域行为压成可以立刻执行检索的兴趣接口

所以它更适合被放进一层新的记录：

interest query constructor / retrieval interface

而不是重新塞回 profile constructor 或 verbalization。

`GRPO` 在这里修的不是 item ranking，而是“哪些 query 才值得被系统当成兴趣接口”

论文把 user interest generation 直接写成 policy optimization 问题，训练对象是一个生成 query list 的 teacher 模型。

更关键的是，reward 不是单一分数，而是明确拆成五类：

retrieval alignment
interest coverage
query specificity
intra-list diversity
structural validity

这个设计很有代表性，因为它说明这里的 RL 真正优化的不是最终点击本身，而是：

一组兴趣查询有没有同时满足可检索、够覆盖、不过泛、不过重复、还能稳定落到执行格式

也正因为这样，这条线和此前几条路线的系统对象其实明显不同：

RecLM / LettinGo 更像优化 profile 本体
From Logs to Language 更像优化输入 verbalizer
PROMISE / GRSU 更像在 serving-time 修搜索轨迹
这篇 paper 则是在训练一个 offline interest-to-query policy

它的 consumer 不是 judge、不是 reasoner，也不是用户本人，而是：

新闻召回层的 ANN index

reward 设计还暴露了一个更细的事实：`interest coverage` 比“写得像不像”更容易成为主瓶颈

继续看 PDF 里的 reward ablation，会发现这篇 paper 不是只报五个 reward 名字就结束。

作者明确写到：

去掉 retrieval alignment 后，query 会变得“语义上像是真的”，但和新闻索引的可检索性脱节
去掉 interest coverage 后，模型最容易 reward hacking，开始漂向互相断开的兴趣点
去掉 query specificity 后，query 会变得过于粗泛

这里最值得沉淀的不是某一项数值，而是一个系统判断：

推荐里的 interest query constructor，不只是语言生成器，它还必须对索引可消费性和主题覆盖负责

这就让它和一般的 textual profile 进一步分开了。

profile 可以容忍更抽象、更概括的表述； query list 不行，因为它要直接进入 retrieval。

所以后面如果要扩充 Story Lab 的方法表，这条线至少还应该多记一列：

carrier executability

至少先区分：

主要给人读的文本
主要给 LLM 吃的文本
主要给检索系统执行的文本

这篇 paper 把 `teacher-heavy RL -> student-heavy serving` 的交接写得非常干净

这条路线第二个特别有价值的点，是它没有把高算力 LLM-RL 直接搬进线上。

相反，论文把两层角色拆得很清楚：

Qwen2.5-32B teacher 负责高成本的 interest abstraction 和 GRPO
Qwen2.5-0.5B student 通过 on-policy distillation 接管线上生成

这个交接不是抽象口号，而是正文里有明确数字：

teacher 的 Recall@10 / NDCG@10 是 0.271 / 0.241
student 仍能保住到 0.261 / 0.235
对照最强 baseline HSTU 只有 0.250 / 0.228
单张 A100 上 teacher 只有 2 users/s
同样硬件下 student 到 67 users/s

这组数字说明一个非常直接的工业结论：

高质量的 LLM-RL policy 可以停留在训练侧，而 serving 侧只接收被蒸馏后的低延迟接口

这也让 Story Lab 的记录维度又该多一项：

serving handoff

至少先区分：

teacher 直接 serving
teacher offline + student online
teacher 只做 data / reward / query construction

否则这篇 paper 和 OpenOneRec/verl_distillation、From Logs to Language、LinkedIn textual representation 这些路线，都会被粗写成同一种“有 distillation”。

这条线还把 `compute scaling` 从 reasoning 推荐延伸到了 interest modeling

论文另一个很值得记的信号，是它不仅看 model size，还看 inference-time sampling。

作者明确分析了两类 compute 维度：

model capacity scaling
best-of-N inference-time sampling

结果都表现出比较稳定的提升趋势，只是后者有明显的边际递减，而且生产环境最后还是因为延迟约束回到 N = 1。

这说明什么？

说明在这条路线里，LLM-RL 不只是学一个静态 query generator，而是在把：

interest abstraction quality

和

可投入的计算预算

绑在一起考虑。

这点和 PROMISE 那种 serving-time search controller 不同，但它们又共享了一个更上层的判断：

推荐里的额外计算，不一定花在最终 item decoding，也可以花在中间兴趣接口的构造质量上

它的线上信号很克制，但足够说明这不是只停在 offline benchmark 的 paper

这篇 paper 最好的一点，是它没有只停在离线检索指标。

正文明确给出 7 天线上 A/B：

DAU +0.95%
CTR +0.22%
Cold User DAU +4.38%

这里最值得写进长期记忆的不是绝对 lift 大小，而是第三项：

cold-user DAU

这说明这条路线特别擅长的地方，不只是“让老用户的历史建模更精细”，而是：

当 direct news history 不足时，用 cross-domain signals 先补出可执行兴趣接口

这也让它和纯序列建模、纯 profile summarization 再次分开。

更准确地说，这条线更像在做：

cross-domain behavior -> reusable retrieval intent

公开边界

这条线当前仍更适合记成 industrial paper-first。

我这轮直接用论文全标题和 arXiv id 2602.15005 做 GitHub API 精确检索，截至 2026-03-21，没有看到稳定官方仓。

这意味着当前公开世界里能核实到的是：

arXiv 摘要
PDF 里的方法、reward、distillation 和线上指标
“暂无官方代码仓”这一公开边界

所以它现在还不是可复查 workflow，更像一个值得尽快并入方法图的工业信号点。

中文传播层

这一轮我也补做了：

Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 中文
2602.15005 中文
site:xiaohongshu.com 跨域新闻推荐大模型
xhslink 跨域新闻推荐大模型

截至 2026-03-21，检索结果主要还是 arXiv 原文页、AlphaXiv、arXiv Daily 这类聚合页和自动摘要页，没有拿到稳定高价值中文机制稿，也没有可复用的 xhslink。

所以这条线当前仍应完全以论文原文为准。

证据与来源

Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation：arXiv 摘要页明确给出系统主线，即用 GRPO 训练 LLM 生成 interest-driven news search queries，再做 on-policy distillation，并报告 offline 与 online 效果。
arXiv PDF（同一论文）：正文 4.3-4.4 明确写出五类 reward retrieval alignment / interest coverage / query specificity / intra-list diversity / structural validity，以及 reverse-KL on-policy distillation 目标。
arXiv PDF（同一论文）：5.2-5.4 给出 offline 指标、7 天线上 A/B 与冷启动用户收益；Table 6 给出 Qwen2.5-32B teacher 的 2 users/s 与 Qwen2.5-0.5B student 的 67 users/s。
GitHub API 精确检索论文全标题与 arXiv id 2602.15005：截至 2026-03-21 未看到稳定官方仓，因此当前公开边界仍是 paper-first。
本轮补做 Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 中文、2602.15005 中文、site:xiaohongshu.com 跨域新闻推荐大模型 与 xhslink 跨域新闻推荐大模型：截至 2026-03-21，仍未找到稳定高价值中文机制稿或可复用小红书线索。

下一步

把这篇 paper 和 From Logs to Language / High Fidelity Textual User Representation / DeepRec 放到同一张语言接口表里，至少先区分 profile text / verbalized context / retrieval-ready query list 三种 carrier。
在统一方法表里新增 carrier executability 与 serving handoff 两列，避免把“可执行 query interface”和“给人读的画像”继续写成一种文本对象。
继续跟踪是否出现官方仓或更高价值的公开讨论；在此之前，不让聚合摘要页覆盖一手事实判断。

推荐里的 RL 还可以先学兴趣查询：跨域行为 -> query list -> 在线召回学生

背景

核心判断

这条线补出的不是 profile，也不是 verbalized context，而是 retrieval-ready query carrier

GRPO 在这里修的不是 item ranking，而是“哪些 query 才值得被系统当成兴趣接口”

reward 设计还暴露了一个更细的事实：interest coverage 比“写得像不像”更容易成为主瓶颈

这篇 paper 把 teacher-heavy RL -> student-heavy serving 的交接写得非常干净

这条线还把 compute scaling 从 reasoning 推荐延伸到了 interest modeling