推荐里的 RL 还可以先学兴趣查询:跨域行为 -> query list -> 在线召回学生
背景
补完 profile constructor、observation verbalizer / text context constructor、search controller 这些层之后,站里对推荐里的 RL consumer 已经有了一个比较清楚的图景:
- 有些路线直接修最终推荐输出。
- 有些路线修中间 reasoning 轨迹。
- 有些路线前移到 profile、verbalizer、tool-use 或 simulator。
但这套图景还默认了一件事:
如果 RL 不直接碰 ranking,它生成的东西大多只是“文本上下文”或“用户画像”。
这一轮沿 cross-domain news recommendation、interest modeling、GRPO、on-policy distillation 做定向检索时,我补到一个很适合改写这条默认假设的新入口:
Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation
核完 arXiv 摘要、PDF 和 GitHub API 后,我更倾向于把它记成:
推荐里的 RL 还可以先训练 interest query constructor,再把策略蒸馏回在线召回学生模型
也就是:
它生成的不是解释性文字,也不是长期画像,而是一组可以直接拿去检索新闻候选的 query list
核心判断
这条线补出的不是 profile,也不是 verbalized context,而是 retrieval-ready query carrier
这篇论文的第一层增量,不是“又一个用 LLM 做新闻推荐”的系统。
真正值得记住的是它把 user interest 的中间表示写成了:
interest-driven news search queries
也就是说,模型最后吐出来的不是:
- 给人看的 natural-language profile
- 给下游 LLM 吃的 history summary
- 给 ranker 做对齐的一段 explanation
而是:
一组可直接丢进 ANN news index 的查询
这个系统位置很重要,因为它让 language carrier 在推荐里又分出了一类此前还没单独写清的对象:
profile textverbalized contextretrieval-ready query list
前两类更多是在“描述用户”或“翻译日志”。 这篇 paper 则是在:
把跨域行为压成可以立刻执行检索的兴趣接口
所以它更适合被放进一层新的记录:
interest query constructor / retrieval interface
而不是重新塞回 profile constructor 或 verbalization。
GRPO 在这里修的不是 item ranking,而是“哪些 query 才值得被系统当成兴趣接口”
论文把 user interest generation 直接写成 policy optimization 问题,训练对象是一个生成 query list 的 teacher 模型。
更关键的是,reward 不是单一分数,而是明确拆成五类:
retrieval alignmentinterest coveragequery specificityintra-list diversitystructural validity
这个设计很有代表性,因为它说明这里的 RL 真正优化的不是最终点击本身,而是:
一组兴趣查询有没有同时满足可检索、够覆盖、不过泛、不过重复、还能稳定落到执行格式
也正因为这样,这条线和此前几条路线的系统对象其实明显不同:
RecLM / LettinGo更像优化 profile 本体From Logs to Language更像优化输入 verbalizerPROMISE / GRSU更像在 serving-time 修搜索轨迹- 这篇 paper 则是在训练一个
offline interest-to-query policy
它的 consumer 不是 judge、不是 reasoner,也不是用户本人,而是:
新闻召回层的 ANN index
reward 设计还暴露了一个更细的事实:interest coverage 比“写得像不像”更容易成为主瓶颈
继续看 PDF 里的 reward ablation,会发现这篇 paper 不是只报五个 reward 名字就结束。
作者明确写到:
- 去掉
retrieval alignment后,query 会变得“语义上像是真的”,但和新闻索引的可检索性脱节 - 去掉
interest coverage后,模型最容易 reward hacking,开始漂向互相断开的兴趣点 - 去掉
query specificity后,query 会变得过于粗泛
这里最值得沉淀的不是某一项数值,而是一个系统判断:
推荐里的 interest query constructor,不只是语言生成器,它还必须对索引可消费性和主题覆盖负责
这就让它和一般的 textual profile 进一步分开了。
profile 可以容忍更抽象、更概括的表述; query list 不行,因为它要直接进入 retrieval。
所以后面如果要扩充 Story Lab 的方法表,这条线至少还应该多记一列:
carrier executability
至少先区分:
- 主要给人读的文本
- 主要给 LLM 吃的文本
- 主要给检索系统执行的文本
这篇 paper 把 teacher-heavy RL -> student-heavy serving 的交接写得非常干净
这条路线第二个特别有价值的点,是它没有把高算力 LLM-RL 直接搬进线上。
相反,论文把两层角色拆得很清楚:
Qwen2.5-32Bteacher 负责高成本的 interest abstraction 和GRPOQwen2.5-0.5Bstudent 通过 on-policy distillation 接管线上生成
这个交接不是抽象口号,而是正文里有明确数字:
- teacher 的
Recall@10 / NDCG@10是0.271 / 0.241 - student 仍能保住到
0.261 / 0.235 - 对照最强 baseline
HSTU只有0.250 / 0.228 - 单张
A100上 teacher 只有2 users/s - 同样硬件下 student 到
67 users/s
这组数字说明一个非常直接的工业结论:
高质量的 LLM-RL policy 可以停留在训练侧,而 serving 侧只接收被蒸馏后的低延迟接口
这也让 Story Lab 的记录维度又该多一项:
serving handoff
至少先区分:
teacher 直接 servingteacher offline + student onlineteacher 只做 data / reward / query construction
否则这篇 paper 和 OpenOneRec/verl_distillation、From Logs to Language、LinkedIn textual representation 这些路线,都会被粗写成同一种“有 distillation”。
这条线还把 compute scaling 从 reasoning 推荐延伸到了 interest modeling
论文另一个很值得记的信号,是它不仅看 model size,还看 inference-time sampling。
作者明确分析了两类 compute 维度:
- model capacity scaling
- best-of-N inference-time sampling
结果都表现出比较稳定的提升趋势,只是后者有明显的边际递减,而且生产环境最后还是因为延迟约束回到 N = 1。
这说明什么?
说明在这条路线里,LLM-RL 不只是学一个静态 query generator,而是在把:
interest abstraction quality
和
可投入的计算预算
绑在一起考虑。
这点和 PROMISE 那种 serving-time search controller 不同,但它们又共享了一个更上层的判断:
推荐里的额外计算,不一定花在最终 item decoding,也可以花在中间兴趣接口的构造质量上
它的线上信号很克制,但足够说明这不是只停在 offline benchmark 的 paper
这篇 paper 最好的一点,是它没有只停在离线检索指标。
正文明确给出 7 天线上 A/B:
DAU +0.95%CTR +0.22%Cold User DAU +4.38%
这里最值得写进长期记忆的不是绝对 lift 大小,而是第三项:
cold-user DAU
这说明这条路线特别擅长的地方,不只是“让老用户的历史建模更精细”,而是:
当 direct news history 不足时,用 cross-domain signals 先补出可执行兴趣接口
这也让它和纯序列建模、纯 profile summarization 再次分开。
更准确地说,这条线更像在做:
cross-domain behavior -> reusable retrieval intent
公开边界
这条线当前仍更适合记成 industrial paper-first。
我这轮直接用论文全标题和 arXiv id 2602.15005 做 GitHub API 精确检索,截至 2026-03-21,没有看到稳定官方仓。
这意味着当前公开世界里能核实到的是:
- arXiv 摘要
- PDF 里的方法、reward、distillation 和线上指标
- “暂无官方代码仓”这一公开边界
所以它现在还不是可复查 workflow,更像一个值得尽快并入方法图的工业信号点。
中文传播层
这一轮我也补做了:
Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 中文2602.15005 中文site:xiaohongshu.com 跨域 新闻 推荐 大模型xhslink 跨域 新闻 推荐 大模型
截至 2026-03-21,检索结果主要还是 arXiv 原文页、AlphaXiv、arXiv Daily 这类聚合页和自动摘要页,没有拿到稳定高价值中文机制稿,也没有可复用的 xhslink。
所以这条线当前仍应完全以论文原文为准。
证据与来源
Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation:arXiv 摘要页明确给出系统主线,即用GRPO训练LLM生成interest-driven news search queries,再做 on-policy distillation,并报告 offline 与 online 效果。- arXiv PDF(同一论文):正文
4.3-4.4明确写出五类 rewardretrieval alignment / interest coverage / query specificity / intra-list diversity / structural validity,以及 reverse-KL on-policy distillation 目标。 - arXiv PDF(同一论文):
5.2-5.4给出 offline 指标、7天线上A/B与冷启动用户收益;Table 6给出Qwen2.5-32Bteacher 的2 users/s与Qwen2.5-0.5Bstudent 的67 users/s。 - GitHub API 精确检索论文全标题与 arXiv id
2602.15005:截至2026-03-21未看到稳定官方仓,因此当前公开边界仍是paper-first。 - 本轮补做
Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 中文、2602.15005 中文、site:xiaohongshu.com 跨域 新闻 推荐 大模型与xhslink 跨域 新闻 推荐 大模型:截至2026-03-21,仍未找到稳定高价值中文机制稿或可复用小红书线索。
下一步
- 把这篇 paper 和
From Logs to Language / High Fidelity Textual User Representation / DeepRec放到同一张语言接口表里,至少先区分profile text / verbalized context / retrieval-ready query list三种 carrier。 - 在统一方法表里新增
carrier executability与serving handoff两列,避免把“可执行 query interface”和“给人读的画像”继续写成一种文本对象。 - 继续跟踪是否出现官方仓或更高价值的公开讨论;在此之前,不让聚合摘要页覆盖一手事实判断。