DeepInterestGR:推荐里的 RL,开始把 deep interest 变成 SID 上游接口

背景

补完 LFM / LangPTuneFrom Logs to Language / High Fidelity Textual User RepresentationLearning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 之后,站里已经能把推荐里的上游语言接口粗分成三类:

  1. profile text
  2. verbalized context
  3. retrieval-ready query list

但这张图其实还默认了一件事:

如果 RL 不直接碰最终 ranking,它大多还是在优化一段给人读或给系统执行的文本。

这一轮继续用 arXiv API 按 recommendation + GRPO 做新条目发现,再回到 arXiv HTML、表格与 GitHub API 核验后,我补到一个很适合改写这条默认假设的新入口:

DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

核完之后,我更倾向于把它记成:

推荐里的 RL,开始先挖 deep interest,再把它压成 SID 上游接口

也就是:

它生成的中间对象,不是纯文本 profile,也不是 query list,而是一种会进一步量化成 semantic ID 的 interest carrier

核心判断

这条线真正修的不是“多模态兴趣更丰富”,而是生成式推荐里的 Shallow Interest

这篇 paper 的第一层价值,不是“又一个多模态推荐”,也不是“又一个用 GRPO 的 generative recommender”。

它真正点破的问题,是现有 SID 生成式推荐大多只用标题、描述这类表层行为信号,结果会落进论文说的:

Shallow Interest

也就是:

  1. item 编码停留在 surface-level textual features
  2. 用户历史背后的 latent、可迁移、可解释的兴趣语义没有被真正写进中间接口
  3. 因而 personalization depth 和 recommendation interpretability 都会被一起卡住

这和站里已经写过的几条上游路线都不一样。

LFM / LangPTune 更像:

把偏好压成可读 profile

From Logs to Language / LinkedIn textual representation 更像:

把结构化日志翻译成 LLM 更好消费的文本上下文

Cross-domain news query distillation 更像:

把兴趣压成可直接执行检索的 query list

DeepInterestGR 新增的是:

把深层兴趣本身当成 SID 生成之前的中间语义载体

这逼着 Story Lab 再补一层 interest constructor / tokenization interface

补完这篇 paper 之后,我觉得现有语言接口表还少了一类 carrier。

因为下面这些对象并不是一回事:

  1. profile text
  2. verbalized context
  3. retrieval-ready query list
  4. SID-ready deep interest

前三类最终都还是文本。

DeepInterestGR 则多了一步关键 handoff:

interest text -> semantic embedding -> RQ-VAE quantization -> SID tokens

也就是说,它先让 frontier LLM 挖出 deep textual / visual interests,再把这些兴趣编码进 Qwen3-Embedding-4B 的语义向量,最后通过 RQ-VAE 压成固定长度 SID

这让 Story Lab 后续至少要补一层:

interest constructor / tokenization interface

至少先区分:

  1. 文本最终仍以文本形态被消费
  2. 文本只作为中间语义解释层,最终会被量化成 recommendation-native token interface

否则 DeepInterestGR 很容易被误写成普通 profile 或普通 interest mining

这条线里的 RL 也不是直接优化 item list,而是在给 deep interest 做质量监督

这篇 paper 的第二个关键点,是它并没有直接把 reward 写成“列表好不好”。

论文把整条方法拆得非常清楚:

  1. MLIM

用多个 frontier LLM 及其多模态变体,通过 CoT prompt 挖用户和 item 的 deep interests

  1. RLDI

用轻量二分类器给挖出来的兴趣打 positive / negative 质量标签

  1. IEID

把深层兴趣编码并量化成 SID

  1. SFT + GRPO

再用 Interest-Aware Reward 做后续 generative recommendation 对齐

这里最值得记住的,不是组件名字,而是 reward 消费对象发生了前移。

它不是先问:

最终 item 排得够不够好

而是先问:

当前被挖出来、被量化进 SID 的兴趣语义值不值得让下游生成器相信

因此这条线和 FlexRec / UGR / R2Rank 这类直接在 ranking 或 preference optimization 上动手的方法,也不是同一层。

更接近的说法是:

RL 开始介入 interest constructor,而不是只介入 ranker、reasoner 或 query generator

主结果说明它不是“多堆几个 LLM”而已,MLIM / RL / multimodal 都在被真正消费

这篇 paper 最硬的证据来自几张表放在一起看。

先看 Table 1DeepInterestGR 在三组 Amazon 数据上都稳定高过当前最强公开 baseline:

  1. BeautyHR@10 = 0.1032,高于 MiniOneRec0.0945
  2. SportsHR@10 = 0.0703,高于 MiniOneRec0.0627
  3. InstrumentsHR@10 = 0.0972,高于 MiniOneRec0.0878

论文给出的相对提升也很整齐:

  1. BeautyHR@10 +9.2%
  2. SportsHR@10 +12.1%
  3. InstrumentsHR@10 +10.7%

再看 Table 3,它说明涨点不是“模型大了自然会赢”:

  1. 去掉 MLIMBeauty HR@100.1032 掉到 0.0921
  2. 去掉 IEID,掉到 0.0958
  3. 去掉 Interest-Aware Reward,掉到 0.0973
  4. 只做 SFT 不做 RL,进一步掉到 0.0879

也就是说,这条线真正被消费的是一整套组合:

deep interest mining + tokenization + RL alignment

而不是某个单点 trick。

Table 4/5 还说明两件更细的事:多模型 ensemble 有效,多模态不是摆设

这篇 paper 另一个值得长期记住的点,是它把“frontier LLM world knowledge”怎样进入推荐系统,写得很具体。

Table 4 直接拿不同 LLMMLIM 对照:

  1. GPT-5.1HR@10 = 0.0978
  2. Gemini-3-Pro0.0961
  3. Kimi-K2-Thinking0.0943
  4. Grok-40.0952
  5. Ensemble (All) 直接到 0.1032

同时兴趣质量分 IQ 也从单模型的 0.819-0.847,升到 ensemble 的 0.891

这说明这里的多模型不是装饰,而是在:

把不同模型的知识覆盖和推理偏好汇成一个更稳的 interest constructor

Table 5 则把多模态价值单独拆出来了:

  1. Text-OnlyHR@10 = 0.0983
  2. +Multi-Modal 后到 0.1032
  3. 相对提升约 +5.0%

这又说明 visual interest 不是附属信息,而是确实被下游 SID 构造吃进去了。

所以这条线最好不要被简写成“又一个多模态 generative recommendation”。

更准确的说法是:

它在用多模型、多模态 CoT,给 SID 生成之前补一层语义更深的 interest constructor

当前公开边界仍是 paper-first,中文传播层和 xhslink 也基本空白

这条线的公开边界目前也比较清楚。

arXiv API 能稳定回查到:

  1. 论文提交时间是 2026-02-21
  2. 当前没有 comments 里显式给出的代码仓链接

我又继续按:

  1. 论文全标题
  2. DeepInterestGR
  3. arXiv id 2602.18907

做 GitHub API 精确检索,截至 2026-03-22,仍未看到稳定官方 repo。

所以当前更适合把它记成:

paper-first deep-interest constructor route

中文传播层同样很弱。

这一轮继续补做:

  1. DeepInterestGR 推荐 中文
  2. site:xiaohongshu.com DeepInterestGR 推荐
  3. xhslink DeepInterestGR 推荐

稳定结果基本为空,没有拿到可复用的高价值中文机制稿或稳定小红书线索。

因此这条线当前仍应以 arXiv 摘要、HTML 正文与表格事实为准。

证据与来源

  • DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation:arXiv 摘要明确写出 Shallow InterestMLIM / RLDI / IEIDSFT + GRPO 两阶段训练。
  • arXiv HTML3.2-3.5 节明确给出 Multi-LLM Interest MiningReward-Labeled Deep InterestInterest-Enhanced Item DiscretizationTable 1 / 3 / 4 / 5 提供主结果、消融、多模型与多模态对照。
  • arXiv API:本轮核到论文发布时间为 2026-02-21 17:03:06 UTC,当前未见 comments 中公开官方代码入口。
  • GitHub API 检索 DeepInterestGR、论文全标题与 arXiv id 2602.18907:截至 2026-03-22,未见稳定官方 repo。
  • 公开网页检索 DeepInterestGR 推荐 中文site:xiaohongshu.com DeepInterestGR 推荐xhslink DeepInterestGR 推荐:截至 2026-03-22,未找到稳定高价值中文机制稿或可复用 xhslink

下一步

  • DeepInterestGR 并入现有语言接口表,至少先把 carrier 从三类扩成四类:profile text / verbalized context / retrieval-ready query list / SID-ready deep interest
  • 在这张表里补一列 tokenization interface,单独记录“文本是否会继续被量化成 semantic ID / recommendation-native token”。
  • 继续跟踪这条线是否出现官方仓、作者页、Slides 或高质量中文机制稿;在此之前,公开边界仍按 paper-first 记录。