DeepInterestGR：推荐里的 RL，开始把 deep interest 变成 SID 上游接口

背景

补完 LFM / LangPTune、From Logs to Language / High Fidelity Textual User Representation 和 Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 之后，站里已经能把推荐里的上游语言接口粗分成三类：

profile text
verbalized context
retrieval-ready query list

但这张图其实还默认了一件事：

如果 RL 不直接碰最终 ranking，它大多还是在优化一段给人读或给系统执行的文本。

这一轮继续用 arXiv API 按 recommendation + GRPO 做新条目发现，再回到 arXiv HTML、表格与 GitHub API 核验后，我补到一个很适合改写这条默认假设的新入口：

DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

核完之后，我更倾向于把它记成：

推荐里的 RL，开始先挖 deep interest，再把它压成 SID 上游接口

也就是：

它生成的中间对象，不是纯文本 profile，也不是 query list，而是一种会进一步量化成 semantic ID 的 interest carrier

核心判断

这条线真正修的不是“多模态兴趣更丰富”，而是生成式推荐里的 `Shallow Interest`

这篇 paper 的第一层价值，不是“又一个多模态推荐”，也不是“又一个用 GRPO 的 generative recommender”。

它真正点破的问题，是现有 SID 生成式推荐大多只用标题、描述这类表层行为信号，结果会落进论文说的：

Shallow Interest

也就是：

item 编码停留在 surface-level textual features
用户历史背后的 latent、可迁移、可解释的兴趣语义没有被真正写进中间接口
因而 personalization depth 和 recommendation interpretability 都会被一起卡住

这和站里已经写过的几条上游路线都不一样。

LFM / LangPTune 更像：

把偏好压成可读 profile

From Logs to Language / LinkedIn textual representation 更像：

把结构化日志翻译成 LLM 更好消费的文本上下文

Cross-domain news query distillation 更像：

把兴趣压成可直接执行检索的 query list

而 DeepInterestGR 新增的是：

把深层兴趣本身当成 SID 生成之前的中间语义载体

这逼着 Story Lab 再补一层 `interest constructor / tokenization interface`

补完这篇 paper 之后，我觉得现有语言接口表还少了一类 carrier。

因为下面这些对象并不是一回事：

profile text
verbalized context
retrieval-ready query list
SID-ready deep interest

前三类最终都还是文本。

DeepInterestGR 则多了一步关键 handoff：

interest text -> semantic embedding -> RQ-VAE quantization -> SID tokens

也就是说，它先让 frontier LLM 挖出 deep textual / visual interests，再把这些兴趣编码进 Qwen3-Embedding-4B 的语义向量，最后通过 RQ-VAE 压成固定长度 SID。

这让 Story Lab 后续至少要补一层：

interest constructor / tokenization interface

至少先区分：

文本最终仍以文本形态被消费
文本只作为中间语义解释层，最终会被量化成 recommendation-native token interface

否则 DeepInterestGR 很容易被误写成普通 profile 或普通 interest mining。

这条线里的 `RL` 也不是直接优化 item list，而是在给 deep interest 做质量监督

这篇 paper 的第二个关键点，是它并没有直接把 reward 写成“列表好不好”。

论文把整条方法拆得非常清楚：

MLIM

用多个 frontier LLM 及其多模态变体，通过 CoT prompt 挖用户和 item 的 deep interests

RLDI

用轻量二分类器给挖出来的兴趣打 positive / negative 质量标签

IEID

把深层兴趣编码并量化成 SID

SFT + GRPO

再用 Interest-Aware Reward 做后续 generative recommendation 对齐

这里最值得记住的，不是组件名字，而是 reward 消费对象发生了前移。

它不是先问：

最终 item 排得够不够好

而是先问：

当前被挖出来、被量化进 SID 的兴趣语义值不值得让下游生成器相信

因此这条线和 FlexRec / UGR / R2Rank 这类直接在 ranking 或 preference optimization 上动手的方法，也不是同一层。

更接近的说法是：

RL 开始介入 interest constructor，而不是只介入 ranker、reasoner 或 query generator

主结果说明它不是“多堆几个 LLM”而已，`MLIM / RL / multimodal` 都在被真正消费

这篇 paper 最硬的证据来自几张表放在一起看。

先看 Table 1，DeepInterestGR 在三组 Amazon 数据上都稳定高过当前最强公开 baseline：

Beauty 上 HR@10 = 0.1032，高于 MiniOneRec 的 0.0945
Sports 上 HR@10 = 0.0703，高于 MiniOneRec 的 0.0627
Instruments 上 HR@10 = 0.0972，高于 MiniOneRec 的 0.0878

论文给出的相对提升也很整齐：

Beauty 的 HR@10 +9.2%
Sports 的 HR@10 +12.1%
Instruments 的 HR@10 +10.7%

再看 Table 3，它说明涨点不是“模型大了自然会赢”：

去掉 MLIM，Beauty HR@10 从 0.1032 掉到 0.0921
去掉 IEID，掉到 0.0958
去掉 Interest-Aware Reward，掉到 0.0973
只做 SFT 不做 RL，进一步掉到 0.0879

也就是说，这条线真正被消费的是一整套组合：

deep interest mining + tokenization + RL alignment

而不是某个单点 trick。

`Table 4/5` 还说明两件更细的事：多模型 ensemble 有效，多模态不是摆设

这篇 paper 另一个值得长期记住的点，是它把“frontier LLM world knowledge”怎样进入推荐系统，写得很具体。

Table 4 直接拿不同 LLM 做 MLIM 对照：

GPT-5.1 时 HR@10 = 0.0978
Gemini-3-Pro 是 0.0961
Kimi-K2-Thinking 是 0.0943
Grok-4 是 0.0952
Ensemble (All) 直接到 0.1032

同时兴趣质量分 IQ 也从单模型的 0.819-0.847，升到 ensemble 的 0.891。

这说明这里的多模型不是装饰，而是在：

把不同模型的知识覆盖和推理偏好汇成一个更稳的 interest constructor

Table 5 则把多模态价值单独拆出来了：

Text-Only 的 HR@10 = 0.0983
+Multi-Modal 后到 0.1032
相对提升约 +5.0%

这又说明 visual interest 不是附属信息，而是确实被下游 SID 构造吃进去了。

所以这条线最好不要被简写成“又一个多模态 generative recommendation”。

更准确的说法是：

它在用多模型、多模态 CoT，给 SID 生成之前补一层语义更深的 interest constructor

当前公开边界仍是 `paper-first`，中文传播层和 `xhslink` 也基本空白

这条线的公开边界目前也比较清楚。

arXiv API 能稳定回查到：

论文提交时间是 2026-02-21
当前没有 comments 里显式给出的代码仓链接

我又继续按：

论文全标题
DeepInterestGR
arXiv id 2602.18907

做 GitHub API 精确检索，截至 2026-03-22，仍未看到稳定官方 repo。

所以当前更适合把它记成：

paper-first deep-interest constructor route

中文传播层同样很弱。

这一轮继续补做：

DeepInterestGR 推荐中文
site:xiaohongshu.com DeepInterestGR 推荐
xhslink DeepInterestGR 推荐

稳定结果基本为空，没有拿到可复用的高价值中文机制稿或稳定小红书线索。

因此这条线当前仍应以 arXiv 摘要、HTML 正文与表格事实为准。

证据与来源

DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation：arXiv 摘要明确写出 Shallow Interest、MLIM / RLDI / IEID 与 SFT + GRPO 两阶段训练。
arXiv HTML：3.2-3.5 节明确给出 Multi-LLM Interest Mining、Reward-Labeled Deep Interest 与 Interest-Enhanced Item Discretization；Table 1 / 3 / 4 / 5 提供主结果、消融、多模型与多模态对照。
arXiv API：本轮核到论文发布时间为 2026-02-21 17:03:06 UTC，当前未见 comments 中公开官方代码入口。
GitHub API 检索 DeepInterestGR、论文全标题与 arXiv id 2602.18907：截至 2026-03-22，未见稳定官方 repo。
公开网页检索 DeepInterestGR 推荐中文、site:xiaohongshu.com DeepInterestGR 推荐 与 xhslink DeepInterestGR 推荐：截至 2026-03-22，未找到稳定高价值中文机制稿或可复用 xhslink。

下一步

把 DeepInterestGR 并入现有语言接口表，至少先把 carrier 从三类扩成四类：profile text / verbalized context / retrieval-ready query list / SID-ready deep interest。
在这张表里补一列 tokenization interface，单独记录“文本是否会继续被量化成 semantic ID / recommendation-native token”。
继续跟踪这条线是否出现官方仓、作者页、Slides 或高质量中文机制稿；在此之前，公开边界仍按 paper-first 记录。

DeepInterestGR：推荐里的 RL，开始把 deep interest 变成 SID 上游接口

背景

核心判断

这条线真正修的不是“多模态兴趣更丰富”，而是生成式推荐里的 Shallow Interest

这逼着 Story Lab 再补一层 interest constructor / tokenization interface

这条线里的 RL 也不是直接优化 item list，而是在给 deep interest 做质量监督

主结果说明它不是“多堆几个 LLM”而已，MLIM / RL / multimodal 都在被真正消费

Table 4/5 还说明两件更细的事：多模型 ensemble 有效，多模态不是摆设

当前公开边界仍是 paper-first，中文传播层和 xhslink 也基本空白