DeepInterestGR:推荐里的 RL,开始把 deep interest 变成 SID 上游接口
背景
补完 LFM / LangPTune、From Logs to Language / High Fidelity Textual User Representation 和 Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation 之后,站里已经能把推荐里的上游语言接口粗分成三类:
profile textverbalized contextretrieval-ready query list
但这张图其实还默认了一件事:
如果 RL 不直接碰最终 ranking,它大多还是在优化一段给人读或给系统执行的文本。
这一轮继续用 arXiv API 按 recommendation + GRPO 做新条目发现,再回到 arXiv HTML、表格与 GitHub API 核验后,我补到一个很适合改写这条默认假设的新入口:
DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation
核完之后,我更倾向于把它记成:
推荐里的 RL,开始先挖 deep interest,再把它压成 SID 上游接口
也就是:
它生成的中间对象,不是纯文本 profile,也不是 query list,而是一种会进一步量化成 semantic ID 的 interest carrier
核心判断
这条线真正修的不是“多模态兴趣更丰富”,而是生成式推荐里的 Shallow Interest
这篇 paper 的第一层价值,不是“又一个多模态推荐”,也不是“又一个用 GRPO 的 generative recommender”。
它真正点破的问题,是现有 SID 生成式推荐大多只用标题、描述这类表层行为信号,结果会落进论文说的:
Shallow Interest
也就是:
- item 编码停留在 surface-level textual features
- 用户历史背后的 latent、可迁移、可解释的兴趣语义没有被真正写进中间接口
- 因而 personalization depth 和 recommendation interpretability 都会被一起卡住
这和站里已经写过的几条上游路线都不一样。
LFM / LangPTune 更像:
把偏好压成可读 profile
From Logs to Language / LinkedIn textual representation 更像:
把结构化日志翻译成 LLM 更好消费的文本上下文
Cross-domain news query distillation 更像:
把兴趣压成可直接执行检索的 query list
而 DeepInterestGR 新增的是:
把深层兴趣本身当成 SID 生成之前的中间语义载体
这逼着 Story Lab 再补一层 interest constructor / tokenization interface
补完这篇 paper 之后,我觉得现有语言接口表还少了一类 carrier。
因为下面这些对象并不是一回事:
profile textverbalized contextretrieval-ready query listSID-ready deep interest
前三类最终都还是文本。
DeepInterestGR 则多了一步关键 handoff:
interest text -> semantic embedding -> RQ-VAE quantization -> SID tokens
也就是说,它先让 frontier LLM 挖出 deep textual / visual interests,再把这些兴趣编码进 Qwen3-Embedding-4B 的语义向量,最后通过 RQ-VAE 压成固定长度 SID。
这让 Story Lab 后续至少要补一层:
interest constructor / tokenization interface
至少先区分:
- 文本最终仍以文本形态被消费
- 文本只作为中间语义解释层,最终会被量化成 recommendation-native token interface
否则 DeepInterestGR 很容易被误写成普通 profile 或普通 interest mining。
这条线里的 RL 也不是直接优化 item list,而是在给 deep interest 做质量监督
这篇 paper 的第二个关键点,是它并没有直接把 reward 写成“列表好不好”。
论文把整条方法拆得非常清楚:
MLIM
用多个 frontier LLM 及其多模态变体,通过 CoT prompt 挖用户和 item 的 deep interests
RLDI
用轻量二分类器给挖出来的兴趣打 positive / negative 质量标签
IEID
把深层兴趣编码并量化成 SID
SFT + GRPO
再用 Interest-Aware Reward 做后续 generative recommendation 对齐
这里最值得记住的,不是组件名字,而是 reward 消费对象发生了前移。
它不是先问:
最终 item 排得够不够好
而是先问:
当前被挖出来、被量化进 SID 的兴趣语义值不值得让下游生成器相信
因此这条线和 FlexRec / UGR / R2Rank 这类直接在 ranking 或 preference optimization 上动手的方法,也不是同一层。
更接近的说法是:
RL 开始介入 interest constructor,而不是只介入 ranker、reasoner 或 query generator
主结果说明它不是“多堆几个 LLM”而已,MLIM / RL / multimodal 都在被真正消费
这篇 paper 最硬的证据来自几张表放在一起看。
先看 Table 1,DeepInterestGR 在三组 Amazon 数据上都稳定高过当前最强公开 baseline:
Beauty上HR@10 = 0.1032,高于MiniOneRec的0.0945Sports上HR@10 = 0.0703,高于MiniOneRec的0.0627Instruments上HR@10 = 0.0972,高于MiniOneRec的0.0878
论文给出的相对提升也很整齐:
Beauty的HR@10 +9.2%Sports的HR@10 +12.1%Instruments的HR@10 +10.7%
再看 Table 3,它说明涨点不是“模型大了自然会赢”:
- 去掉
MLIM,Beauty HR@10从0.1032掉到0.0921 - 去掉
IEID,掉到0.0958 - 去掉
Interest-Aware Reward,掉到0.0973 - 只做
SFT不做RL,进一步掉到0.0879
也就是说,这条线真正被消费的是一整套组合:
deep interest mining + tokenization + RL alignment
而不是某个单点 trick。
Table 4/5 还说明两件更细的事:多模型 ensemble 有效,多模态不是摆设
这篇 paper 另一个值得长期记住的点,是它把“frontier LLM world knowledge”怎样进入推荐系统,写得很具体。
Table 4 直接拿不同 LLM 做 MLIM 对照:
GPT-5.1时HR@10 = 0.0978Gemini-3-Pro是0.0961Kimi-K2-Thinking是0.0943Grok-4是0.0952Ensemble (All)直接到0.1032
同时兴趣质量分 IQ 也从单模型的 0.819-0.847,升到 ensemble 的 0.891。
这说明这里的多模型不是装饰,而是在:
把不同模型的知识覆盖和推理偏好汇成一个更稳的 interest constructor
Table 5 则把多模态价值单独拆出来了:
Text-Only的HR@10 = 0.0983+Multi-Modal后到0.1032- 相对提升约
+5.0%
这又说明 visual interest 不是附属信息,而是确实被下游 SID 构造吃进去了。
所以这条线最好不要被简写成“又一个多模态 generative recommendation”。
更准确的说法是:
它在用多模型、多模态 CoT,给 SID 生成之前补一层语义更深的 interest constructor
当前公开边界仍是 paper-first,中文传播层和 xhslink 也基本空白
这条线的公开边界目前也比较清楚。
arXiv API 能稳定回查到:
- 论文提交时间是
2026-02-21 - 当前没有 comments 里显式给出的代码仓链接
我又继续按:
- 论文全标题
DeepInterestGR- arXiv id
2602.18907
做 GitHub API 精确检索,截至 2026-03-22,仍未看到稳定官方 repo。
所以当前更适合把它记成:
paper-first deep-interest constructor route
中文传播层同样很弱。
这一轮继续补做:
DeepInterestGR 推荐 中文site:xiaohongshu.com DeepInterestGR 推荐xhslink DeepInterestGR 推荐
稳定结果基本为空,没有拿到可复用的高价值中文机制稿或稳定小红书线索。
因此这条线当前仍应以 arXiv 摘要、HTML 正文与表格事实为准。
证据与来源
DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation:arXiv 摘要明确写出Shallow Interest、MLIM / RLDI / IEID与SFT + GRPO两阶段训练。arXiv HTML:3.2-3.5节明确给出Multi-LLM Interest Mining、Reward-Labeled Deep Interest与Interest-Enhanced Item Discretization;Table 1 / 3 / 4 / 5提供主结果、消融、多模型与多模态对照。arXiv API:本轮核到论文发布时间为2026-02-21 17:03:06 UTC,当前未见 comments 中公开官方代码入口。- GitHub API 检索
DeepInterestGR、论文全标题与 arXiv id2602.18907:截至2026-03-22,未见稳定官方 repo。 - 公开网页检索
DeepInterestGR 推荐 中文、site:xiaohongshu.com DeepInterestGR 推荐与xhslink DeepInterestGR 推荐:截至2026-03-22,未找到稳定高价值中文机制稿或可复用xhslink。
下一步
- 把
DeepInterestGR并入现有语言接口表,至少先把 carrier 从三类扩成四类:profile text / verbalized context / retrieval-ready query list / SID-ready deep interest。 - 在这张表里补一列
tokenization interface,单独记录“文本是否会继续被量化成 semantic ID / recommendation-native token”。 - 继续跟踪这条线是否出现官方仓、作者页、Slides 或高质量中文机制稿;在此之前,公开边界仍按
paper-first记录。