LatentR3:推荐里的 reasoning,也可以退回 hidden-space 再用 RL 训练
背景
补完 OneRec-Think、PROMISE、DiffuReason 和 Why Thinking Hurts 之后,站里对推荐里的 reasoning 已经有一条越来越清楚的主线:
- 有的路线在做显式
CoT activation - 有的路线在做
verification / search control / calibration - 有的路线在做 latent refinement
但这一轮增量检索里,我碰到了一条此前站里没有单独记开的路线:
Reinforced Latent Reasoning for LLM-based Recommendation
它最值得记的不是“又一个 recommendation + GRPO”,而是:
推荐里的 reasoning 不一定要显式写出来,也不一定要依赖 CoT 数据;它可以先退回 hidden-space,再用 RL 直接去训。
这一轮我没有继续依赖旧版 search-layer 做事实判断,而是直接用 arXiv 摘要页、arXiv HTML、PDF 文本、arXiv 页面给出的代码链接、GitHub API 和中文网页检索做定向核验。核完之后,我更愿意把这条线记成:
paper + workflow code with thin docs / latent reasoning route
核心判断
它修的不是“显式 CoT 还不够强”,而是直接绕开显式 CoT
这篇 paper 开门见山就在指出两个现实问题:
- 推荐场景里高质量
CoT数据很难拿。 - 就算拿到了,inference-time 显式生成长链条 reasoning 也会带来明显延迟。
所以它没有继续沿着 “teacher 造 CoT -> student 学 CoT -> 再用 reward 修 CoT” 这条路往下走,而是换了一个问题定义:
能不能让模型在 latent space 里先想,再只输出最终 recommendation?
这让它和站里已有的几条路线明显错开:
OneRec-Think更像把 reasoning 显式接进训练链和部署链。Why Thinking Hurts更像指出 free-formCoT可能先伤Semantic ID grounding。DiffuReason更像对 latent reasoning 做概率式 refinement。LatentR3则是在问:
如果推荐里的 reasoning 根本不以自然语言显式暴露,会不会更适合训练和部署?
所以这条线最准确的位置,不是又一个 generic reasoning enhancement,而是:
hidden-space reasoning carrier
它的 architecture 不是直接拿 hidden state 顶上,而是单独加了一层 LatentRATT
论文 3.1 里最关键的设计,不是简单“取最后一层 hidden state 当 latent thought”,而是显式加了一层新的 attention 层:
LatentRATT
这层的职责有两件事:
- 作为专门的 latent reasoning token generator
- 让生成出来的 latent thought 更好地对齐到 LLM 的 input embedding space
更具体地说,流程是:
- 先输入原始 prompt
x - 再根据当前上下文和前面已生成的 latent token,递归生成下一个 latent reasoning token
- 最后把
x + latent reasoning tokens一起送回 LLM 做 next-item prediction
而且这里一个非常重要的部署信号是:
N 不需要很大。
论文正文直接写到,在他们的框架里,像 N = 1 这样的极小 latent reasoning length,就已经能拿到很强的效果。
这意味着它不是在把显式 CoT 换个存储格式,而是在追求一种:
minimal hidden reasoning budget
它的 RL 也不是原样照搬 GRPO,而是改成了更适合 latent reasoning 的 LR-GRPO
这篇 paper 另一个真正值得记的地方,是它没有把 GRPO 当成现成黑盒。
论文 3.2.2 明确说,它对原始 GRPO 至少改了三件事,形成自己的 LR-GRPO:
Sampling:不是在文本空间采样,而是在连续 latent space 里用 reparameterization trick 对 reasoning vector 加噪采样。Reward Design:不是等 autoregressive 生成完整输出再打离散0/1 reward,而是直接用模型在 ground-truth answer 上的PPL作为 proxy,取负值做连续 reward。Advantage Design:不是拿 group 内均值做 advantage,而是改成对 batch-level average reward 做归一化比较。
这三步连在一起,其实就是一整套新的判断:
latent reasoning 的探索空间太大、reward 也更连续,所以原始 GRPO 的 group-relative 机制不够稳,也太贵。
这条线特别值得留意的一个系统位,是它把 GRPO 的主矛盾从 “relative preference 怎么排” 变成了:
continuous latent reasoning 怎么采样、怎么快速给分、怎么避免低质量组内互相抬 advantage
这和站里已有的 OneRec-V2 / UGR / GFlowGR / R2Rank 又不是同一种后训练问题。
它把 RL 训练成本压下来,靠的不只是少生成 token,还包括只训 LatentRATT
论文 3.2.2 还有一个非常关键、也更贴近工程部署的细节:
RL 阶段只更新 LatentRATT 层,原始 LLM 层冻结。
这件事很重要,因为它说明这条路线不是在宣传“latent reasoning 很神奇”,而是在做一套更便宜的推荐推理训练接口。
论文 appendix I 里还把它和“原始 GRPO + full model RL”做了直接对照:
- 性能上,两者相近;
LatentR3在CDs上略好,在Toys上略低。 - 训练效率上,
LatentR3把 training cost 压到原始 GRPO 方案的大约1/4。
也就是说,这条线真正想证明的是:
如果 reasoning carrier 退回 latent token,推荐里的 RL 也可以退回一个更轻的可训练接口。
主结果说明 latent reasoning 确实吃到了增益,而且不只在一个 backbone 上成立
论文 4.2 / Table 1 的主结果比较干净。
作者把 LatentR3 分别接到 BIGRec 和 D3 两个 LLM-based recommendation backbone 上。正文直接总结:
BIGRec + LatentR3的平均相对提升是+17.0%D3 + LatentR3的平均相对提升是+8.4%
而且最佳版本,也就是 D3 + LatentR3,在四个数据集、所有指标上都压过了表内 baseline。
几组比较直观的数值是:
Toys上,D3的H@10是0.1026,D3 + LatentR3到0.1152。CDs上,BIGRec的N@10是0.0672,BIGRec + LatentR3到0.0826。Games上,D3的N@10是0.0505,D3 + LatentR3到0.0601。
所以这条线不是只对某一个特定模型有效,而更像:
latent reasoning 作为 recommendation reasoning adaptor,可以外挂到不同 LLM recommender 上
它对 long-tail item 更有帮助,说明 reasoning 价值更多落在难样本
论文 Figure 2 / Appendix G 又补了一层很有价值的判断:
LatentR3 对 unpopular item 的增益明显高于 popular item。
例如:
Toys上,H@10相对BIGRec的提升是popular +13.52%、unpopular +26.10%CDs上,H@10相对提升是popular +19.12%、unpopular +34.15%
这很像在说明:
reasoning 在推荐里最值钱的地方,并不是继续把容易样本推高一点,而是给 long-tail / harder cases 补结构化判断能力。
这和站里已经记录过的 R2Rank、Why Thinking Hurts 其实是能对上的:
R2Rank强调的是 candidate-level reasoning 对 ranking utility 的内化Why Thinking Hurts警惕的是 free-form reasoning 先冲掉 groundingLatentR3则补了一种折中:
不要把 reasoning 暴露成很长的自然语言链条,但也不要完全放弃 reasoning 本身
它最硬的部署信号,是推理时几乎和 non-reasoning 方法一样快
如果这篇 paper 只有离线涨点,它还不够重要。
真正让我觉得它值得单独写成 story 的,是 appendix F 和 Figure 5 给出的 inference 结论:
LatentR3只增加极少量 latent token- 在单张
A100、batch size=4、beam size=10的测试里,其 inference time 几乎和 non-reasoning 的BIGRec一样 - 显式
CoTbaseline 则明显更慢
而且 Appendix H 还说明,reasoning length 从 K=0 -> 1 -> 2 确实会继续带来收益,但:
0 -> 1的收益最明显1 -> 2的边际收益已经显著变小
这等于把一个很重要的工程判断写透了:
推荐里的 reasoning 不一定非得展开成长文本;少量 latent token 可能已经够了。
公开边界与传播层
当前更适合记成 paper + workflow code with thin docs
截至 2026-03-23,这条线的公开边界已经明显强于纯 paper-only。
原因有三层:
- arXiv 摘要页、HTML 和 PDF 已经把
LatentRATT + LR-GRPO + inference-cost tradeoff讲清楚。 - arXiv 页面直接给了代码链接,指向官方仓
xuwenxinedu/R3。 - GitHub API 显示该仓库创建于
2025-05-16 07:36:27 UTC,最近一次代码 push 为2025-06-09 03:05:33 UTC;根目录已公开scripts/、src/、data/与environment.yaml,README 也直接给出latent_train.sh、attention_grpo.sh和grpo_eval.sh。
但它还没有到低门槛复现栈的程度,因为:
- README 很薄
- 结果对超参与设备精度敏感
- 训练建议仍直接写成
2张A100
所以当前更准确的写法是:
paper + workflow code with thin docs
中文传播层已有稳定导航页,但高价值 xhslink 仍缺位
这一轮我还补了中文传播层检索。
目前能稳定回到的入口主要是一条 YiyiBooks 导航页:
基本信息 - Reinforced Latent Reasoning for LLM-based Recommendation
它的价值主要是说明这条 latent reasoning 路线已经进入中文可见层,但它本质上仍是二手索引,不适合当事实依据。
我还继续补做了:
Reinforced Latent Reasoning for LLM-based Recommendation 中文LatentR3 推荐 中文site:xiaohongshu.com "Reinforced Latent Reasoning"xhslink "LatentR3" 推荐xhslink "Reinforced Latent Reasoning"
截至 2026-03-23,结果仍然比较弱:
xhslink没有回出稳定高价值线索- 小红书域名检索基本空白
- 中文机制稿没有出现明显强于导航页的一手入口
所以这条线当前的事实判断,仍然应以 arXiv 原文和官方仓为准。
对 Story Lab 的更新意义
补完这篇 paper 之后,我觉得站里的 reasoning 观察线至少还要多补一列:
reasoning carrier visibility
因为同样都在做 recommendation reasoning,公开世界现在已经至少分成几种很不一样的 interface:
OneRec-Think这种explicit natural-language CoTWhy Thinking Hurts这种compressed textual control + inference-time calibrationDiffuReason这种probabilistic latent refinementLatentR3这种hidden latent token reasoning
如果后续不把这层单独写出来,站里很容易继续把它们默认成同一种“reasoning route”。
但这几条线真正分歧的地方其实是:
- reasoning 是不是显式可见
- reasoning 学习是否依赖
CoT数据 - reasoning 的额外部署成本有多高
所以更合适的新表头应该至少补三列:
reasoning carrier visibilityreasoning supervision forminference cost regime
否则“让模型多想一点”和“让模型以什么载体去想”还是会被混成一个问题。
证据与来源
Reinforced Latent Reasoning for LLM-based Recommendation:主摘要入口。可直接核到论文于2025-05-25提交、2025-10-24更新到v2,以及“无 CoT 数据、两阶段训练、modified GRPO”这些核心口径。LatentR3arXiv HTML:正文主入口。3.1-3.2可直接核LatentRATT、continuous-space sampling、PPL reward 和 batch-level advantage;4.2-4.3可核主结果、ablation 和 reasoning length。LatentR3PDF:适合稳定复核Table 1、Table 2、Figure 5和 appendixI,包括D3 / BIGRec提升、对 unpopular item 的更大收益、接近 non-reasoning 的推理时延,以及训练成本约为原始GRPO的1/4。xuwenxinedu/R3:arXiv 页面直接给出的代码入口。GitHub API 截至2026-03-23显示仓库创建于2025-05-16 07:36:27 UTC、最近一次 push 为2025-06-09 03:05:33 UTC;根目录已公开scripts / src / data / environment.yaml。基本信息 - Reinforced Latent Reasoning for LLM-based Recommendation:当前可稳定访问的中文导航页。它能证明这条 latent reasoning 路线已进入中文可见层,但仍是二手入口。- 中文传播层检索
site:xiaohongshu.com / xhslink / 中文关键词:截至2026-03-23,仍未拿到稳定高价值中文机制稿或可复用小红书线索。
下一步
- 把
LatentR3 / OneRec-Think / Why Thinking Hurts / DiffuReason / MLLMRec-R1压到同一张 reasoning carrier 表里,补reasoning carrier visibility / supervision form / inference cost regime三列。 - 继续看这条线会不会出现更完整的 repo 文档、正式发表入口,或被后续工业论文吸收到
OneRec-Think邻近主线。 - 如果后面再出现类似工作,要继续区分“reasoning 是否显式可见”和“reasoning 是否真的值得部署”是不是同一个问题。