Why Thinking Hurts：在 Semantic ID 推荐里，显式思维链可能先把证据冲淡

背景

补完 OneRec-Think、PROMISE、VRec、GR2 和 R2Rank 之后，站里已经越来越容易默认一件事：

推荐里的 reasoning 主要问题，是怎样把 thinking 训出来、搜出来、验出来。

但这轮增量检索里，我碰到一篇更危险、也更值得单独记的 paper：

Why Thinking Hurts? Diagnosing and Rectifying the Reasoning Shift in Foundation Recommender Models

它的核心不是再给 CoT 添一种 reward、verifier 或 search controller，而是直接提出一个反例：

在 Semantic ID foundation recommender 里，显式 thinking 本身就可能先伤性能。

这一轮我没有继续依赖不稳定的旧版 search-layer 做主判断，而是直接用 arXiv 摘要页、arXiv HTML、PDF 文本、GitHub API 与公开网页检索做定向核验。核完之后，我更愿意把这篇 paper 记成：

paper-first inference-time reasoning calibration route

核心判断

它最重要的结论，不是“reasoning 还不够强”，而是 `Think-On` 可能比 `Think-Off` 更差

这篇 paper 最值得先记住的，不是它提出了一个新推理技巧，而是它先把一个很多人不愿明说的现象直接摊开了。

论文 Figure 1 和 Table 2 都在强调同一件事：

对 OpenOneRec 这类 Semantic ID foundation recommender 来说，直接插入 free-form CoT，并不保证推荐更好。

Table 2 里最直观的几组数值是：

Qwen-1.7B 上，AD Recall@10 从 OpenOneRec 的 0.0282 掉到 OpenOneRec-think 的 0.0217。
同一 backbone 上，Product NDCG@10 从 0.0173 掉到 0.0107。
Qwen-8B 放大之后，这个问题也没自动消失，Product Recall@1 仍会从 0.0028 掉到 0.0017。

也就是说，这篇 paper 在当前公开主线里补出的不是“更强 reasoning 会带来更强推荐”，而是一个更底层的问题：

显式 reasoning 的文本表面形态，可能会先把 itemic / SID grounding 冲淡。

这让它和站里已经写过的几条 reasoning 路线明显不同：

OneRec-Think 更像把 reasoning activation 和 reasoning enhancement 接进训练链。
PROMISE 更像把 process reward model 前移成 test-time search controller。
VRec 更像在 reasoning 过程中插 verifier。
GR2 更像把 reasoning 专门压到 rerank stage。
Why Thinking Hurts 则是在问：

如果 reasoning 一旦显式写出来，是否会先把 Semantic ID 证据冲淡？

它把病灶写成 `General Subspace Prior` 压过了 `Semantic ID consistency`

这篇 paper 真正有价值的地方，在于它没有把问题归咎成“teacher reasoning 质量差”或“数据量还不够”。

论文 3.1-3.2 给出的解释更结构化：

推荐模型里的 token 至少分成两块：General Subspace 和 Semantic ID Subspace。
显式 CoT 基本停留在前者。
目标 item 的 SID 则主要落在后者。

作者用一个很清楚的分解去理解最终分数：

S(y | x, c) = Semantic ID consistency + General Subspace prior

对应到原文里的概念，就是：

CPMI(y; x | c)：history / semantic-ID 额外提供的增量支持。
S(y | c)：由 reasoning chain 本身带来的通用文本先验。

论文的判断是，问题不是 CoT 完全没信息，而是：

当 CoT 变长以后，通用文本子空间的 prior 会越来越强，最后盖过真正来自历史与 SID 的 grounded evidence。

这也是它为什么专门把现象命名成：

reasoning shift

更具体地说，这篇 paper 在 Table 1 里给了两个很有用的观察量：

SDI 从 Think-Off 的 27.23 升到 Think-On 的 41.09。
AEI 从 2.126 降到 1.495。

这两组数连起来看，含义非常直接：

总体注意力更偏向文本了。
但每个 CoT token 获得的有效注意力反而更稀。
结果就是历史证据被冲淡，长链条又没有形成等比例的信息收益。

所以这条线最值得留下的一句话，不是“thinking hurts”，而是：

free-form CoT 会把推理从 recommendation subspace 拉回 general-text prior。

它给的补救不是再训一轮，而是直接在 inference-time 做校正

如果这篇 paper 只是指出问题，那它还不够重要。

真正让我觉得它值得写成独立 story 的，是它给出的修法不是继续堆训练，而是：

training-free inference-time calibration

论文 4 节把方法拆成两步。

第一步是：

Reasoning-Chain Compression

也就是先把原始 free-form CoT 压成一个低熵、固定模板、单句形式的偏好摘要。论文里甚至把 prompt 写得非常具体，要求压成：

The current user's preference is [summary content].

这一步的直觉很好理解：

不要让长篇 CoT 在解码时不断扩散文本惯性。
但也不要把 reasoning 里真正有用的偏好信息全删掉。
于是把它压成一个短、结构化、只保留 preference signal 的 control variable。

第二步是：

Bias-Subtracted Contrastive Inference

这一步更关键。它不是粗暴地把 CoT 整体减掉，而是同时算三种上下文分数：

Expert：history + compressed control
Amateur：CoT-only
Baseline：history-only

然后只减去：

CoT-only 相对 history-only 多出来、而且没有被历史证据支持的那部分偏移

也就是作者说的：

subtract only the excess CoT influence that diverges from the history-based consensus

这让它和很多常见的 contrastive decoding 直觉不太一样。它不是单纯在惩罚 reasoning，而是在做：

grounded-vs-ungrounded CoT bias separation

所以这条路线更准确的位置不是 verifier、reward model 或 search controller，而是：

inference-time subspace alignment layer

最值得保留的实验信号，是模型做大了也救不了这个 drift

我觉得这篇 paper 最有长期价值的一点，是它没有把问题写成“小模型能力不够”。

Table 2 的结论恰恰相反：

backbone 从 1.7B 放大到 8B，Think-Off baseline 的确会更强。
但 Think-On 仍然不稳定，甚至在关键指标上继续掉。
真正稳定把分数拉回来的，是 inference-time alignment。

最典型的一组数是 Qwen-8B：

AD Recall@10：OpenOneRec-think 0.0375 -> Ours 0.0436
AD NDCG@5：0.0247 -> 0.0256
Product Recall@1：0.0017 -> 0.0055
Product NDCG@5：0.0125 -> 0.0197

而且这里更重要的不是单点最好分数，而是它说明：

更强的语言建模能力，也可能只是把 General Subspace prior 放大得更明显。

这会逼着 Story Lab 对 reasoning 主线再加一层更细的记录：

不是只有 reasoning activation / verification / reward / search control
还要单独记 reasoning drift / subspace alignment / calibration locus

否则后面再把 OneRec-Think / PROMISE / VRec / GR2 / Why Thinking Hurts 放到同一张表时，仍然会把“怎样让 reasoning 更强”和“怎样避免 reasoning 先把 grounding 冲掉”混成一个问题。

公开边界与传播层

当前更适合记成 `paper-first inference-time reasoning calibration route`

截至 2026-03-23，这条线当前最准确的公开边界还是：

paper-first inference-time reasoning calibration route

原因很直接：

arXiv 摘要页、HTML 和 PDF 已足够把 reasoning shift / SDI-AEI / chain compression / bias-subtracted inference 讲透。
论文直接把对照对象锚到 OpenOneRec，因此它和当前公开主线的关系很清楚。
但我继续按论文全标题、arXiv id 2602.16587 与作者名检 GitHub API，截至 2026-03-23 仍未看到稳定官方 repo。

所以这条线现在更像：

paper 给出诊断和推理时校准方法，但 workflow 还没有公开到可直接复用的 repo 层

中文传播层与 `xhslink` 当前仍然缺位

这一轮我也额外补做了中文传播层检索，包括：

site:xiaohongshu.com "Why Thinking Hurts" 推荐
xhslink "Why Thinking Hurts" 推荐
site:zhihu.com "Why Thinking Hurts" 推荐
site:weixin.qq.com "Why Thinking Hurts" 推荐

截至 2026-03-23，稳定结果仍然非常弱：

xhslink 没有回出高价值小红书线索。
中文网页里主要是 arXiv 原文、Bohrium 镜像和自动摘要页。
没拿到足够强的中文机制稿。

所以这条线当前的事实判断，仍然应以论文原文、HTML、PDF 与 GitHub API 检索为准。

对 Story Lab 的更新意义

补完这篇 paper 之后，我觉得站里至少还要补三列观察位：

reasoning drift
subspace alignment
inference-time calibration

因为它和站里已有 reasoning 路线的关系不是替代，而是分工更细：

OneRec-Think 更像 training-time reasoning activation / enhancement
PROMISE 更像 test-time search controller
VRec 更像 reason-verify-recommend
GR2 更像 rerank-stage specialist
Why Thinking Hurts 则更像 reasoning-induced grounding drift calibrator

如果后续不把这层单独写出来，Story Lab 还是会继续默认：

thinking 越强越好

但这篇 paper 其实在提醒一个更现实的顺序：

先保证 reasoning 不把 Semantic ID grounding 冲淡，再谈 reasoning 的额外收益。

证据与来源

Why Thinking Hurts? Diagnosing and Rectifying the Reasoning Shift in Foundation Recommender Models：主摘要入口。可直接核到 2026-02-18 提交，以及 General Subspace / Semantic ID Subspace / Inference-Time Subspace Alignment 这些核心口径。
Why Thinking Hurts arXiv HTML：正文主入口。3.1-3.2 可直接核 SDI / AEI、subspace misalignment 与 attention dominance；4 节可核 Reasoning-Chain Compression 和 Bias-Subtracted Contrastive Inference。
Why Thinking Hurts PDF：适合稳定复核 Figure 1 与 Table 1-2，包括 Think-On 掉分、Qwen-1.7B / 8B 对比，以及推理时校正后的恢复效果。
GitHub API 检索论文全标题、arXiv id 2602.16587 与作者名：截至 2026-03-23，仍未看到稳定官方 repo，因此当前公开边界更适合记成 paper-first。
中文传播层检索 site:xiaohongshu.com / xhslink / 知乎 / 微信 相关关键词：截至 2026-03-23，仍未拿到稳定高价值中文机制稿或可复用小红书线索。

下一步

把 Why Thinking Hurts / OneRec-Think / PROMISE / VRec / GR2 压到同一张 reasoning 观察表里，单独补 reasoning drift / subspace alignment / calibration locus。
继续观察这条线会不会出现官方 repo，或者被 OpenOneRec / OneRec-Think 主线吸收进后续公开代码。
如果后面再出现类似 paper，要继续区分“提高 reasoning 能力”和“抑制 reasoning 对 SID grounding 的副作用”到底是不是同一个问题。