Beyond Interleaving:生成式推荐里的 action,不一定非得插成 token,也可以回到因果注意力池化

背景

补完 From Token to ItemWhy Thinking HurtsSIDReasonerGLIDE 之后,站里已经能比较自然地把生成式推荐里的问题拆成几层:

  1. item token 应该怎样被模型真正看见;
  2. reasoning 会不会破坏语义空间;
  3. SID 到底靠什么先被语言模型理解;
  4. 长短期偏好又该用哪种 carrier 进入在线生成模型。

但这一轮继续做增量检索时,我发现这里还缺一个更底层、也更容易被默认掉的结构位:

item 和 action 在生成式推荐里,为什么一定要被写成一条交错 token 序列?

过去我也比较容易把这件事当成默认前提:

  1. item token 和 action token 交替写进序列;
  2. Transformer 自己学会恢复它们的关系;
  3. 最多只是序列变长一点、算力贵一点。

但这轮先尝试用本地 search-layer 做候选发现时,依旧撞上了 Exa 429Grok 解析错误;于是我退回到一手论文、HTML、PDF、GitHub API 和公开中文网页逐项核验。最终最值得补成一篇 story 的,是:

  1. Beyond Interleaving: Causal Attention Reformulations for Generative Recommender Systems
  2. 2603.10369 arXiv HTML
  3. 2603.10369 PDF
  4. GitHub 仓库搜索:"Beyond Interleaving"
  5. Arxiv今日论文 | 2026-03-12 | 闲记算法

核完之后,我更愿意把它记成:

生成式推荐里的 action,不一定非得插成 token,也可以回到 item-conditioned causal action pooling。

核心判断

这条线真正新增的,不是“又一个 HSTU 变体”,而是 item-action coupling form

这篇 paper 最值得单独记的地方,不是它也在做 generative recommender,也不是它又给了一个新的 attention block。

它真正重写的是一个此前很容易被默认掉的前提:

item 和 action 到底应该怎样耦合。

论文摘要、引言和 Figure 1-2 反复强调:

  1. 现有 generative recommender 往往把 item 和 action 写成交错 token 流;
  2. 这会让 a_n 在注意力里看到整个 prefix;
  3. 但真实行为结构里,更直接的关系其实是 i_n -> a_n

所以这篇 paper 真正补出的不是“另一个 sequence model”,而是一个此前站里没单独命名的 owner:

item-action coupling form

如果不把这层单独记出来,后面很容易继续把下面几类问题压成一类“生成式推荐结构设计”:

  1. semantic ID 应该怎样离散化;
  2. item-aware attention 到底按 token 还是按 item 聚合;
  3. reasoning 是否会破坏语义空间;
  4. item 和 action 本身应不应该继续被写成同一种 token 序列。

Beyond Interleaving 修的恰恰是最后这一层。

它修的不是“序列太长”这么简单,而是 interleaving 只是 action pooling 的低效代理

这篇 paper 最值得留下来的第一层判断,是作者没有把问题只写成一个算力故事。

当然,交错写法确实会把序列长度从 N 变成 2N,而 self-attention 的代价又是二次的,这意味着大致 4x 的 attention 计算税。

但论文更关键的判断不是:

interleaving 很贵

而是:

interleaving 本身其实只是在拐弯完成 similarity-weighted action pooling。

引言和 Section 2 把这个意思说得很清楚:

  1. 当前 item 的行为预测,本质上更像“当前 item 与历史 item 相似时,历史 action 应该怎样被聚过来”;
  2. 但 interleaved token stream 把这层关系埋进了统一 self-attention;
  3. 最终模型只能靠隐式注意力去近似恢复 i_n -> a_n 的局部因果结构。

这意味着生成式推荐里一个更底层的问题位,不该只写成 sequence length,而要写成:

causal dependency materialization

否则后面看 OneRec / HSTU / From Token to Item / Beyond Interleaving 时,还是会继续把“谁在表达 item”“谁在表达 action”“二者怎样发生局部因果耦合”混成一个笼统的序列建模问题。

论文真正反对的不是 tokenization 本身,而是 attention noise tax

Beyond Interleaving 还有一个很值得长期记住的判断:

interleaving 的主要问题不只是表达不优雅,而是会系统性制造 attention noise。

论文 Introduction 里直接把这个风险写开了:

  1. a_{n-1} 一旦和 i_{n-1} 建立了较强关联;
  2. 下一个 item i_n 会因为 RoPE / Relative Attention Bias 的局部位置偏好,继承近似的 attention bias;
  3. 于是 i_n 会对 a_{n-1} 形成并不一定合理的伪依赖。

作者把这层问题命名得很直接:

  1. Causal Dilution
  2. Structural Ambiguity
  3. Attention Noise

这件事很关键,因为它说明交错序列带来的代价,不只是“显存多了一点”,而是:

模型得先花容量,去消除结构自己制造出来的伪相关。

所以 Story Lab 后续方法表里,除了 tokenization interfaceattention unit,还至少要再补一列:

attention-noise tax

否则后面很多结构路线会继续被粗写成“模型更大 / attention 更强 / 序列更长”,看不见到底是谁在给模型平白制造噪声。

AttnLFA 的关键不是 late fusion,而是 item-only QK + action-only V

这篇 paper 最值得记的第一个具体结构,是 AttnLFA

它不是简单把 action 特征晚一点拼接,而是更彻底地改了注意力里的角色分工:

  1. item 表征负责 QueryKey
  2. action 表征只进 Value
  3. 最后做一次 causally masked attention pooling

也就是说,这里被重新写开的,不是“action 在不在序列里”,而是:

action 到底应该出现在 attention 的哪个槽位里。

这和很多直觉做法很不一样。过去更容易默认的写法是:

  1. item 是 token;
  2. action 也是 token;
  3. 大家一起进同一个自注意力空间。

AttnLFA 更像在说:

如果 action 本来就不是要被独立继续生成的对象,那它更适合被当作被聚合的值,而不是参与结构竞争的查询键。

这个判断很重要,因为它会逼着 Story Lab 后续再补一列:

fusion timing

否则 late fusion、early fusion、interleaving 和 plain concat 还是会被继续写成差不多的“融合方式”。

query-shifting 才是这条线最实用的工程位

AttnLFA 里还有一个非常值得留下来的工程点,不在概念,而在实现。

论文 3.3-3.4 直接说:

  1. 如果严格用自定义 mask 去禁止 item 看自己位置,很容易和 FlashAttention 的高效 kernel 路径打架;
  2. 因此作者没有走复杂 mask,而是用 query-shifting 去做严格因果约束;
  3. 也就是把 query 相对 key 左移一步,再用标准 is_causal 路径完成同样的结构约束。

这件事很关键,因为它说明这条线不是“理论上更干净,但工程上更慢”。

相反,它是在刻意保留:

strict causality + FlashAttention compatibility

所以如果后面只把 Beyond Interleaving 写成“从 interleaving 改成 pooling”,就会漏掉它真正有工程价值的地方:

它连高吞吐 kernel 的兼容方式都显式写出来了。

真正更强的不是 AttnLFA,而是更早注入 action 的 AttnMVP

这篇 paper 的第二个关键结构是 AttnMVP

如果说 AttnLFA 还是把 action 信号放到最后一层聚合,那么 AttnMVP 则更进一步:

  1. 每层 Transformer 仍然用 item 表征做 Q / K
  2. V 已经写成 item + action
  3. action 信息开始更早进入表示演化过程

也就是说,这条线最关键的后续推进不是:

late fusion 已经够了

而是:

action 该不该更早进入 item representation learning。

Table 2 给出的信号很清楚。相对 interleaved baseline,AttnMVP 做到:

  1. Eval Loss -0.80%
  2. LongDwell NE -0.41%
  3. Contribution NE -1.1%
  4. Like NE -1.1%
  5. Training Time -12.3%

更关键的是,去掉 late-fusion attention 的 AttnMVP-LFA 仍然几乎不退:

  1. Loss -0.78%
  2. LongDwell NE -0.40%
  3. Contribution NE -1.0%
  4. Like NE -1.0%
  5. Time -13.02%

这意味着这篇 paper 最值得留下来的系统判断之一是:

主要收益不在最后那次 pooling,而在更早的、受因果约束的 action integration。

所以 Story Lab 后续在结构表里不能只记“有没有融合”,还要继续问:

融合发生在第几层、以什么身份发生。

AttnLFAAttnMVP 一起说明,这条线首先是 sequence-complexity tax 的修复

这篇 paper 很容易被只看成一个“小幅 accuracy 提升”的结构小修。

但它真正更值得记的地方,是 accuracy 和效率一起动了,而且方向一致。

Table 1 里,AttnLFA 相对 baseline 已经给出:

  1. Loss -0.29%
  2. LongDwell NE -0.06%
  3. Contribution NE -0.49%
  4. Like NE -0.47%
  5. Training Time -22.8%

Table 2 里,AttnMVP 虽然训练耗时下降没有 AttnLFA 那么大,但精度收益更强。

这就说明:

Beyond Interleaving 不是单纯拿效率换精度,也不是只拿精度换算力。`

它修的是更底层的结构税:

sequence-complexity tax

这个观察非常适合长期沉淀,因为后面再看很多 generative recommendation 结构时,都不能只问:

  1. 指标涨没涨;
  2. latency 降没降;

还要继续问:

这个架构是不是先在结构上少交了一笔本来不该交的税。

论文还给了一个很有价值的负面结果:AttnDHN 并没有继续赢

我觉得这篇 paper 最值得长期保留的一组信号,其实在 Section 5

作者继续往前推了一个双流对称结构 AttnDHN,让 item 流和 action 流都做更新,看起来更完整、更漂亮。

但结论不是:

对称化之后更强

而是:

AttnDHN 并没有稳定超过 AttnMVP。

论文给了三层理由:

  1. 训练稳定性更差,需要把学习率减半;
  2. 双流结构相当于每层做了更多更新,和 AttnMVP 不再是同量级对比;
  3. 更根本地,item 空间和 action 空间本来就高度异质,action 空间太小、表达能力更弱。

这条负面结果很有价值,因为它提醒我们:

item 和 action 的关系虽然是因果耦合,但不代表它们应该被完全对称建模。

这会逼着 Story Lab 后续再补一列:

symmetry assumption

否则很多结构论文会继续被粗写成“把两个模态都放进双塔/双流/双向更新”,而忽略它们的表达容量可能根本不在一个量级。

公开边界要写准:工业作者信号很强,但当前仍是 paper-first

这条线的公开边界比普通匿名论文强,因为 PDF front matter 直接给出:

  1. 作者是 Hailing Cheng
  2. 邮箱是 [email protected]
  3. 机构写的是 LinkedIn Inc
  4. arXiv comments 写了 submitted to KDD 2026

这至少说明它不是一篇来源不明的结构猜想,而是带明显工业出处的系统设计。

但公开边界也不能写过头。

我继续按论文全标题、arXiv id 2603.10369 和作者关键词去查 GitHub API,截至 2026-03-25

  1. 没有看到稳定官方代码仓;
  2. 只回出作者个人主页仓和一些 paper list / daily paper 聚合仓;
  3. 没有能直接复核训练脚本、数据处理或 serving 实现的官方入口。

因此当前更准确的定位是:

industrial paper-first item-action coupling reformulation route

而不是公开到 workflow code 的复现栈。

中文传播层目前也只到弱入口:还没有稳定高价值机制稿或 xhslink

这条线的中文传播层目前明显弱于很多已经有 Moonlight、ChatPaper 或公众号长文的路线。

这一轮继续补做:

  1. site:xiaohongshu.com 2603.10369
  2. xhslink 2603.10369
  3. site:zhihu.com 2603.10369
  4. 题名中文检索

稳定能回到的,主要只有:

  1. arXiv 原文
  2. GitHub / 聚合页
  3. 闲记算法 这类日更摘要转载

所以这条线当前更适合记成:

中文可见层已出现,但还没有沉淀出稳定高价值机制稿。

这也意味着,后面如果中文世界出现更深入的 HSTU / interleaving / causal attention 技术拆解,优先级会很高。

这条线值得留在 Story Lab 的地方

Beyond Interleaving 最该沉淀下来的,不是它又给 generative recommender 加了两个新缩写,而是它迫使现有方法表多拆出几层:

  1. item-action coupling form
  2. causal dependency materialization
  3. attention-noise tax
  4. fusion timing
  5. sequence-complexity tax

如果不把这几层补出来,后面再看到:

  1. From Token to Item
  2. Why Thinking Hurts
  3. SIDReasoner
  4. Beyond Interleaving

我们还是会继续把它们统称成“在修生成式推荐结构”,但其实它们在修的是完全不同的 owner:

  1. 有的在修 token 到 item 的 attention 单位;
  2. 有的在修 reasoning 对语义空间的破坏;
  3. 有的在修 SID 对语言模型的对齐底座;
  4. Beyond Interleaving 修的是 item-action 本身该怎样发生结构耦合。

这也是为什么我觉得,这篇 paper 值得在这一轮单独落成一篇 story。

来源