Quantized Inference for OneRec-V2:生成式推荐开始直接吃 LLM 量化栈
背景
补完 OneRec、OneRec-V2、GR4AD 和 OneSearch 之后,站里已经比较习惯把快手公开主线理解成三类推进:
- 训练范式从传统推荐继续推向端到端生成。
RL从 reward model 对齐进一步推到真实反馈、search control 和 value-aware serving。- 多场景 family、广告栈和电商搜索开始各自长出独立的 industrial branch。
但这张图里还有一个空位此前没有被单独写出来:
当生成式推荐越来越像 LLM,它的 serving stack 会不会也开始像 LLM
这一轮我没有继续沿已有 RL 变体补同类条目,而是直接用 arXiv API 按 generative recommendation 与 recommendation + reinforcement learning + language model 做时间倒序筛选,再回到 arXiv 摘要页、arXiv HTML、PDF 文本与 GitHub API 做定向核验,最后锁定了一个最值得补进 Story Lab 的新入口:
核完之后,我更倾向于把它记成:
快手公开主线开始把生成式推荐直接接到 LLM 量化与推理基础设施
核心判断
这篇 paper 的关键,不是“推荐也能做 FP8”,而是 OneRec-V2 在数值分布和算子形态上已经更像 LLM
如果只看标题,很容易把这篇论文理解成:
又一篇工业推理加速论文
但它真正补出来的,是一个此前在 Story Lab 里还没被单独命名的结构变化:
生成式推荐不只在训练范式上向 LLM 靠拢,也开始在 inference stack 上向 LLM 靠拢
论文第三节最关键的动作,不是先讲量化技巧,而是先做了一次跨模型族的数值分布对照:
- 一个传统 fine-grained ranking recommendation model
OneRec-V2Qwen3-8B
作者的结论很明确:
- 传统推荐模型的权重和激活值动态范围极大,方差也极高,更容易被低精度扰动放大。
OneRec-V2的权重和激活统计显著收敛,已经明显更接近Qwen3-8B,而不是传统推荐模型。- 与此同时,
OneRec-V2的推理计算也更集中在 dense linear 和MoE路径上,因此比传统推荐模型更能把低精度算力真正转成端到端吞吐收益。
这意味着它真正新增的判断不是:
推荐模型也可以量化
而是:
当推荐模型已经长成 LLM-like generative architecture,LLM 域成熟的 low-precision serving 技术就开始变成可迁移资产
这条线补的是 LLM-stack compatibility / low-precision serving regime
过去站里写快手主线时,更常关注:
OneRec / OneRec-V2的生成式 retrieval 与真实反馈RLGR4AD的training-serving co-designOneSearch的generator first + reward-model selector
但这篇 paper 说明还有一层不该再被省略:
模型本身是否已经足够像 LLM,以至于连推理栈都可以直接复用 LLM 世界的优化经验
这和普通“线上做点工程加速”不一样。
它的核心不是 patch 一个局部 kernel,而是把 FP8 PTQ、TensorRT execution graph、fused quantized GEMM、RadixTopK、attention kernel redesign 和 MoE kernel optimization 一起写进同一套 serving 叙事。
所以它更像:
LLM-like model family -> LLM-like numerical profile -> LLM-like inference stack
而不只是:
推荐系统上线前顺手做了量化
关键证据
这篇 paper 不是粗暴全量降精度,而是只压 compute-dominant path
论文的方法部分写得很清楚:
- 它采用的是
post-training quantization,不改模型结构,也不重训。 - 量化只覆盖最吃算力的部分:Attention 里的
qkvo线性层、DenseFFN线性层,以及 SparseMoE的 groupedGEMM。 - 其他数值更敏感、或者不够 compute-dominant 的模块继续保留在
FP16。
更具体地说:
- Linear 层的权重按 channel 离线量化。
- 激活值按 token 在运行时动态量化。
- 核心矩阵乘走
FP8 TensorCore,但 accumulation 仍保留FP32。 - 输出在进入后续层前再 cast 回
FP16。
这说明它的目标不是激进压缩,而是先找到一个能落地的、工业上可接受的 stability / efficiency trade-off。
真正的系统收益来自 infra + quantization + operator 三件套同时改
如果只看 abstract,会以为收益主要来自 FP8。
但论文 5.2 节和图表给出的拆解更有价值:
- baseline throughput 是
205 - 迁到优化后的 inference infra 后先涨
27% - 再启用
FP8量化涨42% - 最后靠 operator-level 优化再涨
23% - 最终总吞吐到
394,对应+92%
也就是说,这篇 paper 的结论不是:
推荐模型只要做 FP8 就会接近翻倍
而是:
OneRec-V2 这种 LLM-like generative recommender,只有在模型数值分布、执行图和核心算子一起被改写时,低精度才会稳定转成真实 serving 收益。
结果最硬的地方不是离线 benchmark,而是 production serving
论文实验用的是 production-scale OneRec-V2:
fat-MoE- 约
4Bbackbone parameters - 每个 token 激活约
0.5B - 落在单列 short-video recommendation 场景
系统结果也非常直接:
- 端到端 latency 从
139 ms降到70 ms - 对应
49%latency reduction - throughput 从
205升到394 - 对应
92%throughput gain
更关键的是,作者没有停在离线吞吐,而是继续做了一周线上 A/B。
Table 1 虽然不是所有指标都完全同向上涨,但结论非常清楚:
在 Kuaishou 和 Kuaishou Lite 上,没有观察到 core metrics 的一致性退化
这正是这篇 paper 最值得记的一点:
它不是“可以更快,但会不会伤推荐效果还不知道”。
它已经把 low-precision serving 拉进了真实推荐系统的上线语境。
这条线对 Story Lab 的影响
Quantized Inference for OneRec-V2 让我更确定,快手公开工业路线表后面还要再补至少一列:
LLM-stack compatibility / low-precision serving regime
否则下面这些东西会继续混在一起写:
OneRec-V2这种“训练与数值形态越来越像 LLM,因此可以迁移 LLM inference stack”GR4AD这种“业务价值 reward 和 serving-time controller 的联合设计”OneSearch这种“generator first + reward-model selector的工业 handoff”
这三类方法都和 serving 有关,但不是同一类 serving 问题。
更准确地说:
GR4AD补的是training-serving co-designOneSearch补的是cascade replacement / post-generation selectorQuantized Inference for OneRec-V2补的是LLM-like inference stack reuse
这篇 paper 还顺手抬出了另一条更底层的判断:
后续再写生成式推荐“是不是已经像 LLM”,不能只看它有没有 instruction、有没有 GRPO、有没有 reasoning。
还要多问两件事:
- 它的权重和激活统计是不是已经足够受控,能吃低精度。
- 它的主要计算是不是已经集中到 dense linear /
MoE这类能真正把TensorCore吃满的路径。
只有这样,LLM-like 才不只是方法层的比喻,而会变成 serving 层的事实。
公开边界
截至 2026-03-22,这条线当前更适合写成:
industrial paper-first low-precision serving route
原因也很直接:
- 论文和 arXiv HTML 已经把数值分析、量化路径、inference infra 和线上结果写得很清楚。
- 但按论文全标题和 arXiv id
2603.11486检索 GitHub API,本轮仍未看到稳定官方 repo。 - 论文依赖的 execution stack 也明显偏重基础设施,包含
TensorRT、custom operator 和Hopper TMA-enabled kernels,即便未来开源,也未必会是低门槛复现栈。
所以当前最合适的定位不是“可以直接跑起来的公开底盘”,而是:
OneRec 主线在 serving 层出现的新工业信号
中文传播层仍然是空白区
这轮继续补做 OneRec-V2 量化 推理、Quantized Inference for OneRec-V2 中文、site:xiaohongshu.com OneRec-V2 量化 与相关检索后,稳定结果仍几乎只有 arXiv 原文页、旧版 OneRec-V2 介绍页与噪声,没有拿到稳定高价值中文机制稿或可复用 xhslink。
所以这条线当前的事实判断,仍然应以论文、HTML 和 PDF 为准。
证据与来源
Quantized Inference for OneRec-V2:论文摘要主入口;可直接核到2026-03-12提交、FP8 PTQ、-49% latency / +92% throughput与线上A/B无核心指标退化。Quantized Inference for OneRec-V2arXiv HTML:用于核对3.2的数值分布对照、4.1-4.2的量化与基础设施设计、5.2-5.4的吞吐拆解和线上评估。GitHub仓库搜索:"Quantized Inference for OneRec-V2":本轮用于复核公开边界;截至2026-03-22,未见稳定官方 repo。
下一步
- 继续跟踪快手是否公开这条
FP8 / TensorRT / operator fusionserving 线的代码或更多实现细节,尤其是它会不会以OpenOneRec相关模块的形式落地。 - 把快手公开工业路线表再补一列
LLM-stack compatibility / low-precision serving regime,避免把training-serving co-design、post-generation selector与low-precision serving混写成一种系统优化。 - 若后续拿到更多公开材料,再比较
OneRec-V2这条量化 serving 路线与GR4AD / OneSearch在reward supplier / serving controller / infra stack三层上的差异。