PROMISE:生成式推荐开始把 process reward model 放进解码期,而不只放进训练期
背景
上一轮把 VRec 补进来之后,站内对 reasoning supervision / process verifier 这条线刚刚有了一个起点。
但当时还留着一个更细的问题没有落下来:
verifier 到底主要服务训练,还是主要服务推理
如果不把这件事拆开,VRec 这种在中间 reasoning step 上做持续审计的路线,和另一类把 verifier 直接塞进解码搜索过程的方法,还是会被继续混写成同一种“reasoning enhancement”。
这一轮我没有再依赖已经多次失效的本地旧版 search-layer,而是直接回到 arXiv API、arXiv HTML、GitHub API 与公开网页做定向核验,最后补到的最关键入口是:
PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative RecommendationsPROMISEarXiv HTML
同时,我也顺手回看了站内已收录的中文高价值讨论层:
核完之后,我更倾向于把 PROMISE 记成:
process verifier 从 train-time process supervisor 继续分叉到 test-time search controller 的公开入口。
核心判断
PROMISE 的关键不是“再加一个 reward model”,而是把 process verifier 放进解码搜索期
PROMISE 最值得记住的一点,不是它也用了 PRM。
真正的重要信息是,它先把生成式推荐里的一个老问题单独命名了出来:
Semantic Drift
论文 2.4 节写得很直接。
在 hierarchical Semantic ID 生成里,前几步 token 并不是普通文本 token,而更像粗粒度语义锚点。 如果早期 token 先偏了,后面所有更细的 token 都会在错误语义子空间里继续细化,最后把整条路径带到不相关 item cluster。
而且 PROMISE 还把这个问题和推荐场景里的另一个副作用绑在了一起:
一旦进入 OOD 中间状态,模型更容易回退到训练数据的边际分布,从而放大 popularity bias
这意味着它要修的,不是传统训练损失本身,而是:
推理时怎样尽早发现并截断错误路径
所以 PROMISE 的 process reward model 从一开始就不是被当成“训练末端再打一次分”的东西。 它被设计成解码期的实时控制器。
Path-level PRM 虽然在训练,但它真正服务的是推理时的路径筛选
这篇 paper 的第二个要点,是 PRM 的训练目标和消费位置不能混在一起理解。
从 3.2 节和 Figure 2 看,PROMISE 确实会训练一个 Path-level PRM:
- 它在不同 path depth 上采样正负路径
- 用
InfoNCE拉开正确 SID path 与错误 path 的分数差 - 让
PRM学会判断“当前这条中间路径是不是还在对的语义子空间里”
这件事本身已经比普通 teacher-forcing backbone 更接近真实推理分布,因为 PRM 会看到 sampled trajectories 里的错误状态,而不是只看 ground-truth 前缀。
但更值得记住的是:
它不是为训练而训练,而是在为推理时的剪枝提供密集信号
这点和上一轮的 VRec 很不一样。
VRec 更像把 verifier 放进 reasoning loop,当作中间步骤的 process supervisor。
PROMISE 则是让 verifier 在解码期直接决定:
哪些候选分支值得继续展开,哪些分支应该立即砍掉
也就是说,同样叫 process verifier,它已经开始出现不同 consumer:
train-time process supervisortest-time search controller
PRM-guided Beam Search 才是这条线真正新增的系统位置
把 PROMISE 放回 Story Lab 现在的框架里,它最重要的新位置其实不是 PRM 三个字,而是:
PRM-guided Beam Search
论文 Figure 2 和 3.3 节都写得很清楚:
- decoder 在每一步先放出更大的候选集合
K+ Path-level PRM对这些中间 SID path 打分- 再从中选出更小的
K' < K+继续下一步自回归生成
这和粗暴放大 global beam size 不是一回事。
传统 beam search 只是让 decoder 自己多算几条分支。 PROMISE 则是在 decoder 外面再加一层轻量 verifier,让它专门负责:
把错误但高频、错误但看起来局部合理的分支提前剪掉
因此它修的核心问题也不是一般意义上的“搜索不够大”,而是:
搜索预算该怎样被 process reward 重新分配
这条判断对后面的统一方法表很关键,因为它说明推荐里的 reasoning supervision 已经不能只按“有没有 verifier”来记了,还得单独记:
verifier location / reasoning supervision mode
至少先区分:
train-time process supervisortest-time search controllerjoint train+test consumer
这条线的核心收益,不是多一个模块,而是把 test-time scaling 正式带进推荐
PROMISE 另一个必须记下来的点,是它不是把 PRM 当作纯精度插件。
它真正主打的是:
test-time scaling laws for generative recommendation
论文 4.5 和 4.6 节给出的结论非常明确:
- 当
K+逐步放大时,Path-level PRM能从更大的候选池里挑出更优路径 - 在保持 global beam size
K = 1000不变时,指标仍能显著提升 K+ = 6000时,工业数据上的HRecall@3@1000从 baseline 的22.98%提到36.37%- 额外增加的计算主要落在轻量
PRM,而不是 decoder 本体
更重要的是,论文 4.6.1 还直接把它和 parameter scaling 对比:
在相同 FLOPs 下,test-time scaling 更高效;达到同等效果时,所需 FLOPs 更低
这让 PROMISE 的位置一下就和一般的推荐 paper 拉开了。
它不只是说“再加一个 process reward,指标更好了”,而是在说:
生成式推荐也开始长出自己的 test-time compute 路线
这条线和 OneRec / OneRec-V2 的 parameter scaling、和 VRec 的中间 verification 不是替代关系,而是新的对照维度。
这不是纯论文技巧,它已经被写成了可部署的工业搜索策略
PROMISE 还有一个特别容易被忽略、但其实很重要的事实:
它不是只停在离线实验。
论文 4.3 节明确写到,它在 Kuaishou 和 Kuaishou Lite 上做了 7 天 A/B 测试。 控制组用传统 beam search,实验组用 PRM + PRM-guided search。
正文点名给出的线上结果至少包括:
Kuaishou Lite的total app usage time提升0.131%app usage time per user提升0.160%
而且 5 节的 deployment 描述也很关键。
线上部署版本不是无限堆算力,而是:
- 只用
one PRM block - 在线把
K+设成4000 - 用
Radix Top-K优化放大的候选集合筛选 - 最终总参数只比无
PRM版本增加15% - 推理延迟只增加
10%
这说明 PROMISE 的真正系统价值,不在“理论上可以做 process reward”,而在:
它已经把 verifier 写成了一个工业上可落地的搜索控制层
当前公开边界仍然偏弱:paper 已有,稳定官方仓仍未出现
尽管这条线的工业信号很强,但它的公开边界当前并不强。
这一轮我按四组关键词追了 GitHub API:
- 论文全标题
- 缩写
PROMISE - arXiv id
2601.04674 PROMISE + Kuaishou + recommendation
截至 2026-03-21,都还没有看到能稳定对上的官方代码仓。
这意味着它和 RecThinker / DeepRec / GRSU 这类已公开 workflow 的路线不一样。
更准确的记法应该是:
industrial paper-first route
而不是“已有 repo、只是不够好找”。
中文传播层已经开始注意到它,但稳定高价值 xhslink 仍然缺位
传播层这边,这轮至少能稳定回溯到一条高价值中文入口:
正文目录已经把它单独列成:
转折点 5:PROMISE — GR 的 Test-Time Scaling (2026)
这说明中文高质量工程讨论层已经开始把它视作生成式推荐时间线上的独立节点,而不是普通论文列表里的一个名字。
但另一方面,我继续补做:
PROMISE 生成式推荐site:xiaohongshu.com PROMISE 生成式 推荐xhslink PROMISE 生成式 推荐
截至 2026-03-21,仍然没有拿到稳定高价值的 xhslink。
所以这条线当前仍然应该完全以论文和官方公开边界为准,中文传播层只适合做辅助导航。
证据与来源
PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations:arXiv 摘要主入口。2026-01-08提交,摘要已经把Semantic Drift、Path-level PRM、PRM-guided Beam Search、test-time scaling与 offline/online 验证一次写清。PROMISEarXiv HTML:正文细节的关键入口。2.4节正式定义Semantic Drift,3.2-3.3节写出Path-level PRM + PRM-guided Beam Search,4.5-4.6节给出K+扩张、HRecall@3@1000、FLOPs 对比与 test-time scaling 结论,5节则给出线上部署时K+ = 4000、Radix Top-K、+15%参数与+10%延迟。生成式推荐 (Generative Recommendation) 工业界深度 Survey:当前能稳定回溯到的中文高价值讨论层入口。目录已把PROMISE单列为“转折点 5:PROMISE — GR 的 Test-Time Scaling (2026)”,说明中文工程讨论层已经开始把它视作方法论节点。- GitHub API 检索
PROMISE/ 论文全标题 / arXiv id2601.04674/PROMISE + Kuaishou + recommendation:截至2026-03-21,仍未看到稳定官方仓,因此当前公开边界更适合写成paper-first。 - 公开网页检索
site:xiaohongshu.com PROMISE 生成式 推荐与xhslink PROMISE 生成式 推荐:截至2026-03-21,仍未找到稳定高价值xhslink。
下一步
- 在已补
VRec / PROMISE的基础上,继续沿REG4Rec / GREAM往下补完reasoning supervision / process verifier观察线,明确区分reason-verify-recommend、PRM-guided beam search、self-reflection pruning与verifiable RL reward四类接口。 - 把统一方法表里的 reasoning 观察维度补成两列:
process verifier location与reasoning supervision mode,避免再把VRec与PROMISE混写成同一种 verifier。 - 继续跟踪
PROMISE是否出现稳定官方 repo;如果后续补出训练脚本或部署细节,再把它从paper-first修正到更细的 workflow 边界。 - 继续追中文高价值讨论与可复用
xhslink;在拿到稳定一手链路之前,不让传播层材料覆盖事实判断。