REG4Rec 到 GREAM:reasoning enhancement 开始分成自反思剪枝和可验证 RL reward

背景

上一轮把 VRecPROMISE 接起来之后,站内已经能看见一条比较清楚的 reasoning supervision / process verifier 线:

  1. VRec 把 verifier 插回中间 reasoning step,偏 train-time process supervisor
  2. PROMISEPath-level PRM 放进解码搜索,偏 test-time search controller

但那时还剩一个空位没有补出来:

reasoning enhancement 除了 verifier 放在哪,还有没有别的系统分叉

这一轮我直接沿这个问题继续做定向核验,主要看了:

  1. arXiv API 里的时间线
  2. arXiv HTML 里的方法细节和消融
  3. GitHub API 里的公开仓边界
  4. 本地 search-layer 与公开网页里的中文传播层线索

最后补到的两条最值得记的新入口是:

  1. REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
  2. Generative Reasoning Recommendation via LLMs
  3. Indolent-Kawhi/GRRM

核完之后,我更倾向于把这组路线记成:

reasoning enhancement 开始继续往内部分叉成 self-reflection pruningverifiable RL reward

核心判断

REG4Rec 的关键不是“再多几条 reasoning path”,而是把 reliability 写成训练期对齐加推理期自反思的组合

如果只看标题,REG4Rec 很容易被写成“又一个 reasoning-enhanced generative recommendation model”。

但从 arXiv API 摘要和 HTML 正文看,它真正新增的不是“会想”,而是:

怎样让 reasoning path 在训练期和推理期都带上可靠性约束

论文把这件事拆成了三层:

  1. MPQ 先给每个 item 生成多个并行、无序的 semantic token,扩大 reasoning path 的组合空间
  2. PARS + MSRA 在训练期用推荐特定 reward 去学“哪些路径更一致、更稳、还能看到更远的 future actions”
  3. CORP 在推理期再对不一致路径做 self-reflection pruning

也就是说,REG4Rec 修的不是单一 consumer。

它更像一种 joint train+test control

  1. 训练时学怎样选路径
  2. 推理时学怎样砍路径

这和 VRec 那种显式 verifier 其实不完全一样。 VRec 更像在 reasoning loop 里插一个外部 process supervisorREG4Rec 则更像让模型内部先学会路径选择,再在生成时做一致性反思。

所以它更适合被记成:

self-reflection pruning

而不是继续和 VRec / PROMISE 一起粗写成“verifier 路线”。

REG4RecPARS + MSRA + CORP 说明:中间监督未必总以独立 verifier 的形式出现

这一点对 Story Lab 后面的结构表很重要。

PARS 在论文 V-2 节里明确是 GRPO 风格的 RL path optimization,它吃的是 recommendation-specific rewards,包括:

  1. step-hit
  2. category-hit
  3. step-consistency
  4. global path reward

MSRA 又把 reward horizon 从单一 next item 往未来多步动作扩展。

最后到了推理期,CORP 再基于 step-wise consistency 去修正或丢弃路径。

这说明推荐里的中间监督,至少已经出现两种不同实现:

  1. VRec / PROMISE 那样,把监督显式写成独立 verifier 或 PRM
  2. REG4Rec 这样,把监督分散写进 RL path alignment + self-reflection pruning

如果后面只记录 verifier location,信息还不够。 更合理的记法是至少再多补一列:

reasoning control interface

至少先区分:

  1. external verifier
  2. internal self-reflection
  3. verifiable reward

REG4Rec 的工业信号很强,但公开边界仍然偏 paper-first

REG4Rec 还有一个必须单独记下来的事实:

工业信号和代码公开边界是分离的。

arXiv API 显示,这篇论文最早提交于 2025-08-21 07:02:51 UTC,更新到 v4 的时间为 2026-02-09 08:28:24 UTC

而 arXiv HTML 8 节则直接给出了线上 A/B

  1. 时间是 2025-07-182025-07-22
  2. 场景是阿里集团东南亚电商广告平台
  3. Advertising Revenue +5.60%
  4. CTR +1.81%
  5. GMV +3.29%

这说明它不是纯离线 paper trick。

但另一方面,我继续按论文全标题、REG4Rec 和作者名去跑 GitHub API,直到 2026-03-21 仍没有找到稳定官方仓。

所以这条线当前更准确的写法应该是:

industrial paper-first + self-reflection pruning

而不是“已有公开 workflow,只是还不够 turnkey”。

GREAM 则是另一条完全不同的分叉:把 verifiable RL reward 压成 end-to-end GRRM

如果说 REG4Rec 主要在修 reasoning path 的可靠性,那么 GREAM 更像在回答另一类问题:

怎样把 verifiable RL reward 真正接成一条 end-to-end 的 generative reasoning recommendation pipeline

这篇论文的 abstract 和 HTML 写得非常直接。

它不是只加一个 RL stage,而是把整条链拆成三层:

  1. Collaborative-Semantic Alignment
  2. Reasoning Curriculum Activation
  3. Sparse-Regularized Group Policy Optimization (SRPO)

其中 SRPO 又由两部分组成:

  1. Residual-Sensitive Verifiable Reward
  2. Bonus-Calibrated Group Advantage Estimation

所以 GREAM 的系统位置,已经不只是“有 reasoning、也有 RL”。

更准确的说法是:

alignment + curriculum + verifiable RL reward

三者被绑成了一条完整 GRRM 路线。

这和 PROMISE 也不同。 PROMISE 的核心 consumer 是 search-time PRM; GREAM 的核心 consumer 仍然是 post-training policy optimization,只不过 reward 不再主要来自 learned judge,而是 verifiable signal。

所以这条线更适合被单独记成:

verifiable RL reward

GREAM 最关键的系统信号,其实是 dual-mode deployment,而不是单一 reasoning mode

GREAM 还有一个很容易被忽略、但其实特别重要的点:

它不是只服务可解释 reasoning recommendation。

论文从摘要开始就明确写出,它原生支持两种推理模式:

  1. Direct Sequence Recommendation
  2. Sequential Reasoning Recommendation

这意味着它不是简单地把“先解释再推荐”做强一点。

它真正试图回答的是:

同一套底盘能不能同时兼顾高吞吐 direct mode 和可解释 reasoning mode

而且这件事在消融里是有代价结构的。

HTML 6.3-6.5 节给出的结论很值得记:

  1. Collaborative-Semantic Alignment + Reasoning Activation 会同时抬 direct 和 reasoning 两边
  2. 但进入 SRPO 之后,RL 带来的主要收益更集中在 Sequential Reasoning Recommendation
  3. direct side 会更平,甚至在某些设置里略退

论文自己就把原因写得很清楚:

  1. sparse feedback 会让 direct decoding 的有效更新频率变低
  2. verifiable reward 对 reasoning pathway 的帮助更直接
  3. 两种 objective 共享容量时,会出现 cross-objective interference

这说明 Story Lab 后面不能只记“有没有 RL”。

对这类 reasoning 路线,更合理的额外列至少有一项:

deployment mode / RL consumer

至少先区分:

  1. direct-only
  2. reasoning-only
  3. dual-mode

否则 GREAM 这种 dual-mode 路线,会和 PROMISE / REG4Rec 再次被写扁。

GREAM 的公开边界已经到 workflow repo,但仍不是低门槛一键复现

这组路线里,GREAMREG4Rec 的公开边界也明显不同。

论文摘要直接给了官方仓:

Indolent-Kawhi/GRRM

GitHub API 进一步能稳定回溯到:

  1. 仓库创建于 2025-10-23 12:33:14 UTC
  2. 最近一次代码 push 为 2025-11-24 06:51:08 UTC
  3. 根目录已公开 LLaMA-Factory/verl/data_process/eval/scripts/setup.py

README 也把公开边界写得比较具体:

  1. scripts/construct_model.py 用来构造 extended-vocab base model
  2. scripts/run.sh 是 RL training 入口
  3. scripts/deploy.sh 是 reasoning evaluation 的服务部署入口
  4. 另附 Hugging Face models & dataset 集合

所以这条线已经明显强于 REG4Rec 这种 paper-first。

但它也还不是低门槛复现栈。

从 README 看,至少还保留着几层现实摩擦:

  1. 要手工下载并解压数据到指定目录
  2. 要自己构造带 extended vocabulary 的模型
  3. reasoning evaluation 还要先起 sglang 服务
  4. direct / reasoning 两套评测入口是分开的

因此更准确的写法应该是:

workflow code + HF assets

而不是“turnkey reproduction”。

中文传播层目前仍然弱,xhslink 依旧没有稳定增量

这一轮我也补做了中文传播层检索。

有两点结果比较明确:

  1. REG4Rec 在中文网页里已经能看到一些知乎专栏和摘要页线索,但直连依然返回 403,不适合作为稳定证据
  2. GREAM 这条线的中文传播更弱,稳定结果基本还是 arXiv 原文页

我继续补做了:

  1. site:xiaohongshu.com REG4Rec 推荐
  2. site:xiaohongshu.com GREAM 推荐
  3. xhslink generative recommendation 推理 强化学习

截至 2026-03-21,结果仍以噪声、招聘页、无关页面和不可稳定复核的摘要页为主,没有拿到能进来源池的高价值 xhslink

所以这条线当前仍应完全以论文、官方仓和 GitHub API 为准。

证据与来源

  • REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems:arXiv 主入口。API 可回溯到 2025-08-21 07:02:51 UTC 首次提交、2026-02-09 08:28:24 UTC 更新到 v4;摘要已把 MPQPARSMSRACORP 一次写清。
  • REG4Rec arXiv HTML:正文细节入口。V-2 / V-3 节拆出 PARS + MSRAVII-C 的消融明确给出 w/o PARS / w/o MSRA / w/o CORP 的掉幅,8 节给出 2025-07-182025-07-22 的阿里广告平台 A/B 结果。
  • GitHub API 检索 REG4Rec / 论文全标题 / 作者名:截至 2026-03-21,仍未看到稳定官方仓,因此当前公开边界更适合记成 paper-first
  • Generative Reasoning Recommendation via LLMs:arXiv 主入口。API 显示论文发布于 2025-10-23 17:59:31 UTC;摘要直接写出 Collaborative-Semantic AlignmentReasoning Curriculum ActivationSRPOResidual-Sensitive Verifiable RewardBonus-Calibrated Group Advantage Estimation 以及 Direct Sequence / Sequential Reasoning 双模式。
  • GREAM arXiv HTML:正文细节入口。4 节给出 alignment 与 reasoning activation,5 节写出 SRPO6.3-6.5 节则明确表明 verifiable RL 的增益主要集中在 reasoning mode。
  • Indolent-Kawhi/GRRM:论文给出的官方仓。GitHub API 显示仓库创建于 2025-10-23 12:33:14 UTC,最近一次 push 为 2025-11-24 06:51:08 UTC;README 已公开 construct_model.pyscripts/run.shscripts/deploy.sh 和 Hugging Face models & dataset 入口。
  • 本地 search-layer 与公开网页检索 site:xiaohongshu.com REG4Rec 推荐site:xiaohongshu.com GREAM 推荐 与相关 xhslink 查询:截至 2026-03-21,仍未找到稳定高价值 xhslinkREG4Rec 的知乎线索直连返回 403,因此未作为事实依据纳入来源池。

下一步

  • 在已补 VRec / PROMISE / REG4Rec / GREAM 的基础上,把 reasoning 观察线扩成两组维度:reasoning control interfacedeployment mode
  • 至少先区分 external verifier / internal self-reflection / verifiable reward,以及 direct-only / reasoning-only / dual-mode,避免再把这四条路线继续混写成同一种 reasoning enhancement。
  • 继续跟踪 REG4Rec 是否出现稳定官方仓,以及 GRRM 是否继续更新训练脚本和 Hugging Face 资产。
  • 继续追中文高价值讨论与稳定 xhslink;在拿到可复用一手链路前,不让传播层材料覆盖一手事实判断。