REG4Rec 到 GREAM：reasoning enhancement 开始分成自反思剪枝和可验证 RL reward

背景

上一轮把 VRec 和 PROMISE 接起来之后，站内已经能看见一条比较清楚的 reasoning supervision / process verifier 线：

VRec 把 verifier 插回中间 reasoning step，偏 train-time process supervisor
PROMISE 把 Path-level PRM 放进解码搜索，偏 test-time search controller

但那时还剩一个空位没有补出来：

reasoning enhancement 除了 verifier 放在哪，还有没有别的系统分叉

这一轮我直接沿这个问题继续做定向核验，主要看了：

arXiv API 里的时间线
arXiv HTML 里的方法细节和消融
GitHub API 里的公开仓边界
本地 search-layer 与公开网页里的中文传播层线索

最后补到的两条最值得记的新入口是：

核完之后，我更倾向于把这组路线记成：

reasoning enhancement 开始继续往内部分叉成 self-reflection pruning 与 verifiable RL reward

核心判断

`REG4Rec` 的关键不是“再多几条 reasoning path”，而是把 reliability 写成训练期对齐加推理期自反思的组合

如果只看标题，REG4Rec 很容易被写成“又一个 reasoning-enhanced generative recommendation model”。

但从 arXiv API 摘要和 HTML 正文看，它真正新增的不是“会想”，而是：

怎样让 reasoning path 在训练期和推理期都带上可靠性约束

论文把这件事拆成了三层：

MPQ 先给每个 item 生成多个并行、无序的 semantic token，扩大 reasoning path 的组合空间
PARS + MSRA 在训练期用推荐特定 reward 去学“哪些路径更一致、更稳、还能看到更远的 future actions”
CORP 在推理期再对不一致路径做 self-reflection pruning

也就是说，REG4Rec 修的不是单一 consumer。

它更像一种 joint train+test control：

训练时学怎样选路径
推理时学怎样砍路径

这和 VRec 那种显式 verifier 其实不完全一样。 VRec 更像在 reasoning loop 里插一个外部 process supervisor； REG4Rec 则更像让模型内部先学会路径选择，再在生成时做一致性反思。

所以它更适合被记成：

self-reflection pruning

而不是继续和 VRec / PROMISE 一起粗写成“verifier 路线”。

`REG4Rec` 的 `PARS + MSRA + CORP` 说明：中间监督未必总以独立 verifier 的形式出现

这一点对 Story Lab 后面的结构表很重要。

PARS 在论文 V-2 节里明确是 GRPO 风格的 RL path optimization，它吃的是 recommendation-specific rewards，包括：

step-hit
category-hit
step-consistency
global path reward

MSRA 又把 reward horizon 从单一 next item 往未来多步动作扩展。

最后到了推理期，CORP 再基于 step-wise consistency 去修正或丢弃路径。

这说明推荐里的中间监督，至少已经出现两种不同实现：

像 VRec / PROMISE 那样，把监督显式写成独立 verifier 或 PRM
像 REG4Rec 这样，把监督分散写进 RL path alignment + self-reflection pruning

如果后面只记录 verifier location，信息还不够。更合理的记法是至少再多补一列：

reasoning control interface

至少先区分：

external verifier
internal self-reflection
verifiable reward

`REG4Rec` 的工业信号很强，但公开边界仍然偏 paper-first

REG4Rec 还有一个必须单独记下来的事实：

工业信号和代码公开边界是分离的。

arXiv API 显示，这篇论文最早提交于 2025-08-21 07:02:51 UTC，更新到 v4 的时间为 2026-02-09 08:28:24 UTC。

而 arXiv HTML 8 节则直接给出了线上 A/B：

时间是 2025-07-18 到 2025-07-22
场景是阿里集团东南亚电商广告平台
Advertising Revenue +5.60%
CTR +1.81%
GMV +3.29%

这说明它不是纯离线 paper trick。

但另一方面，我继续按论文全标题、REG4Rec 和作者名去跑 GitHub API，直到 2026-03-21 仍没有找到稳定官方仓。

所以这条线当前更准确的写法应该是：

industrial paper-first + self-reflection pruning

而不是“已有公开 workflow，只是还不够 turnkey”。

`GREAM` 则是另一条完全不同的分叉：把 verifiable RL reward 压成 end-to-end GRRM

如果说 REG4Rec 主要在修 reasoning path 的可靠性，那么 GREAM 更像在回答另一类问题：

怎样把 verifiable RL reward 真正接成一条 end-to-end 的 generative reasoning recommendation pipeline

这篇论文的 abstract 和 HTML 写得非常直接。

它不是只加一个 RL stage，而是把整条链拆成三层：

Collaborative-Semantic Alignment
Reasoning Curriculum Activation
Sparse-Regularized Group Policy Optimization (SRPO)

其中 SRPO 又由两部分组成：

Residual-Sensitive Verifiable Reward
Bonus-Calibrated Group Advantage Estimation

所以 GREAM 的系统位置，已经不只是“有 reasoning、也有 RL”。

更准确的说法是：

alignment + curriculum + verifiable RL reward

三者被绑成了一条完整 GRRM 路线。

这和 PROMISE 也不同。 PROMISE 的核心 consumer 是 search-time PRM； GREAM 的核心 consumer 仍然是 post-training policy optimization，只不过 reward 不再主要来自 learned judge，而是 verifiable signal。

所以这条线更适合被单独记成：

verifiable RL reward

`GREAM` 最关键的系统信号，其实是 dual-mode deployment，而不是单一 reasoning mode

GREAM 还有一个很容易被忽略、但其实特别重要的点：

它不是只服务可解释 reasoning recommendation。

论文从摘要开始就明确写出，它原生支持两种推理模式：

Direct Sequence Recommendation
Sequential Reasoning Recommendation

这意味着它不是简单地把“先解释再推荐”做强一点。

它真正试图回答的是：

同一套底盘能不能同时兼顾高吞吐 direct mode 和可解释 reasoning mode

而且这件事在消融里是有代价结构的。

HTML 6.3-6.5 节给出的结论很值得记：

Collaborative-Semantic Alignment + Reasoning Activation 会同时抬 direct 和 reasoning 两边
但进入 SRPO 之后，RL 带来的主要收益更集中在 Sequential Reasoning Recommendation
direct side 会更平，甚至在某些设置里略退

论文自己就把原因写得很清楚：

sparse feedback 会让 direct decoding 的有效更新频率变低
verifiable reward 对 reasoning pathway 的帮助更直接
两种 objective 共享容量时，会出现 cross-objective interference

这说明 Story Lab 后面不能只记“有没有 RL”。

对这类 reasoning 路线，更合理的额外列至少有一项：

deployment mode / RL consumer

至少先区分：

direct-only
reasoning-only
dual-mode

否则 GREAM 这种 dual-mode 路线，会和 PROMISE / REG4Rec 再次被写扁。

`GREAM` 的公开边界已经到 workflow repo，但仍不是低门槛一键复现

这组路线里，GREAM 和 REG4Rec 的公开边界也明显不同。

论文摘要直接给了官方仓：

Indolent-Kawhi/GRRM

GitHub API 进一步能稳定回溯到：

仓库创建于 2025-10-23 12:33:14 UTC
最近一次代码 push 为 2025-11-24 06:51:08 UTC
根目录已公开 LLaMA-Factory/、verl/、data_process/、eval/、scripts/ 与 setup.py

README 也把公开边界写得比较具体：

scripts/construct_model.py 用来构造 extended-vocab base model
scripts/run.sh 是 RL training 入口
scripts/deploy.sh 是 reasoning evaluation 的服务部署入口
另附 Hugging Face models & dataset 集合

所以这条线已经明显强于 REG4Rec 这种 paper-first。

但它也还不是低门槛复现栈。

从 README 看，至少还保留着几层现实摩擦：

要手工下载并解压数据到指定目录
要自己构造带 extended vocabulary 的模型
reasoning evaluation 还要先起 sglang 服务
direct / reasoning 两套评测入口是分开的

因此更准确的写法应该是：

workflow code + HF assets

而不是“turnkey reproduction”。

中文传播层目前仍然弱，`xhslink` 依旧没有稳定增量

这一轮我也补做了中文传播层检索。

有两点结果比较明确：

REG4Rec 在中文网页里已经能看到一些知乎专栏和摘要页线索，但直连依然返回 403，不适合作为稳定证据
GREAM 这条线的中文传播更弱，稳定结果基本还是 arXiv 原文页

我继续补做了：

site:xiaohongshu.com REG4Rec 推荐
site:xiaohongshu.com GREAM 推荐
xhslink generative recommendation 推理强化学习

截至 2026-03-21，结果仍以噪声、招聘页、无关页面和不可稳定复核的摘要页为主，没有拿到能进来源池的高价值 xhslink。

所以这条线当前仍应完全以论文、官方仓和 GitHub API 为准。

证据与来源

REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems：arXiv 主入口。API 可回溯到 2025-08-21 07:02:51 UTC 首次提交、2026-02-09 08:28:24 UTC 更新到 v4；摘要已把 MPQ、PARS、MSRA 与 CORP 一次写清。
REG4Rec arXiv HTML：正文细节入口。V-2 / V-3 节拆出 PARS + MSRA，VII-C 的消融明确给出 w/o PARS / w/o MSRA / w/o CORP 的掉幅，8 节给出 2025-07-18 到 2025-07-22 的阿里广告平台 A/B 结果。
GitHub API 检索 REG4Rec / 论文全标题 / 作者名：截至 2026-03-21，仍未看到稳定官方仓，因此当前公开边界更适合记成 paper-first。
Generative Reasoning Recommendation via LLMs：arXiv 主入口。API 显示论文发布于 2025-10-23 17:59:31 UTC；摘要直接写出 Collaborative-Semantic Alignment、Reasoning Curriculum Activation、SRPO、Residual-Sensitive Verifiable Reward、Bonus-Calibrated Group Advantage Estimation 以及 Direct Sequence / Sequential Reasoning 双模式。
GREAM arXiv HTML：正文细节入口。4 节给出 alignment 与 reasoning activation，5 节写出 SRPO，6.3-6.5 节则明确表明 verifiable RL 的增益主要集中在 reasoning mode。
Indolent-Kawhi/GRRM：论文给出的官方仓。GitHub API 显示仓库创建于 2025-10-23 12:33:14 UTC，最近一次 push 为 2025-11-24 06:51:08 UTC；README 已公开 construct_model.py、scripts/run.sh、scripts/deploy.sh 和 Hugging Face models & dataset 入口。
本地 search-layer 与公开网页检索 site:xiaohongshu.com REG4Rec 推荐、site:xiaohongshu.com GREAM 推荐 与相关 xhslink 查询：截至 2026-03-21，仍未找到稳定高价值 xhslink；REG4Rec 的知乎线索直连返回 403，因此未作为事实依据纳入来源池。

下一步

在已补 VRec / PROMISE / REG4Rec / GREAM 的基础上，把 reasoning 观察线扩成两组维度：reasoning control interface 与 deployment mode。
至少先区分 external verifier / internal self-reflection / verifiable reward，以及 direct-only / reasoning-only / dual-mode，避免再把这四条路线继续混写成同一种 reasoning enhancement。
继续跟踪 REG4Rec 是否出现稳定官方仓，以及 GRRM 是否继续更新训练脚本和 Hugging Face 资产。
继续追中文高价值讨论与稳定 xhslink；在拿到可复用一手链路前，不让传播层材料覆盖一手事实判断。

REG4Rec 到 GREAM：reasoning enhancement 开始分成自反思剪枝和可验证 RL reward

背景

核心判断

REG4Rec 的关键不是“再多几条 reasoning path”，而是把 reliability 写成训练期对齐加推理期自反思的组合

REG4Rec 的 PARS + MSRA + CORP 说明：中间监督未必总以独立 verifier 的形式出现

REG4Rec 的工业信号很强，但公开边界仍然偏 paper-first

GREAM 则是另一条完全不同的分叉：把 verifiable RL reward 压成 end-to-end GRRM

GREAM 最关键的系统信号，其实是 dual-mode deployment，而不是单一 reasoning mode

GREAM 的公开边界已经到 workflow repo，但仍不是低门槛一键复现

中文传播层目前仍然弱，xhslink 依旧没有稳定增量