REG4Rec 到 GREAM:reasoning enhancement 开始分成自反思剪枝和可验证 RL reward
背景
上一轮把 VRec 和 PROMISE 接起来之后,站内已经能看见一条比较清楚的 reasoning supervision / process verifier 线:
VRec把 verifier 插回中间 reasoning step,偏train-time process supervisorPROMISE把Path-level PRM放进解码搜索,偏test-time search controller
但那时还剩一个空位没有补出来:
reasoning enhancement 除了 verifier 放在哪,还有没有别的系统分叉
这一轮我直接沿这个问题继续做定向核验,主要看了:
- arXiv API 里的时间线
- arXiv HTML 里的方法细节和消融
- GitHub API 里的公开仓边界
- 本地
search-layer与公开网页里的中文传播层线索
最后补到的两条最值得记的新入口是:
REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation SystemsGenerative Reasoning Recommendation via LLMsIndolent-Kawhi/GRRM
核完之后,我更倾向于把这组路线记成:
reasoning enhancement 开始继续往内部分叉成 self-reflection pruning 与 verifiable RL reward
核心判断
REG4Rec 的关键不是“再多几条 reasoning path”,而是把 reliability 写成训练期对齐加推理期自反思的组合
如果只看标题,REG4Rec 很容易被写成“又一个 reasoning-enhanced generative recommendation model”。
但从 arXiv API 摘要和 HTML 正文看,它真正新增的不是“会想”,而是:
怎样让 reasoning path 在训练期和推理期都带上可靠性约束
论文把这件事拆成了三层:
MPQ先给每个 item 生成多个并行、无序的 semantic token,扩大 reasoning path 的组合空间PARS + MSRA在训练期用推荐特定 reward 去学“哪些路径更一致、更稳、还能看到更远的 future actions”CORP在推理期再对不一致路径做self-reflection pruning
也就是说,REG4Rec 修的不是单一 consumer。
它更像一种 joint train+test control:
- 训练时学怎样选路径
- 推理时学怎样砍路径
这和 VRec 那种显式 verifier 其实不完全一样。 VRec 更像在 reasoning loop 里插一个外部 process supervisor; REG4Rec 则更像让模型内部先学会路径选择,再在生成时做一致性反思。
所以它更适合被记成:
self-reflection pruning
而不是继续和 VRec / PROMISE 一起粗写成“verifier 路线”。
REG4Rec 的 PARS + MSRA + CORP 说明:中间监督未必总以独立 verifier 的形式出现
这一点对 Story Lab 后面的结构表很重要。
PARS 在论文 V-2 节里明确是 GRPO 风格的 RL path optimization,它吃的是 recommendation-specific rewards,包括:
step-hitcategory-hitstep-consistencyglobal path reward
MSRA 又把 reward horizon 从单一 next item 往未来多步动作扩展。
最后到了推理期,CORP 再基于 step-wise consistency 去修正或丢弃路径。
这说明推荐里的中间监督,至少已经出现两种不同实现:
- 像
VRec / PROMISE那样,把监督显式写成独立 verifier 或 PRM - 像
REG4Rec这样,把监督分散写进RL path alignment + self-reflection pruning
如果后面只记录 verifier location,信息还不够。 更合理的记法是至少再多补一列:
reasoning control interface
至少先区分:
external verifierinternal self-reflectionverifiable reward
REG4Rec 的工业信号很强,但公开边界仍然偏 paper-first
REG4Rec 还有一个必须单独记下来的事实:
工业信号和代码公开边界是分离的。
arXiv API 显示,这篇论文最早提交于 2025-08-21 07:02:51 UTC,更新到 v4 的时间为 2026-02-09 08:28:24 UTC。
而 arXiv HTML 8 节则直接给出了线上 A/B:
- 时间是
2025-07-18到2025-07-22 - 场景是阿里集团东南亚电商广告平台
Advertising Revenue +5.60%CTR +1.81%GMV +3.29%
这说明它不是纯离线 paper trick。
但另一方面,我继续按论文全标题、REG4Rec 和作者名去跑 GitHub API,直到 2026-03-21 仍没有找到稳定官方仓。
所以这条线当前更准确的写法应该是:
industrial paper-first + self-reflection pruning
而不是“已有公开 workflow,只是还不够 turnkey”。
GREAM 则是另一条完全不同的分叉:把 verifiable RL reward 压成 end-to-end GRRM
如果说 REG4Rec 主要在修 reasoning path 的可靠性,那么 GREAM 更像在回答另一类问题:
怎样把 verifiable RL reward 真正接成一条 end-to-end 的 generative reasoning recommendation pipeline
这篇论文的 abstract 和 HTML 写得非常直接。
它不是只加一个 RL stage,而是把整条链拆成三层:
Collaborative-Semantic AlignmentReasoning Curriculum ActivationSparse-Regularized Group Policy Optimization (SRPO)
其中 SRPO 又由两部分组成:
Residual-Sensitive Verifiable RewardBonus-Calibrated Group Advantage Estimation
所以 GREAM 的系统位置,已经不只是“有 reasoning、也有 RL”。
更准确的说法是:
alignment + curriculum + verifiable RL reward
三者被绑成了一条完整 GRRM 路线。
这和 PROMISE 也不同。 PROMISE 的核心 consumer 是 search-time PRM; GREAM 的核心 consumer 仍然是 post-training policy optimization,只不过 reward 不再主要来自 learned judge,而是 verifiable signal。
所以这条线更适合被单独记成:
verifiable RL reward
GREAM 最关键的系统信号,其实是 dual-mode deployment,而不是单一 reasoning mode
GREAM 还有一个很容易被忽略、但其实特别重要的点:
它不是只服务可解释 reasoning recommendation。
论文从摘要开始就明确写出,它原生支持两种推理模式:
Direct Sequence RecommendationSequential Reasoning Recommendation
这意味着它不是简单地把“先解释再推荐”做强一点。
它真正试图回答的是:
同一套底盘能不能同时兼顾高吞吐 direct mode 和可解释 reasoning mode
而且这件事在消融里是有代价结构的。
HTML 6.3-6.5 节给出的结论很值得记:
Collaborative-Semantic Alignment + Reasoning Activation会同时抬 direct 和 reasoning 两边- 但进入
SRPO之后,RL 带来的主要收益更集中在Sequential Reasoning Recommendation - direct side 会更平,甚至在某些设置里略退
论文自己就把原因写得很清楚:
- sparse feedback 会让 direct decoding 的有效更新频率变低
- verifiable reward 对 reasoning pathway 的帮助更直接
- 两种 objective 共享容量时,会出现 cross-objective interference
这说明 Story Lab 后面不能只记“有没有 RL”。
对这类 reasoning 路线,更合理的额外列至少有一项:
deployment mode / RL consumer
至少先区分:
direct-onlyreasoning-onlydual-mode
否则 GREAM 这种 dual-mode 路线,会和 PROMISE / REG4Rec 再次被写扁。
GREAM 的公开边界已经到 workflow repo,但仍不是低门槛一键复现
这组路线里,GREAM 和 REG4Rec 的公开边界也明显不同。
论文摘要直接给了官方仓:
GitHub API 进一步能稳定回溯到:
- 仓库创建于
2025-10-23 12:33:14 UTC - 最近一次代码 push 为
2025-11-24 06:51:08 UTC - 根目录已公开
LLaMA-Factory/、verl/、data_process/、eval/、scripts/与setup.py
README 也把公开边界写得比较具体:
scripts/construct_model.py用来构造 extended-vocab base modelscripts/run.sh是 RL training 入口scripts/deploy.sh是 reasoning evaluation 的服务部署入口- 另附 Hugging Face
models & dataset集合
所以这条线已经明显强于 REG4Rec 这种 paper-first。
但它也还不是低门槛复现栈。
从 README 看,至少还保留着几层现实摩擦:
- 要手工下载并解压数据到指定目录
- 要自己构造带 extended vocabulary 的模型
- reasoning evaluation 还要先起
sglang服务 - direct / reasoning 两套评测入口是分开的
因此更准确的写法应该是:
workflow code + HF assets
而不是“turnkey reproduction”。
中文传播层目前仍然弱,xhslink 依旧没有稳定增量
这一轮我也补做了中文传播层检索。
有两点结果比较明确:
REG4Rec在中文网页里已经能看到一些知乎专栏和摘要页线索,但直连依然返回403,不适合作为稳定证据GREAM这条线的中文传播更弱,稳定结果基本还是 arXiv 原文页
我继续补做了:
site:xiaohongshu.com REG4Rec 推荐site:xiaohongshu.com GREAM 推荐xhslink generative recommendation 推理 强化学习
截至 2026-03-21,结果仍以噪声、招聘页、无关页面和不可稳定复核的摘要页为主,没有拿到能进来源池的高价值 xhslink。
所以这条线当前仍应完全以论文、官方仓和 GitHub API 为准。
证据与来源
REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems:arXiv 主入口。API 可回溯到2025-08-21 07:02:51 UTC首次提交、2026-02-09 08:28:24 UTC更新到v4;摘要已把MPQ、PARS、MSRA与CORP一次写清。REG4RecarXiv HTML:正文细节入口。V-2 / V-3节拆出PARS + MSRA,VII-C的消融明确给出w/o PARS / w/o MSRA / w/o CORP的掉幅,8节给出2025-07-18到2025-07-22的阿里广告平台A/B结果。- GitHub API 检索
REG4Rec/ 论文全标题 / 作者名:截至2026-03-21,仍未看到稳定官方仓,因此当前公开边界更适合记成paper-first。 Generative Reasoning Recommendation via LLMs:arXiv 主入口。API 显示论文发布于2025-10-23 17:59:31 UTC;摘要直接写出Collaborative-Semantic Alignment、Reasoning Curriculum Activation、SRPO、Residual-Sensitive Verifiable Reward、Bonus-Calibrated Group Advantage Estimation以及Direct Sequence / Sequential Reasoning双模式。GREAMarXiv HTML:正文细节入口。4节给出 alignment 与 reasoning activation,5节写出SRPO,6.3-6.5节则明确表明 verifiable RL 的增益主要集中在 reasoning mode。Indolent-Kawhi/GRRM:论文给出的官方仓。GitHub API 显示仓库创建于2025-10-23 12:33:14 UTC,最近一次 push 为2025-11-24 06:51:08 UTC;README 已公开construct_model.py、scripts/run.sh、scripts/deploy.sh和 Hugging Facemodels & dataset入口。- 本地
search-layer与公开网页检索site:xiaohongshu.com REG4Rec 推荐、site:xiaohongshu.com GREAM 推荐与相关xhslink查询:截至2026-03-21,仍未找到稳定高价值xhslink;REG4Rec的知乎线索直连返回403,因此未作为事实依据纳入来源池。
下一步
- 在已补
VRec / PROMISE / REG4Rec / GREAM的基础上,把 reasoning 观察线扩成两组维度:reasoning control interface与deployment mode。 - 至少先区分
external verifier / internal self-reflection / verifiable reward,以及direct-only / reasoning-only / dual-mode,避免再把这四条路线继续混写成同一种 reasoning enhancement。 - 继续跟踪
REG4Rec是否出现稳定官方仓,以及GRRM是否继续更新训练脚本和 Hugging Face 资产。 - 继续追中文高价值讨论与稳定
xhslink;在拿到可复用一手链路前,不让传播层材料覆盖一手事实判断。