GPR：广告生成式推荐开始把未来请求预演和层级奖励训进同一个 one-model

背景

补完 GR4AD 和 OneSearch 之后，站里已经能看到两类比较清楚的工业信号：

GR4AD 把广告生成式推荐写成了 value-aware RL + beam serving 的生产栈。
OneSearch 把电商搜索里的 MCA 三段冲突压成了统一生成式 stack，并保留轻量 selector。

但如果只停在这两条线上，很容易继续把工业 generative 主线理解成：

当前请求 -> 生成候选 -> 用价值信号重排 -> 控 beam budget

这一轮重新扫公开材料时，我补到了一个此前还没进 Story Lab 的关键入口：

核完之后，我更倾向于把它记成：

广告生成式推荐开始把未来请求预演和层级奖励训进同一个 one-model

而且这条线还有一个很重要的背景意义：

工业广告生成式推荐不再只是快手一家的公开路线。

GPR 的部署场景明确写的是 Tencent Weixin Channels advertising system。这不是 Kuaishou 主线的又一个 follow-up，而是另一家大型平台也在把广告推荐往统一生成式系统推进。

核心判断

`GPR` 的关键不是“广告里也能做 generative recommendation”，而是把 `understanding -> generation -> valuation` 压成了同一个 one-model

论文方法部分给出的主结构不是普通的 generator + reranker。

它直接提出一套 HHD：

HSD：先理解异构用户行为和上下文，形成 intent embedding。
PTD：再按 Thinking -> Refining -> Generation 的节奏做层级 token 解码。
HTE：最后把已选层级 token 接成 value function，估计 eCPM。

arXiv HTML 里这段结构写得很清楚：HSD 负责 user context understanding，PTD 负责 hierarchical decoding，HTE 则直接承担 RL 训练里的 value estimation。

这和 GR4AD 的系统拆分不太一样。

GR4AD 更像：

生成式推荐栈 + value-aware RL + traffic-aware beam serving

而 GPR 更像：

用户理解 + 思考/细化 + 层级生成 + 价值估计

也就是说，它把广告推荐的多个传统 owner 又压平了一层，不只是把 ranking objective 接到生成器后面，而是连 value function 都被写进了主栈。

`HEPO` 说明广告里的 RL 已经开始直接给中间语义层发奖励，而不只等最终曝光结果

GPR 最值得单独记的技术点，是 HEPO。

arXiv HTML 的 3.3 节明确指出：如果 reward 只在最终 exposure level 才出现，那么上层 coarse decision 只能靠 bootstrap value 去猜自己的贡献，会导致 weak、high-variance 的 credit signal。论文甚至给了一个很直观的例子：

如果用户喜欢的是 smartphones，但拒绝的是 Mobile Phones -> Brand A -> Item X，那错误其实出在品牌层，不该把整个 Mobile Phones 粗类都一起降权。

因此 HEPO 做的不是普通的“再上一个 PPO/DPO 变体”，而是：

用 user-specific preference patterns 构造 hierarchical process rewards，在每个 semantic level 上都给直接监督

这意味着它修的是：

层级 credit assignment

这点和 GR4AD 的 list-wise business-value optimizer 不是同一个问题。

GR4AD 更像把 RL 压到整条 list 的 business metric 上。 GPR 则更像把 RL 压回 semantic code tree 内部，直接管每一层 coarse-to-fine 决策。

如果后面只记“用了 RL、优化了 GMV、还做了 beam search”，就会把这两条工业路线重新写成一种东西。

`ARR` 才是这条线最值得补进观察表的新层：系统开始训练“未来请求”，而不只反应“当前请求”

GPR 还有一个此前站里没单独记开的点：

ARR (Anticipatory Request Rehearsal)

arXiv HTML 原文写得非常直接：

trained solely on historical data risks being reactive rather than proactive

也就是：

只用历史日志训练的广告模型，更像被动反应器，而不是主动适应器

为了解这个问题，论文让系统生成 synthetic training samples，去近似 users’ future request states。

这和目前站里已经记录过的几条工业路线形成了很清楚的分工：

PROMISE 更像在当前请求上重分配 search budget。
GR4AD 更像在当前 serving budget 下动态调 beam。
OneSearch 更像在当前 query 上统一 stack，再保留轻量 selector。
GPR 则更进一步，把训练样本本身往未来 request state 前推。

所以对 Story Lab 来说，GPR 真正逼出来的新观察列不是又一个 reward 类型，而是：

request-state adaptation regime

至少先区分：

purely reactive logged request
current-request simulator evaluation
anticipatory future request rehearsal

否则 GR4AD、PROMISE 和 GPR 这种都碰了 value + search 的工业路线，还是会被误写成普通的 RL + beam search。

这条线的线上证据很硬，而且不是单次 launch，而是五轮 sequential A/B 持续叠增

GPR 的工业强度不只是“部署在大平台上”。

arXiv HTML 的在线实验部分直接写了五轮 sequential A/B：

v0.1: HSD + NTP + DPO
v0.2: + HEPO w/o ARR
v0.3: + MTP + Thinking
v0.4: + PTD
v0.5: + HEPO w/ ARR

对应的 GMV 增量也写得很清楚：

v0.1 首次全量上线后 GMV +2.11%
v0.2 再多 +0.70%
v0.3 再多 +0.63%
v0.4 再多 +0.71%
v0.5 再多 +0.58%

更重要的是，它的 stratified analysis 说明收益并不只落在总体均值：

UG1 低活用户有 GMV +3.56%、CTCVR +3.72%
UG3 的 CTCVR 提升达到 +4.63%
新广告的 GMV +2.97%，高于老广告的 +1.65%
新广告 CTCVR +4.02%，也高于非新广告的 +2.78%

这说明 GPR 的价值不只是在平均 monetization 上涨点，它更像在同时修两类更难的问题：

low-activity users
new inventory / cold-start ads

如果把这点和 OneSearch 的 long-tail / cold-start 结果放在一起看，会发现工业 generative 主线正在越来越明确地把“统一栈的收益”写到稀疏场景上，而不只是主流流量。

公开边界当前仍然是 `paper-first`，中文传播层也还没进入高密度扩散

这条线的工业证据很强，但公开边界并不强。

我用 GitHub API 按论文全标题、2511.10138 和 Tencent Weixin Channels 做了精确检索，截至 2026-03-22 仍然只看到 awesome list 和聚合仓，没有稳定官方 repo。

因此当前更准确的记录方式仍然是：

industrial paper-first one-model ad route

中文传播层这轮也只补到一篇个人技术博客的解读页。它的价值在于把 HHD / HEPO / ARR 这些模块压成了中文机制稿，便于补“中文可见层”；但它不是一手证据，事实判断还是要回到 arXiv 原文和 GitHub API 检索。

至于 xhslink / 小红书，这一轮继续做了定向检索，仍然没有拿到稳定高价值线索。

证据与来源

GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation：arXiv 摘要主入口。页面已直接写出 fully deployed in the Tencent Weixin Channels advertising system，并把核心模块概括成 unified representation + architectural design + training strategy。
GPR arXiv HTML：正文关键入口。2.2 节写清 HHD = HSD + PTD + HTE，3.3 节把 HEPO / Hierarchical Process Rewards / ARR 展开，4.4 节给出五轮 sequential A/B、低活用户和新广告的分层结果。
GPR 论文解读：广告推荐的“生成式一体化”范式，如何用一个模型替代级联系统？：当前可稳定访问的中文传播层入口。它把 统一输入 token / HHD / HEPO / ARR 压成中文导读，适合做中文导航，但不能替代一手原文。
GitHub API 检索论文全标题、2511.10138 与 Tencent Weixin Channels：截至 2026-03-22，仍未看到稳定官方 repo，因此当前公开边界更适合写成 industrial paper-first。
公开网页检索 site:xiaohongshu.com GPR 广告推荐、xhslink GPR 广告推荐 与相关组合：截至 2026-03-22，仍未找到稳定高价值 xhslink。

下一步

把 GPR / GR4AD / PROMISE / OneSearch / OneRec-V2 压到同一张广告生成式推荐观察表里，除了 training-serving co-design 和 serving-time controller，再新增 request-state adaptation regime。
继续跟踪 GPR 是否出现稳定官方仓；如果后续开放代码，要先核 HEPO、ARR 和 HTE 是否按论文原样放出。
继续追中文传播层，尤其是高价值技术笔记和稳定 xhslink，看中文世界会不会把 future request rehearsal 这一层讲明白。

GPR：广告生成式推荐开始把未来请求预演和层级奖励训进同一个 one-model

背景

核心判断

GPR 的关键不是“广告里也能做 generative recommendation”，而是把 understanding -> generation -> valuation 压成了同一个 one-model

HEPO 说明广告里的 RL 已经开始直接给中间语义层发奖励，而不只等最终曝光结果

ARR 才是这条线最值得补进观察表的新层：系统开始训练“未来请求”，而不只反应“当前请求”