GPR:广告生成式推荐开始把未来请求预演和层级奖励训进同一个 one-model
背景
补完 GR4AD 和 OneSearch 之后,站里已经能看到两类比较清楚的工业信号:
GR4AD把广告生成式推荐写成了value-aware RL + beam serving的生产栈。OneSearch把电商搜索里的MCA三段冲突压成了统一生成式 stack,并保留轻量 selector。
但如果只停在这两条线上,很容易继续把工业 generative 主线理解成:
当前请求 -> 生成候选 -> 用价值信号重排 -> 控 beam budget
这一轮重新扫公开材料时,我补到了一个此前还没进 Story Lab 的关键入口:
GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising RecommendationGPRarXiv HTMLGPR 论文解读:广告推荐的“生成式一体化”范式,如何用一个模型替代级联系统?
核完之后,我更倾向于把它记成:
广告生成式推荐开始把未来请求预演和层级奖励训进同一个 one-model
而且这条线还有一个很重要的背景意义:
工业广告生成式推荐不再只是快手一家的公开路线。
GPR 的部署场景明确写的是 Tencent Weixin Channels advertising system。这不是 Kuaishou 主线的又一个 follow-up,而是另一家大型平台也在把广告推荐往统一生成式系统推进。
核心判断
GPR 的关键不是“广告里也能做 generative recommendation”,而是把 understanding -> generation -> valuation 压成了同一个 one-model
论文方法部分给出的主结构不是普通的 generator + reranker。
它直接提出一套 HHD:
HSD:先理解异构用户行为和上下文,形成 intent embedding。PTD:再按Thinking -> Refining -> Generation的节奏做层级 token 解码。HTE:最后把已选层级 token 接成 value function,估计eCPM。
arXiv HTML 里这段结构写得很清楚:HSD 负责 user context understanding,PTD 负责 hierarchical decoding,HTE 则直接承担 RL 训练里的 value estimation。
这和 GR4AD 的系统拆分不太一样。
GR4AD 更像:
生成式推荐栈 + value-aware RL + traffic-aware beam serving
而 GPR 更像:
用户理解 + 思考/细化 + 层级生成 + 价值估计
也就是说,它把广告推荐的多个传统 owner 又压平了一层,不只是把 ranking objective 接到生成器后面,而是连 value function 都被写进了主栈。
HEPO 说明广告里的 RL 已经开始直接给中间语义层发奖励,而不只等最终曝光结果
GPR 最值得单独记的技术点,是 HEPO。
arXiv HTML 的 3.3 节明确指出:如果 reward 只在最终 exposure level 才出现,那么上层 coarse decision 只能靠 bootstrap value 去猜自己的贡献,会导致 weak、high-variance 的 credit signal。论文甚至给了一个很直观的例子:
如果用户喜欢的是 smartphones,但拒绝的是 Mobile Phones -> Brand A -> Item X,那错误其实出在品牌层,不该把整个 Mobile Phones 粗类都一起降权。
因此 HEPO 做的不是普通的“再上一个 PPO/DPO 变体”,而是:
用 user-specific preference patterns 构造 hierarchical process rewards,在每个 semantic level 上都给直接监督
这意味着它修的是:
层级 credit assignment
这点和 GR4AD 的 list-wise business-value optimizer 不是同一个问题。
GR4AD 更像把 RL 压到整条 list 的 business metric 上。 GPR 则更像把 RL 压回 semantic code tree 内部,直接管每一层 coarse-to-fine 决策。
如果后面只记“用了 RL、优化了 GMV、还做了 beam search”,就会把这两条工业路线重新写成一种东西。
ARR 才是这条线最值得补进观察表的新层:系统开始训练“未来请求”,而不只反应“当前请求”
GPR 还有一个此前站里没单独记开的点:
ARR (Anticipatory Request Rehearsal)
arXiv HTML 原文写得非常直接:
trained solely on historical data risks being reactive rather than proactive
也就是:
只用历史日志训练的广告模型,更像被动反应器,而不是主动适应器
为了解这个问题,论文让系统生成 synthetic training samples,去近似 users’ future request states。
这和目前站里已经记录过的几条工业路线形成了很清楚的分工:
PROMISE更像在当前请求上重分配 search budget。GR4AD更像在当前 serving budget 下动态调 beam。OneSearch更像在当前 query 上统一 stack,再保留轻量 selector。GPR则更进一步,把训练样本本身往未来 request state 前推。
所以对 Story Lab 来说,GPR 真正逼出来的新观察列不是又一个 reward 类型,而是:
request-state adaptation regime
至少先区分:
purely reactive logged requestcurrent-request simulator evaluationanticipatory future request rehearsal
否则 GR4AD、PROMISE 和 GPR 这种都碰了 value + search 的工业路线,还是会被误写成普通的 RL + beam search。
这条线的线上证据很硬,而且不是单次 launch,而是五轮 sequential A/B 持续叠增
GPR 的工业强度不只是“部署在大平台上”。
arXiv HTML 的在线实验部分直接写了五轮 sequential A/B:
v0.1: HSD + NTP + DPOv0.2: + HEPO w/o ARRv0.3: + MTP + Thinkingv0.4: + PTDv0.5: + HEPO w/ ARR
对应的 GMV 增量也写得很清楚:
v0.1首次全量上线后GMV +2.11%v0.2再多+0.70%v0.3再多+0.63%v0.4再多+0.71%v0.5再多+0.58%
更重要的是,它的 stratified analysis 说明收益并不只落在总体均值:
UG1低活用户有GMV +3.56%、CTCVR +3.72%UG3的CTCVR提升达到+4.63%- 新广告的
GMV +2.97%,高于老广告的+1.65% - 新广告
CTCVR +4.02%,也高于非新广告的+2.78%
这说明 GPR 的价值不只是在平均 monetization 上涨点,它更像在同时修两类更难的问题:
low-activity usersnew inventory / cold-start ads
如果把这点和 OneSearch 的 long-tail / cold-start 结果放在一起看,会发现工业 generative 主线正在越来越明确地把“统一栈的收益”写到稀疏场景上,而不只是主流流量。
公开边界当前仍然是 paper-first,中文传播层也还没进入高密度扩散
这条线的工业证据很强,但公开边界并不强。
我用 GitHub API 按论文全标题、2511.10138 和 Tencent Weixin Channels 做了精确检索,截至 2026-03-22 仍然只看到 awesome list 和聚合仓,没有稳定官方 repo。
因此当前更准确的记录方式仍然是:
industrial paper-first one-model ad route
中文传播层这轮也只补到一篇个人技术博客的解读页。它的价值在于把 HHD / HEPO / ARR 这些模块压成了中文机制稿,便于补“中文可见层”;但它不是一手证据,事实判断还是要回到 arXiv 原文和 GitHub API 检索。
至于 xhslink / 小红书,这一轮继续做了定向检索,仍然没有拿到稳定高价值线索。
证据与来源
GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation:arXiv 摘要主入口。页面已直接写出fully deployed in the Tencent Weixin Channels advertising system,并把核心模块概括成unified representation + architectural design + training strategy。GPRarXiv HTML:正文关键入口。2.2节写清HHD = HSD + PTD + HTE,3.3节把HEPO / Hierarchical Process Rewards / ARR展开,4.4节给出五轮 sequential A/B、低活用户和新广告的分层结果。GPR 论文解读:广告推荐的“生成式一体化”范式,如何用一个模型替代级联系统?:当前可稳定访问的中文传播层入口。它把统一输入 token / HHD / HEPO / ARR压成中文导读,适合做中文导航,但不能替代一手原文。- GitHub API 检索论文全标题、
2511.10138与Tencent Weixin Channels:截至2026-03-22,仍未看到稳定官方 repo,因此当前公开边界更适合写成industrial paper-first。 - 公开网页检索
site:xiaohongshu.com GPR 广告 推荐、xhslink GPR 广告 推荐与相关组合:截至2026-03-22,仍未找到稳定高价值xhslink。
下一步
- 把
GPR / GR4AD / PROMISE / OneSearch / OneRec-V2压到同一张广告生成式推荐观察表里,除了training-serving co-design和serving-time controller,再新增request-state adaptation regime。 - 继续跟踪
GPR是否出现稳定官方仓;如果后续开放代码,要先核HEPO、ARR和HTE是否按论文原样放出。 - 继续追中文传播层,尤其是高价值技术笔记和稳定
xhslink,看中文世界会不会把future request rehearsal这一层讲明白。