Index

Stories

把论文、技术报告和研究判断组织成可持续追踪的中文 Story。

2026-03-19 / seed

快手种子方向：从 OneRec 到 OneRec-Think

如果这个项目要先抓住 LLM-RL 协同推荐的主线，OneRec 系列是当前最值得优先吃透的一批公开材料。

2026-03-20 / ecosystem

OneRec 主线开始进入公开生态期

OpenOneRec、OneRec-Think 代码仓和中文公开传播同时出现后，OneRec 不再只是一个工业论文案例，而是开始变成可追踪、可复现、可校验的公开研究栈。

2026-03-20 / rl-bridge

OneRec-V2 才是 OneRec 主线里的 RL 桥梁

如果只看 OneRec、OneRec-Think 和 OpenOneRec，会漏掉快手主线里最关键的一次转向。OneRec-V2 明确指出 reward-model-only RL 的局限，并把真实用户反馈对齐、decoder-only scaling 与后续公开栈接了起来。

2026-03-20 / open-stack

OpenOneRec 正在先把公开底盘补到前训练层

截至 2026-03-20，OpenOneRec 官方继续在 Hugging Face 增加 tokenizer、pretrain checkpoint、多模态 embedding 和新数据集，但 benchmark 仍有 gated 门槛，RL / VeRL 统一复现仍未 turnkey。

2026-03-20 / cn-discussion

中文讨论层开始补上 OneRec-V2 的机制细节

这一轮新增的不是官方资产，而是几篇能把 OneRec-V2 的真实反馈、GBPO 和中文传播层串起来的高价值讨论；它们说明中文社区已经开始从快讯转向机制拆解。

2026-03-20 / post-training

OpenOneRec 已把后训练链路拆分公开

截至 2026-03-20，OpenOneRec 主仓已可见 `verl_rl` 与 `verl_distillation` 两个官方模块，这意味着推荐 RL 与 on-policy distillation 代码已经分拆放出；真正缺的不是“完全没有代码”，而是统一、一键、低门槛的复现链。

2026-03-20 / benchmark

RecIF-Bench 已公开评测接口，但还不是无门槛 benchmark

截至 2026-03-20，OpenOneRec 已公开 `benchmarks/` 代码、8 个任务层级和公开模型卡，但 `OpenOneRec-RecIF` 数据仍是 `gated: auto`，评测 README 还要求本地 benchmark 数据、Ray/vLLM 环境和 Gemini 配置；真正开放的是接口和脚本，不是零门槛复现。

2026-03-20 / benchmark-judge

RecIF-Bench 的两项语义评测，默认还是 Gemini 裁判

截至 2026-03-20，OpenOneRec 公开的 8 个 benchmark 任务并不共享同一种评测范式：前 6 项主要走本地指标，而 `item_understand` 与 `rec_reason` 两项会调用 `benchmarks/api` 做 `LLM-as-Judge`，官方 quick start 默认要求配置 Vertex Gemini。

2026-03-20 / benchmark-backend

OpenOneRec 的 judge backend 可切换，但并不等价

截至 2026-03-20，OpenOneRec 的 `benchmarks/api` 虽然暴露了 `Gemini / DeepSeek / Claude` 三种 judge backend，但官方实现并非对称替换：`Gemini` 是文档默认路径，`DeepSeek` 实际走百度千帆，`Claude` 的配置模板还留着空的 `model_name`。

2026-03-20 / think-boundary

OneRec-Think 公开的是推理激活链，不是完整 RL 链

截至 2026-03-20，OneRec-Think 论文已经明确写出 `Reasoning Enhancement = VERL + GRPO + Rollout-Beam reward`，但公开仓库只放出了 `Itemic Alignment -> Recommendation -> Reasoning Activation` 训练与评测脚本；公开边界应写成“推理链已开放到激活层”，而不是“完整 reasoning RL 已开源”。

2026-03-20 / method-map

LLM-RL 协同推荐，也可以先桥接黑盒推荐器

Rec-R1 与 Rank-GRPO 说明，公开世界里的 LLM-RL 协同推荐不只是在重做 OneRec 式端到端生成器；另一条成形中的路线，是把 LLM 通过 RL 接到现有推荐/检索系统上，其中 `Rec-R1` 做 sequence-level closed-loop optimization，`Rank-GRPO` 则进一步把优化单位收缩到 rank-level。

2026-03-20 / role-taxonomy

LLM-RL 协同推荐的统一方法表，还缺一个角色维度

新找到的 TechRxiv 综述把 LLM-RL 协同推荐按 `policy / reasoner / representer / explainer / simulator` 五种角色重排；这说明 Story Lab 现有的 `反馈来源 × reward 类型 × 优化单位 × 集成层 × 公开程度` 还不够，至少还要再加一列 `LLM 在 RL pipeline 里扮演什么角色`。

2026-03-20 / simulator

用户模拟器正在前移成推荐 RL 的环境层

从 SUBER、Lusifer、LLM-Powered User Simulator 到 RecoWorld，公开世界里的 simulator 已经不只是给 RL 多一个便宜 reward，而是在逐步长成推荐系统的训练、评测和多轮交互环境层。

2026-03-20 / role-stack

RecAI 已把推荐里的多种 LLM 角色放进同一公开栈

微软 `RecAI` 不只是又一个 LLM4Rec 仓库。它把 `RecLM-gen`、`RecLM-emb`、`RecExplainer` 和 evaluator 放在同一项目里，说明 `policy / representer / explainer` 这组角色划分已经不只是 survey taxonomy，而是开始长成可追踪的公开工程底盘。

2026-03-20 / project-role

RecAI 的剩余模块说明，项目级角色栈已经溢出五类 taxonomy

继续下钻 `InteRecAgent / Knowledge_Plugin / RecLM-eval` 后可以看到，公开推荐栈已经不只是在收集 `policy / representer / explainer`。项目级现实里还出现了 `agent / tool-use`、prompt-time `knowledge injection` 与 `evaluator` 三类系统角色，说明 survey 的五类 taxonomy 更适合论文级，而不是项目级全景。

2026-03-20 / simulator-eval

模拟用户反馈这条线，先要校准模拟器本身

从 iEvaLM 到 NAACL 2024 的五任务协议，再到 RecUserSim 的显式打分，公开世界已经开始把 user simulator 从对话推荐的隐形配角推进成需要单独校准的评测对象；这意味着 Story Lab 记录 simulated feedback 时，不能只记有没有 simulator，还要记它服务训练还是评测，以及有没有人类对齐证据。

2026-03-20 / offline-sft

生成式推荐后训练，正在从 RLHF 偏向离线加权 SFT

从 Netflix 官方 `A-SFT` 技术博客到新论文 `Exp-RSFT`，可以看到一条更清晰的对照线：在 noisy reward、静态日志、巨大 catalog 和缺少 propensity score 的推荐场景里，公开世界正在认真论证 fully offline 的 reward-weighted `SFT`，而不是默认继续往 `RLHF` 走。

2026-03-20 / rl-bottleneck

统一方法表里，`feedback source` 和 `reward consumption mode` 不能混写

把 `DPO4Rec`、`HF4Rec`、`ECPO`、`OneRec-V2`、`A-SFT / Exp-RSFT` 和 `OpenOneRec` 放在一起后，一个更清楚的结构冒出来：推荐后训练至少要分开记“反馈从哪来”和“训练时怎么消费 reward”，否则会系统性误读公开路线。

2026-03-20 / method-map

MiniOneRec：把 ReRe 式 RLVR 压成可复现的开源推荐底盘

`MiniOneRec` 说明，公开生成式推荐生态已经不只剩工业体量的 `OpenOneRec` 和方法级样板 `ReRe` 两端。它把 `SID 构造 -> SFT -> recommendation-oriented RL` 直接打包成一条可复现实验链，而且代码里还保留了明显的 `ReRe` 继承痕迹。

2026-03-20 / evaluator-role

RecLM：推荐里的 RL，也可以先修 profile constructor

ACL 2025 的 RecLM 把 LLM 做成 collaborative-aware 的 profile constructor，再用 reward model + PPO 精修用户画像，并把结果即插即用地接到 BiasMF、NCF、LightGCN、SGL、SimGCL 等传统推荐器上；它说明 LLM-RL 协同推荐还有一类此前容易漏掉的集成层：representer / profile adapter。

2026-03-21 / profile-alignment

LettinGo：profile constructor 也开始吃 task-driven preference data

LettinGo 把推荐里的用户画像生成从固定 prompt / 固定格式，推进到“多模型探索 -> 下游任务打分 -> pairwise preference -> DPO 对齐”的任务驱动闭环；它说明 `profile constructor` 这条线不只是在传统推荐器前接一个 adapter，也开始把 `profile text` 本身变成可被偏好优化的对象。

2026-03-21 / profile-carrier

PALR、RLMRec、KAR：RecLM 之前，画像在推荐里已经有三种系统用法

回看 `LettinGo` 表里的 `PALR / RLMRec / KAR`，会发现它们并不是同一种“用户画像方法”：`PALR` 把画像当 prompt 输入给 `LLM` 重排，`RLMRec` 把画像当语义视图拿去做表征对齐，`KAR` 则把偏好推理和物品知识压成 augmented vectors。对 Story Lab 更关键的结论是：`profile constructor` 子表不能只记 downstream consumer，还要补一列 `carrier / interface`。

2026-03-21 / profile-bridge

LFM 到 LangPTune：在 RecLM 之前，language profile 已经开始端到端训练

如果只看 `PALR -> RecLM / LettinGo`，很容易误以为 `profile text` 是最近才被当成训练对象。其实 `LFM` 先把用户画像做成可读、可编辑的中间接口，`LangPTune` 再用 `RLSO + CL` 把 recommendation objective 直接回流到 profile encoder。这说明 `profile constructor` 子表除了 `carrier / interface`，还要再补一列 `constructor optimization regime`。

2026-03-21 / profile-prompt

UserIP-Tuning：prompt tuning 这档，并没有继续走可读画像

上一轮我给 `profile constructor` 子表补出了 `constructor optimization regime`，但 `prompt tuning` 还只是占位。补完 `UserIP-Tuning` 后，新的判断是：推荐里的 prompt tuning 并不是把自然语言画像继续微调，而是把潜在画像写进 `soft prompt`，再量化成可在线存储的 collaborative ID。这意味着子表除了 `carrier / interface` 和 `optimization regime`，还要再记 `deployment form`。

2026-03-21 / profile-maintenance

PURE：画像不只要构造，还要进入 maintenance loop

沿 `LFM / LangPTune / RecLM / LettinGo / UserIP-Tuning` 往下看，很容易把画像问题理解成“怎样构造、怎样训练、怎样部署”。`PURE` 补出的却是另一层：画像还要被持续抽取、更新和压缩。它把推荐任务改写成 `continuous sequential recommendation`，也让 Story Lab 的 `profile constructor` 子表必须再补一个 `lifecycle stage` 维度，至少区分 `construction / maintenance / deployment`。

2026-03-21 / profile-temporal

TETUP 到 LLM-TUP：画像维护不只做压缩，也开始做双时域拆分

补完 `PURE` 后，很容易把 `profile maintenance` 理解成“持续压缩旧评论、减少 token”。但 `TETUP -> LLM-TUP` 这条时间画像支线说明，另一种公开解法是把最近行为和稳定偏好分别写成两个自然语言 profile，再用 attention 动态融合。它提示 Story Lab 在 `profile constructor` 子表里，除了 `construction / maintenance / deployment`，还要开始记录画像到底是 `single summary`，还是 `short-term + long-term` 的 `dual-horizon profile`。

2026-03-21 / crs-history

MemoCRS 到 FuseRec：对话推荐里的长期历史，开始分给 memory 和 RL planner 两条路

沿 `PURE / TETUP` 往下看，很容易把“长期用户状态”继续想成某种 profile 或 memory summary。但新补到的 `MemoCRS` 和 `FuseRec` 说明，对话推荐里已经出现另一种更系统化的分叉：一条把长期历史直接交给 `LLM-side memory`，另一条则把长期历史留给 `SRS`，让 ad-hoc planner 用 curriculum `RL` 学会提问与推荐。这提示 Story Lab 还要新增 `history carrier / history owner` 这一维。

2026-03-21 / bridge-loop

DeepRec：black-box bridge 开始长成多轮 reasoning-retrieval loop

补完 `Rec-R1 / Rank-GRPO / RecLM` 后，很容易把推荐里的 `black-box bridge` 理解成“一次性拿候选、再围绕最终列表做对齐”，或者把自然语言偏好理解成某种持久 `profile`。但 `DeepRec` 说明公开世界里已经出现了另一种更细的系统位置：`LLM` 会在轨迹中反复生成偏好描述，把它当作调 `TRM` 的临时 query interface，并用分层 reward 和两阶段 `RL` 去专门优化这条 tool-use loop。

2026-03-21 / rl-search

RISER 到 V-STAR：生成式推荐里的 RL，开始直接改写搜索预算和比较信号

补完 `GRC` 后，很容易把推荐里的 `RL` 继续理解成“给 decoder 多一层反思/纠错”。但 `RISER` 和 `V-STAR` 说明，新一批公开方法更前一步，已经开始直接改写 search policy 本身：一个明确反对把 `Long CoT` 生搬进 sequential recommendation，用 `SimPO` 回收零优势 rollout；另一个把 `probability-reward mismatch` 写成主矛盾，让搜索预算和优势计算都贴着 decisive nodes 走。这提示 Story Lab 的系统瓶颈表还要新增 `search-credit coupling`。

2026-03-21 / tool-sufficiency

RecThinker：推荐 agent 开始先判断信息够不够，再决定调哪些工具

补完 `Rec-R1 / DeepRec` 后，很容易把推荐里的 tool-use 路线继续理解成“固定接口上的一跳或多跳 loop”。但 `RecThinker` 说明公开世界里又往前走了一格：真正被拿来训练的，不只是推荐结果或多轮检索轨迹，而是 agent 对 `information sufficiency` 的判断，以及它据此展开的多工具自主调查。

2026-03-21 / agent-prehistory

RecMind：在 RecThinker 之前，推荐 agent 已经先长出了 planning、memory、tools 三件套

如果只顺着 `DeepRec -> RecThinker` 看，很容易把推荐 agent 的公开路线理解成最近才开始从固定 loop 走向自主调查。但 `RecMind` 说明，更早的 `NAACL 2024` 就已经把 `planning + memory + tools` 拼成同一套 zero/few-shot recommendation agent。它补出的不是 `RL`，而是一个更早的 agent 前史：推荐里的规划问题，先被写成“怎样利用全部已探索 states 继续往前想”，而不是后来的 `information sufficiency` 决策。

2026-03-21 / agentic-environment

RecoWorld：simulator 开始训练会听指令的推荐 agent，而不只是替它打分

补完 `SUBER / Lusifer / CSHI / DeepRec / RecThinker` 后，很容易把 simulator 继续理解成更像真的 user feedback generator，或者把 agentic recommendation 理解成另一条独立的工具使用路线。但 `RecoWorld` 说明公开世界里两者已经接到一起：用户模拟器会在离场前生成 reflective instructions，推荐器则被定义成 `InFoRec`，并在 `Gym-like` 多轮 `RL` 环境里学习如何根据这些指令更新列表。这意味着 simulator 正从反馈环境进一步长成 instruction-following recommender 的训练场。

2026-03-21 / multimodal-grpo

MLLMRec-R1：多模态推荐里的 RL，先把视觉负担移出 rollout，再谈推理

补完 `Rec-R1 / Rank-GRPO / RISER / V-STAR / RecThinker` 后，很容易把推荐里的 `RL` 主问题继续理解成 credit assignment、search budget 或 tool-use policy。但 `MLLMRec-R1` 说明，多模态 sequential recommendation 里先冒出来的另一个硬瓶颈其实是：图像 token 会把 rollout 成本和训练不稳定性一起放大，所以系统首先要重写的不是 reward，而是 `RL` 之前的 reasoning carrier。

2026-03-21 / profile-validity

可读画像不等于可信画像：用户自识别和推荐效用开始分叉

补完 `profile constructor` 的 `carrier / optimization / deployment / lifecycle` 之后，还缺一层：用户自己认不认这个画像，以及这种代表性是否和推荐效用一致。Deezer 的 RecSys 2025 工作说明，NL profile 的可解释性不自动等于可信，用户自我识别与 `Recall/NDCG` 只有弱相关，而且 `genre / locale` 偏差会让某些画像系统性更像、也更不像用户。

2026-03-21 / distillation

OpenOneRec 的 Stage 2，不是过渡步骤而是能力恢复层

继续下钻 `OpenOneRec/verl_distillation` 后，一个此前在站内还没单独写清楚的判断浮出来了：推荐后训练不只是在做 recommendation reward 优化，快手公开栈里还显式插入了一层 general capability restorer。它用通用 SFT 数据、teacher-student on-policy distillation 和 extended-vocab masking，先把被推荐任务拉偏的通用推理能力拉回来，再接 Stage 3 的 recommendation RL。

2026-03-21 / prompt-policy

RPP：固定模板和软提示之间，还有一层 instance-wise prompt policy

沿 `PALR / RecLM / LettinGo / UserIP-Tuning` 往前看，很容易把推荐里的 prompt personalization 理解成两条路：要么把可读 profile 塞进固定模板，要么把 soft prompt 压成 latent ID。`RPP` 补出的其实是第三种公开形态：不改 LLM 权重，而把 `role / history / reasoning / format` 四类句子选择本身写成 multi-agent RL policy，为每个用户生成离散 prompt。

2026-03-21 / reasoning-verification

VRec：生成式推荐开始在中间推理步骤插 verifier，而不只等最终 item

新论文 Verifiable Reasoning for LLM-based Generative Recommendation 把生成式推荐里的常见 `reason-then-recommend` 改写成 `reason-verify-recommend`：每一步 latent reasoning 都先过 verifier，再决定是否继续往下走。这说明 reasoning 推荐的下一层主矛盾，已经开始从“会不会想”转向“中间推理能不能被持续校验”；截至 `2026-03-25`，官方 GitHub 仓仍是空仓，但 `ChatPaper` 已出现稳定中文入口，传播层从全空白推进到了导航层。

2026-03-21 / process-verifier

PROMISE：生成式推荐开始把 process reward model 放进解码期，而不只放进训练期

继 VRec 把 verifier 插回中间推理步骤之后，PROMISE 又把这条线往另一侧推了一格：它不是主要在训练时审计 reasoning，而是在推理时用 Path-level PRM 持续重排 Semantic ID 路径，并通过 PRM-guided beam search 提前剪掉会发生 semantic drift 的分支。这让推荐里的 process verifier 首次清楚分成两类 consumer：一种是 `train-time process supervisor`，另一种是 `test-time search controller`。

2026-03-21 / reasoning-control

REG4Rec 到 GREAM：reasoning enhancement 开始分成自反思剪枝和可验证 RL reward

补完 `VRec / PROMISE` 后，再往后看 `REG4Rec / GREAM`，会发现推荐里的 reasoning supervision 不只是 verifier 放在哪。`REG4Rec` 更像用 `PARS + MSRA` 在训练期学路径可靠性，再在推理期用 `CORP` 做 self-reflection pruning；`GREAM` 则把 `Collaborative-Semantic Alignment + Reasoning Curriculum Activation + SRPO` 绑成一条 verifiable-RL-driven end-to-end 路线，并显式支持 direct mode 与 reasoning mode。这意味着 Story Lab 还要把 reasoning enhancement 再拆成 `self-reflection pruning` 与 `verifiable RL reward` 两档。

2026-03-21 / reasoning-bootstrap

RecZero 到 RecOne：推荐里的 reasoning，不一定要先蒸馏，RL 也能先把它长出来

补完 `VRec / PROMISE / REG4Rec / GREAM` 后，很容易把推荐里的 `RL` 继续理解成：先有一套 teacher、verifier 或 reasoning carrier，再由 `RL` 去校验、剪枝或放大奖励。但 `RecZero / RecOne` 说明，至少在 rating prediction 这条线上，`RL` 还可以前移成 reasoning 的起点：`RecZero` 直接用 pure `RL` 让单个 `LLM` 自主长出推荐推理，`RecOne` 则只在冷启动阶段补一小段 `SFT`。这意味着 Story Lab 还要新增一列 `reasoning bootstrap regime`。

2026-03-21 / verbalization-layer

从 Netflix 到 LinkedIn：RL 开始前移到推荐里的 logs-to-language 文本构造层

补完 `profile constructor / search controller / simulator / verifier` 之后，很容易继续把推荐里的 `RL` 只理解成下游优化器。但 `From Logs to Language` 和 `High Fidelity Textual User Representation` 说明，还有一类更靠前的工业 consumer：不是先修 ranker，而是先用 `RL` 把结构化日志和异构用户数据改写成 LLM 真正能消费的文本上下文。这意味着 Story Lab 还要补一层 `observation verbalizer / text context constructor`。

2026-03-21 / ad-codesign

GR4AD：广告生成式推荐开始把 value-aware RL 和 beam serving 写成同一套系统

沿 `OneRec-V2 / PROMISE` 往前看，很容易把推荐里的 `RL` 和推理期 search control 分开记。但 `GR4AD` 说明，在广告场景里它们已经被绑成同一套生产结构：训练侧有 `VSL + RSPO` 去对齐 eCPM，推理侧有 `LazyAR + Dynamic Beam Serving` 去贴着 traffic budget 放大搜索。这意味着 Story Lab 还要补一层 `training-serving co-design` 观察。

2026-03-22 / reasoning-ranker

R2Rank：推荐里的 listwise 奖励，开始反压回 item-wise reasoning

补完 `Rank-GRPO / RecZero / DeepRec` 后，很容易把推荐里的 `RL` 继续理解成：要么直接对齐整条列表，要么控制整段 reasoning 或 tool-use 轨迹。但 `Reasoning to Rank` 说明，还有一条更细的新路线：先把每个 candidate 拆成独立的 user-item reasoning 单元，再用 `Plackett-Luce` surrogate 把 listwise `NDCG` 奖励回传到 token-level 推理内容。这意味着 Story Lab 还要新增一列 `candidate coupling regime`。

2026-03-22 / negative-feedback-filter

CoNRec：推荐里的 LLM-RL，开始显式补负反馈过滤层

补完 `R2Rank / DeepRec / VRec / query carrier` 之后，很容易继续把推荐里的 `RL` 只理解成：对齐正向列表、控制 reasoning 轨迹，或者为召回接口生成更好的语言 carrier。但 `CoNRec` 说明，还有一条此前站里没单独成层的新路线：`LLM-RL` 也可以专门去建模用户不想看到什么，并以 `offline filtering` 的方式直接服务现有排序系统。这意味着 Story Lab 还要补一层 `negative-interest filter`。

2026-03-22 / ecommerce-family

OneMall：快手开始把电商生成式推荐写成多场景 family，并让 ranking reward 回流 retrieval

补完 `OneRec / OpenOneRec / GR4AD` 后，很容易把快手公开生成式推荐继续理解成：短视频主线往前推，广告主线做 `training-serving co-design`。但 `OneMall` 说明，中间还长出了一条电商支线：不是单一场景模型，而是把 `product-card / short-video / live-streaming` 三种 item 分布压成同一个 generative family，再让 ranking model 显式充当 retrieval policy 的 reward supplier。这意味着 Story Lab 还要补一列 `scenario-family regime / reward supplier`。

2026-03-22 / need-conditioned-ranker

FlexRec：推荐里的 LLM-RL，开始把目标切换接口训进同一个 ranker

补完 `R2Rank / CoNRec / query carrier / verbalization` 之后，很容易继续把推荐里的 `RL` 只理解成：优化更细的 credit assignment、控制 reasoning 轨迹，或者补一层新的信号构造器。但 `FlexRec` 说明，还有一条此前站里没单独成层的新路线：`RL` 也可以直接训练“同一模型如何按显式需求切换推荐目标”。这意味着 Story Lab 还要补一列 `objective-switch regime / need interface`。

2026-03-22 / reasoning-refinement

DiffuReason：推荐里的 latent reasoning，开始从确定性链条转向概率式细化

补完 `VRec / PROMISE / REG4Rec / GREAM / RecZero` 之后，很容易继续把推荐里的 reasoning control 理解成 verifier 放在哪、reward 怎么写、self-reflection 怎样剪枝。但 `DiffuReason` 说明，还有一条此前站里没单独成层的新路线：不是继续审计或放大奖励，而是直接把 latent reasoning 当成 noisy hypothesis，再用 diffusion 做概率式 refinement。这意味着 Story Lab 还要补一列 `reasoning uncertainty model / refinement regime`。

2026-03-20 / simulator

训练级推荐 simulator，开始要求既可控又可测

新补到的 `CSHI` 论文与代码仓、以及 `NAACL 2024` 的五任务协议代码仓说明，推荐里的 user simulator 正在从“能生成像人的话”继续收敛到两个更硬的要求：前面要有可控接口，后面要有可测协议；否则它很难稳定进入 `ECPO / HF4Rec` 这类训练闭环。

2026-03-21 / simulator

GRSU：会话推荐里的 simulated user 开始兼任 search feedback engine

补完 `iEvaLM / RecUserSim / ECPO / RecoWorld` 后，我原本把 simulator 分成评测器、训练反馈生成器和环境层三类。但新补到的 `GRSU` 说明，还有一条更贴近多轮会话推荐本身的公开路线：simulated user 不只是负责评测或提供 turn-level dissatisfaction，它会同时给出 coarse-grained item scoring 与 fine-grained attribute critique，并被直接接进 beam search 过程。这意味着 Story Lab 还要再记一列 `feedback granularity / search consumer`。

2026-03-22 / simulator

Interplay：对话推荐 simulator 开始摆脱 target-aware 剧本

补完 `CSHI / RecUserSim / GRSU / RecoWorld` 后，Story Lab 已能从 `controllability / protocolized evaluation / search consumer` 去拆 simulator。但新论文 `Interplay` 又把更前面的一个结构性偏差单独抬了出来：很多 `CRS` simulator 从一开始就拿着 target item 演戏，因此再自然的对话也仍是 `oracle-guided role-play`。它把 user / recommender 拆成两个独立模型，只给 user `target attributes`、不给双方 `target item`，让推荐通过真实多轮对话自然浮现。这意味着 simulator 表还要再补一列 `target exposure / oracle knowledge`。

2026-03-25 / paper

Persona4Rec：推荐里的 reasoning，不一定非要在线重排，也可以先离线长成 item-side persona 索引

补完 `OxygenREC / AdNanny / GLIDE / profile constructor` 这些线后，站里已经能看到 slow-fast serving、offline backbone、soft prompt carrier 等多种 handoff。但 `Persona4Rec` 说明还有一种很实用的系统位：`LLM` 不一定在线读历史、在线比候选，它也可以先把 item reviews 推理成 `persona-profiled item index`，再把线上推理压回轻量 `user-persona` 相似度匹配。Story Lab 后续要补 `reasoning timing / materialized carrier / online consumer / explanation contract / cold-start fallback`。

2026-03-20 / crs-agent

对话推荐的 RL 外围，已经长出 knowledge、planner、experience 三层脚手架

新补到的 `ChatCRS / SAPIENT / CRAVE` 说明，对话推荐里的公开增量不只是在 `Rank-GRPO` 这类对齐层上做文章。更早、也更系统的一条变化，是把 `knowledge grounding`、`planning interface` 和 `experience memory` 从大而化之的 agent 叙事里单独拆出来。

2026-03-21 / interest-query

推荐里的 RL 还可以先学兴趣查询：跨域行为 -> query list -> 在线召回学生

新论文 `Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation` 说明，`LLM-RL` 不一定直接优化 item ranking，也不一定只做 profile 或 verbalization。它可以先把跨域用户行为压成一组可直接执行检索的 `interest-driven news search queries`，再通过 on-policy distillation 把高计算 teacher 策略移交给低延迟 student 上线。这意味着 Story Lab 还要补一层 `interest query constructor / retrieval interface`。

2026-03-22 / exploration-prior

LAAC：推荐里的多样性 RL，开始把 LLM 用成 novelty proposer

补完 `RISER / V-STAR / FlexRec / CoNRec` 之后，站里已经把推荐里的 `RL` 看成 reward 改写、reasoning control、目标切换或负反馈过滤，但 `LAAC` 说明还有一条更早却没单独成层的路线：`LLM` 不一定自己当最终 policy，它也可以先当 `novel-action proposer`，再由轻量 actor-critic 用系统内数据去校准、接地和超越。这意味着 Story Lab 还要补一列 `exploration prior / proposal owner`。

2026-03-22 / search-stack

OneSearch：电商生成式搜索开始把 MCA 三段冲突压成同一个 stack

补完 `OneRec / GR4AD / OneMall` 后，站里已经把快手公开 generative 路线写到了推荐、广告和电商 family，但搜索这一格还没单独落出来。`OneSearch` 说明，电商搜索里的关键矛盾不只是 reward 或 beam，而是传统 `MCA` 的 recall / pre-ranking / ranking 三段本身就在互相打架；而生成式系统的真实工业形态也不是“直接删掉 ranking”，而是 `generator first + reward-model selector`。这意味着 Story Lab 还要补一列 `cascade replacement regime`。

2026-03-22 / rerank-stage

GR2：推荐里的 LLM-RL，开始单独长成重排层

补完 `DPO4Rec / FlexRec / R2Rank` 之后，很容易继续把推荐里的 reranking 理解成：离线偏好对齐、closed-set 目标切换，或者 listwise 奖励的 item-level 拆解。但 `Generative Reasoning Re-ranker (GR2)` 说明，还有一条更明确的新路线：把 `semantic ID -> teacher reasoning -> DAPO` 专门压到 re-ranking stage，让 `LLM-RL` 不再默认从端到端生成器往下游扩散，而是单独长成 `paper-first rerank-stage specialist`。这意味着 Story Lab 还要在 `集成层` 里补一类 `closed-set reranker / rerank-stage specialist`。

2026-03-22 / online-handoff

iALP：推荐里的 LLM-RL，开始把 offline-to-online handoff 单独做成一层

补完 `LAAC / RecZero / DeepRec` 之后，站里已经把 `LLM` 在推荐 RL 里的 proposal、bootstrap 和 tool-use 写得更细，但“离线蒸出来的策略怎样平稳接到线上环境”还没单独成层。`iALP / A-iALP` 说明，`LLM` 不只可以提供探索先验或 reasoning scaffold，还可以先当 cold-start preference distiller，给在线 actor-critic 一个不那么伤用户的起点，并通过 `frozen bootstrap + scheduled takeover` 处理 distribution shift。这意味着 Story Lab 还要新增一列 `offline-to-online handoff / policy takeover regime`。

2026-03-22 / demonstration-teacher

IL-Rec：推荐里的 LLM-RL，也可以先让大模型退到 demonstration teacher

补完 `LAAC / iALP / RecThinker / DeepRec` 之后，站里已经把 `LLM` 当成探索先验、离线偏好蒸馏器、在线推理器和 tool-use policy 看得更细，但还有一条未单独成层的公开路线：`LLM` 不一定自己下场当推荐 policy，也可以先产出带反思、规划和价值判断的 demonstration，再交给离线 `RL` 策略通过 `inverse RL + weighted imitation` 吸收。这意味着 Story Lab 还要补一列 `LLM teacher retention / demonstration consumer`。

2026-03-22 / macro-planner

BiLLP：推荐里的 LLM-RL，早就开始把大模型放成长期规划器

补完 `LAAC / iALP / IL-Rec` 之后，站里已经把 `LLM` 在推荐 RL 里的 proposal、bootstrap 和 teacher 角色拆得更细，但还有一条更早且尚未单独成层的公开路线：`LLM` 不一定直接出 item，也不一定退场成离线 teacher，它可以先在 loop 里产出面向长期 engagement 的 `macro guidance`，再由 actor-critic 把它落成可执行的微观推荐策略。`BiLLP` 说明 Story Lab 还要补一列 `plan grounding split / planning abstraction level`。

2026-03-22 / report-interface

RecPilot：推荐系统开始把最终输出从 item list 改成 decision-support report

补完 `DeepRec / RecThinker / ChatCRS / OneSearch` 之后，站里已经把推荐里的 `LLM-RL` 看成 reasoning loop、tool-use scaffold、search-credit coupling 或 industrial serving controller，但 `Deep Research for Recommender Systems` 说明，还有一条更激进的新路线：推荐系统不只替用户排序 item，还开始替用户完成探索、比较与综合，最终输出从 list 变成 report。这意味着 Story Lab 还要新增 `interaction interface / final output carrier / user-effort offloading` 这一层。

2026-03-22 / semantic-planner

LERL：推荐里的 LLM-RL，也可以先让大模型规划类目，再让 RL 选 item

补完 `BiLLP / LAAC / iALP / IL-Rec` 之后，站里已经把推荐里的 planner、proposal、bootstrap 和 teacher 角色拆得更细，但还有一类更贴近 interactive recommendation 的公开路线尚未单独成层：`LLM` 不一定产出抽象 guidance，也不一定直接生成 item，它可以在每一步先输出可执行的 `semantic category plan`，把低层 `RL` 的 item 空间直接缩窄。`LERL` 说明 `plan grounding split` 至少还要再细分出 `semantic planner -> constrained item policy`。

2026-03-22 / uncertainty-interface

UGR：推荐里的偏好优化，开始把 uncertainty blindness 与 confidence interface 单独做成一层

补完 `FlexRec / DiffuReason / RecPilot` 之后，很容易继续把推荐里的 uncertainty 只理解成 critic 置信度、latent reasoning 噪声，或 report 侧的风险控制。但 `Uncertainty-aware Generative Recommendation` 说明，还有一条此前站里没单独成层的新路线：生成式推荐的 preference optimization 本身也会出现 `uncertainty blindness`，而且置信度不只该做训练权重，还可以长成显式可消费的 serving 接口。这意味着 Story Lab 还要补一列 `uncertainty treatment / confidence interface`。

2026-03-22 / interest-interface

DeepInterestGR：推荐里的 RL，开始把 deep interest 变成 SID 上游接口

补完 `profile text / verbalized context / retrieval-ready query list` 之后，很容易继续把推荐里的上游语言接口只理解成“可读文本”或“可执行查询”。但 `DeepInterestGR` 说明，还有一类更贴近生成式推荐底盘的新 carrier：先用多模型、多模态 `LLM` 挖 deep interest，再做奖励标注和 `RQ-VAE` 量化，最终把兴趣语义压成 `SID-ready` 接口。这意味着 Story Lab 还要补一层 `interest constructor / tokenization interface`。

2026-03-22 / quantized-serving

Quantized Inference for OneRec-V2：生成式推荐开始直接吃 LLM 量化栈

补完 `OneRec / OneRec-V2 / OpenOneRec / GR4AD / OneSearch` 后，站里已经把快手公开主线写到了生成式推荐、真实反馈 RL 和 serving-time controller，但最新论文 `Quantized Inference for OneRec-V2` 说明，还有一个很关键的部署拐点此前没被单独记出来：当推荐模型在结构、训练范式和计算形态上越来越像 `LLM`，它就不只是在方法层借鉴 `LLM`，也开始在推理系统层直接吃 `FP8 + TensorRT + fused kernels` 这整套 `LLM inference stack`。

2026-03-22 / ad-onemodel

GPR：广告生成式推荐开始把未来请求预演和层级奖励训进同一个 one-model

补完 `GR4AD` 和 `OneSearch` 后，站里已经看到了广告/搜索里的 value-aware RL、beam controller 和 reward-model selector，但 `GPR` 说明工业广告线又往前走了一步：不是只把 `RL` 和 serving 绑在一起，而是把 `user understanding -> thinking/refining -> eCPM valuation -> future request rehearsal` 压进同一个 `one-model`。这意味着 Story Lab 还要补一列 `request-state adaptation regime`。

2026-03-22 / recommendation-trajectory

RoleGen：推荐里的 item 不只看即时价值，还开始看它在转化轨迹里的触发作用

补完 `BiLLP / LERL / CoNRec / OneMall / GPR / AdNanny` 之后，站里已经能分别看到长期规划、负反馈过滤、电商多场景 family 和广告 one-model，但还缺一层更贴近转化链路的判断：一个 item 的价值不只体现在“这一跳会不会点/买”，还体现在它会不会把用户推进下一步意图。`RoleGen` 说明，针对 dormant user，推荐系统开始显式建模 `instrumental effect / functional role trajectory`，并让 LLM reasoner 与 generative backbone 通过 `Reasoning-Execution-Feedback-Reflection` 闭环协同。

2026-03-22 / action-space-regime

SAGE：生成式推荐的 RL，不只在修 reward，也在改写 action space

补完 `OneRec-V2 / OpenOneRec / DeepInterestGR / GR2` 后，站里已经开始分辨 tokenization、interest carrier 和 rerank-stage specialist，但新论文 `SAGE` 说明还缺一层更靠近 policy 本体的观察位：推荐里的 `RL` 不只在修 reward 或 clipping，它还在逼着系统重新回答“item 到底该以 `Semantic-ID` 还是 `native vocabulary` 进入 action space”。这意味着 Story Lab 还要新增 `action-space regime / vocabulary burden`。

2026-03-22 / ads-offline-backbone

AdNanny：广告里的 LLM-RL，不一定上线上，它也可以先统一离线任务底座

补完 `GR4AD`、`GPR` 和 `OneSearch` 后，站里已经能看到广告/搜索工业路线里的 `online generator`、`serving-time controller` 和 `future request rehearsal`，但 `AdNanny` 说明另一种同样关键的系统位置也已经公开了：`LLM-RL` 不一定非得进线上 serving path，它也可以先退到离线广告任务底座，把 `query-ad relevance`、`ad-user relevance`、`keyword generation` 和 `user profile generation` 统一成一个 reasoning backbone。这意味着 Story Lab 还要补一列 `offline task substrate / downstream consumer`。

2026-03-22 / flow-matching-regime

GFlowGR：生成式推荐后训练，开始把 reward 分发到 token-level 轨迹

补完 `DPO4Rec / R2Rank / UGR / SAGE` 之后，站里已经能区分 pairwise 对齐、group-wise 相对优势、listwise surrogate 和 action-space 设计，但 `GFlowGR` 说明推荐里的后训练还缺一类更底层的目标：不是只在最终 item 上做 outcome reward，而是把 item set 重写成 generation trajectories，再用 `GFlowNet` 让 token-level 概率直接按终点价值流动。这意味着 Story Lab 还要补一列 `trajectory credit regime / probability-reward coupling objective`。

2026-03-22 / simulator-auditing

PersonaAct：推荐里的 simulator，不只服务训练和评测，也开始被拿去做反事实审计

补完 `iEvaLM / RecUserSim / RecoWorld / Interplay / LERL` 之后，站里已经能分辨 simulator 的校准、环境、reference-free 对话和 filter-bubble mitigation，但 `PersonaAct` 说明还缺一层新的 consumer：短视频推荐里的 persona-conditioned multimodal agent，不只是拿来生成反馈或跑离线评测，也开始被拿去做 `counterfactual filter-bubble auditing`。这意味着 Story Lab 还要新增 `audit objective / bubble metric / counterfactual protocol` 这一层。

2026-03-23 / slow-fast-serving-split

OxygenREC：生成式推荐开始把慢思考放到近线，把快执行留给统一在线模型

补完 `OneMall / OneSearch / From Logs to Language / GFlowGR` 之后，站里已经能看到 scenario family、logs-to-language、token-level credit 等多条分叉，但 `OxygenREC` 又补出一个新的工业主矛盾：不是把大模型硬塞进在线推荐环，而是让近线 `LLM` 专门供应 reasoning instructions，再让统一的快模型负责多场景实时执行和 `RL` 对齐。这意味着 Story Lab 还要补一列 `reasoning supplier / executor split`。

2026-03-23 / query-list-hybrid-deployment

AIGQ：生成式推荐开始把最终交付物从 item list 扩到 query list

`AIGQ` 把淘宝 HintQ 场景写成 `query recommendation` 的端到端生成问题，而且不再是单一路径上线：`AIGQ-Direct` 走近线 `u2q` 缓存，`AIGQ-Think` 则把 reasoning 蒸成实时 `x2q` 触发索引。这条线逼着 Story Lab 在 `item list / dialogue / report` 之外，再补一种 `query list` 终态接口，并显式记录 `nearline cache + realtime trigger` 的混合部署。

2026-03-23 / facet-slate-retrieval-control

GenFacet：生成式推荐开始把 facet slate 做成检索控制接口

`GenFacet` 不是给旧式 faceted search 套一层 LLM 壳，而是把 `facet generation -> facet click -> query rewriting -> retrieval` 压成同一个闭环，并用 `GRPO` 直接对齐下游搜索满意度。这逼着 Story Lab 在 `query list / item list / report` 之外，再补一种 `facet slate` 式交互控制接口。

2026-03-23 / train-time-semantic-judge

S-GRec：LLM 可以只做训练期语义裁判，让业务 reward 继续锚定在线生成器

补完 `GR4AD / AdNanny / judge` 这些路线后，站里已经能区分 `online generator`、`offline task backbone` 和 `offline evaluator`，但 `S-GRec` 又补出一个此前没单独立起来的位置：`LLM` 不必常驻线上，也不必只做离线评测，它可以退到训练期担任个性化语义裁判，再由 `A2PO` 只在语义优势和业务优势同向时注入监督。这意味着 Story Lab 还要补 `train-time semantic judge / reward conflict handling / semantic sampling ratio`。

2026-03-23 / offpolicy-hard-filtering

DRPO：离线生成式推荐先要学会硬过滤，才能摆脱重尾脏日志

站里已经写过 `AWR / AsymRe / OneRec-V2 / S-GRec` 这些 reward、weighting 和 judge 路线，但 `DRPO` 又补出一个此前没单独成层的问题：离线 generative recommendation 的主矛盾不只在 `advantage` 怎么剪、reward 怎么配，还在 `heavy-tailed noisy logs` 里怎样先筛出可学信号。论文把 `hard filtering` 证明成 optimistic `DRO` 的精确解，并用 `RecSim` 的 `medium quality / extreme noisy` 两种工业模拟说明，软加权会继续 `noise cloning`。这意味着 Story Lab 还要补 `off-policy data regime / hard-filtering regime / offline-to-online safety gate`。

2026-03-23 / reasoning-drift

Why Thinking Hurts：在 Semantic ID 推荐里，显式思维链可能先把证据冲淡

站里已经写过 `OneRec-Think / PROMISE / VRec / GR2 / R2Rank` 这些 reasoning 路线，很容易继续默认“推荐里显式思维链越多越好”。但 `Why Thinking Hurts?` 给了一个关键反例：在 `OpenOneRec` 这类 `Semantic ID` foundation recommender 上，free-form `CoT` 本身会把推理过程拉向通用文本子空间，稀释 `SID` 证据，导致 `Think-On` 比 `Think-Off` 更差。论文进一步提出无需重训的 `Inference-Time Subspace Alignment`，只在推理时做 `reasoning-chain compression + bias-subtracted contrastive decoding` 就能把性能拉回去。这意味着 Story Lab 还要补 `reasoning drift / subspace alignment / inference-time calibration` 三列。

2026-03-23 / soft-prompt-carrier

GLIDE：Spotify 把生成检索拆成短期 SID 上下文和长期 soft prompt

补完 `UserIP-Tuning / PURE / TETUP / DeepInterestGR / OxygenREC / Why Thinking Hurts` 之后，站里已经能看到 latent profile、maintenance loop、双时域画像、SID-ready interest、near-line reasoning supplier 和 Semantic ID drift，但还有一层部署位一直没被单独记清：在线 generative recommender 里，短期状态和长期稳定偏好未必应该走同一种 carrier。Spotify 的 `GLIDE` 说明，在严格 latency 约束下，可以把 `recent SID history` 作为短期上下文，把 `dense long-term user embedding` 压成单个 soft prompt token，再用 `familiar / unfamiliar` 控制 token 显式切换 discovery horizon。

2026-03-23 / reasoning-teacher-handoff

小红书搜索：生成式相关性开始走 `reasoning teacher -> 轻量 ranker` 交接

补完 `AIGQ / OxygenREC / S-GRec` 后，站里已经能分辨 `query list`、`slow-fast split` 与 `train-time semantic judge`，但小红书搜索这篇 KDD 2026 论文又补出一个此前没单独成层的位置：业务相关性规则先被写进三步 reasoning prompt，再用 `SAM + GRPO` 内化到 `RedOne` teacher，最后只把最终相关性分数蒸馏给 `0.1B` BERT student 做线上排序。这意味着 Story Lab 还要补 `criteria carrier / reasoning-teacher handoff / deployment asymmetry`。

2026-03-23 / shopping-memory-grounding

Shopping Companion：长期购物记忆开始从上游检索变成 `Stage-1 preference grounding`

阿里这篇 2026-03 新论文把电商 LLM agent 的长期偏好记忆从“先检索、再交给下游”推进成两阶段策略里的第一阶段任务：先用 memory tools 做可确认的 preference grounding，再用 product tools 做 shopping assistance，并通过 dual-reward RL + tool-wise reward 联合优化。它补出的不是又一个电商 benchmark，而是 `memory retrieval -> user confirmation -> task execution` 这条可训练 handoff。

2026-03-23 / spatial-grounding

ROS：地理约束开始从辅助特征变成推荐推理里的硬判据

这条阿里地图 / 西交新路线把 geography 从 `prompt` 附件和 feature fusion 推进成推理过程里的第一类决策变量：先用分层 `Spatial SID` 表示 locality，再用三阶段 `Mobility CoT` 做候选构造与 locality pruning，最后用 `spatial-guided RL` 把距离可行性、SID 正确性与格式约束联合对齐。它补出的不是又一个 `POI` baseline，而是 `spatial grounding / feasibility filter / geography-as-decision-variable` 这层系统位。

2026-03-23 / latent-reasoning

LatentR3：推荐里的 reasoning，也可以退回 hidden-space 再用 RL 训练

站里已经写过 `OneRec-Think / PROMISE / DiffuReason / Why Thinking Hurts` 这些 reasoning 路线，很容易继续默认：推荐里的推理要么显式写成 `CoT`，要么再加 verifier、calibration 或 search controller 去修。但 `LatentR3` 说明，还有一条更贴近部署的新路线：先用额外 attention 层生成极少量 latent reasoning token，再用改写过的 `GRPO` 直接在 hidden-space 优化 reasoning，不需要任何 CoT 数据，推理时几乎也不增加延迟。这意味着 Story Lab 还要补一列 `reasoning carrier visibility / hidden-vs-explicit interface`。

2026-03-23 / credit-assignment

OSPO：推荐里的 credit，不只分给 token，还能先在语义联盟里结算

补完 `Rank-GRPO / GFlowGR / SAGE / R2Rank / GRC` 之后，站里已经看到推荐 `RL` 会按 `rank / token flow / sequence / candidate` 等不同颗粒度回传奖励。但 `OSPO` 说明，还有一条更细的新路线：先把响应切成语义片段，再让这些片段按连续 coalition 结盟，用 Owen-Shapley 边际贡献把 sequence reward 重分配回 token。这意味着 Story Lab 还要新增一列 `credit partition regime`，否则很多方法都会被粗写成“只是另一种 GRPO”。

2026-03-23 / region-aware-editing

RAIE：偏好漂移不只更新画像，也可以在模型内部按区域做 LoRA 编辑

补完 `PURE / TETUP / GLIDE / Shopping Companion` 这些长期偏好与记忆载体路线之后，很容易继续默认：推荐系统里的偏好更新，主要发生在 `profile / memory / prompt context` 这些外显 carrier 上。但 `RAIE` 说明还有另一条此前站里没单独记开的路线：漂移也可以被局部化到模型内部的 `knowledge region`，再用按区域路由的 LoRA adapter 做增量编辑。这意味着 Story Lab 还要补一组新的观察位：`drift handling locus / update granularity / router owner / forgetting control`。

2026-03-23 / memorization-generalization

MemGen-GR：生成式推荐的“泛化”，很多时候只是 token 记忆重组

站里已经把 `Semantic ID / action space / reasoning drift / carrier split` 补得很细，但生成式推荐为什么整体更强，过去仍容易被一句“泛化更好”糊过去。`MemGen-GR` 把这个说法拆开：`TIGER` 的确在 generalization 子集持续强于 `SASRec`，但很多所谓 item-level generalization 其实会还原成 prefix token memorization；更密的 SID codebook 还能同时提升 generalization、牺牲 memorization，最后再用 memorization-aware ensemble 把两类范式重新拼起来。这意味着 Story Lab 还要补 `generalization locus / token memorization ratio / memorization dilution / ensemble handoff`。

2026-03-23 / pareto-objective-aggregation

IB-GRPO：多目标推荐开始不先把 reward 压成一个标量

补完 `FlexRec / UGR / OSPO` 后，站里已经能写清 need-conditioned target、uncertainty weighting 和 coalition credit，但 `IB-GRPO` 又补出一个此前没单独成层的位置：在长程 learning path recommendation 里，多目标 reward 不一定先手工压成一个 scalar，再交给 `RL`；它也可以直接用 dominance indicator 在组内比较 Pareto 优势。`GA + teacher RL` 的 hybrid expert warm-start、within-session `ZPD` 对齐和 `I_{epsilon+}` group-relative advantage 说明 Story Lab 还要补 `objective aggregation / Pareto regime` 这列。

2026-03-23 / prefix-survival

APAO：生成式推荐得先学会让正确前缀活过 beam pruning

补完 `V-STAR / PROMISE / MemGen-GR` 之后，站里已经知道 beam search 会改写 reward 可见性、test-time controller 和 prefix 支撑，但还没把“训练目标是否真的在教模型活过前缀剪枝”单独记成一层。`APAO` 把问题写得很清楚：`CE` 优化允许后续 token 补偿，beam search 却要求每一步 prefix 都留在 `Top-K`。这意味着 Story Lab 还要新增 `training-inference consistency locus / prefix survival objective / search-time pruning regime`。

2026-03-23 / reasoning-schedule

EGLR：推荐里的 latent reasoning，开始按熵在重排过程中动态插入

补完 `GR2 / LatentR3 / DiffuReason` 后，站里已经能区分 rerank specialist、hidden-space reasoning 和 probabilistic refinement，但 `EGLR` 又补出一个此前没单独成层的位置：reasoning 不一定固定前置，也可以在 generative re-ranking 的中途按候选熵 `H_k` 动态触发，再用 `context-aware reasoning token + temperature split + GRPO` 只在高难阶段加思考。这意味着 Story Lab 还要补 `reasoning trigger regime / reasoning schedule / difficulty-adaptive budget`。

2026-03-23 / unified-policy-dual-head

R²ec：reasoning 和 item prediction 开始共用同一条 policy update

补完 `RecZero / UGR / LatentR3 / Why Thinking Hurts` 后，站里已经能区分 reasoning bootstrap、uncertainty weighting、latent carrier 和 semantic drift，但还没把“reasoning 与推荐头是否属于同一个 owner”单独记成一层。`R²ec` 把 `lm_head + rec_head` 压进同一模型，并用只依赖 recommendation label 的 `RecPO` 联合更新 reasoning 轨迹与 item prediction。这意味着 Story Lab 还要补 `reasoning-recommendation ownership / answer-head switch / unified policy-update locus`。

2026-03-23 / personalized-safety-alignment

SafeCRS：对话推荐的 RL，开始显式对齐个体安全边界

补完 `ChatCRS / SAPIENT / CRAVE / GRSU / RecoWorld` 后，站里已经把对话推荐里的 knowledge grounding、planning、history carrier 和 simulated feedback 拆得更细，但 `alignment layer` 还常被粗写成“提高满意度”。`SafeCRS` 说明，在 `LLM-based CRS` 里，`RL` 也可以先不追更会聊，而是显式约束用户的 trauma trigger、恐惧、成瘾回避等个体安全边界，并用 `Safe-SFT + Safe-GDPO` 在 relevance 与安全之间做 rank-wise 对齐。这意味着 Story Lab 还要新增 `personalized safety constraint / safety oracle / reward sparsity balance`。

2026-03-23 / consistency-invariance-objective

GRPO：推荐里的对齐目标，开始前移到信息一致性

补完 `RPP / FlexRec / UGR / IB-GRPO / SafeCRS` 后，站里已经能区分 prompt policy、need-conditioned target、多目标聚合、uncertainty weighting 与 safety alignment，但还没把“语义等价提示是否稳定输出同一份信息”单独记成一类 objective。`Information-Consistent Language Model Recommendations through Group Relative Policy Optimization` 把 semantically equivalent prompt variants 当成同一 `GRPO` group，用 entropy-based `helpfulness + stability` reward 直接压信息方差。这意味着 Story Lab 还要补 `equivalence group owner / invariance objective / context reset regime / personalization-consistency boundary`。

2026-03-23 / reward-governance-contract

SearchLLM：开放式搜索对齐开始长出 `先守底线、再谈效用` 的奖励契约

RedNote 这篇 2026-03 论文把 generative search 的 RL 奖励从“多目标加权”推进成了两层治理契约：先用 factual grounding、safety、format 这些 bottom-line constraints 设 gate，再在 safe region 内优化 noisy evidence robustness 与 user-need alignment。它补出的不是又一个 search LLM，而是 `reward governance contract / gate-before-utility / evidence-conditioned reward owner`。

2026-03-24 / feedback-loop-risk

Echoes in the Loop：LLM 推荐开始需要 role-aware 的反馈回路风险诊断

补完 `policy / reasoner / representer / explainer / simulator` 这些角色线后，站里很容易继续只按单轮离线指标理解 LLM 推荐。但 `Echoes in the Loop` 和官方 `EchoTrace` 说明，真正缺的一层是 `role-aware feedback-loop diagnostics`：偏差、幻觉和排序失真会沿着内容生成、推荐输出、再训练数据这三相回路持续累积。这意味着 Story Lab 还要补 `risk surface / feedback-cycle metric / ecosystem-level effect`。

2026-03-24 / outer-loop-mle-agent

Self-Evolving Recommendation System：LLM 开始接管推荐器的外层演化循环

站里之前主要在看 `LLM` 怎样直接做推荐、做推理、做 reward、做 judge。但 `Self-Evolving Recommendation System` 说明，工业里已经出现一条更靠外的路线：`LLM` 不再只优化推荐 policy，而是扮演 `MLE agent`，在 `offline proxy inner loop + online north-star outer loop` 里持续改 optimizer、architecture 与 reward。Story Lab 后续还要补 `change owner / validation horizon / experiment memory / human override slot`。

2026-03-24 / tool-policy

AgenticRec：推荐 agent 开始把工具轨迹并进 ranking policy

补完 `RecMind / InteRecAgent / DeepRec / RecThinker / R²ec` 之后，站里很容易继续把推荐里的工具调用理解成推理脚手架或检索外挂。但 `AgenticRec` 说明，公开世界已经更进一步：工具调用不再只是 prompt 习惯，而开始和中间推理、最终 `top-K` 列表一起，被同一个 list-wise ranking reward 端到端更新。第二阶段 `PPR` 还会把自己的排序失误挖成 hard negatives 继续细化偏好边界。Story Lab 后续要补 `tool policy locus / evidence owner / trajectory optimization scope / hard-pair self-bootstrapping / tool-budget stability`。

2026-03-24 / preference-propagation

RecNet：偏好传播开始长出 router owner 与文本化反向优化

补完 `AgenticRec / DeepRec / RecThinker / Self-Evolving Recommendation System` 之后，站里已经能分出 `tool-integrated policy`、`reasoning-retrieval loop` 与 `outer-loop MLE agent`。但 `RecNet` 又补出一个不同系统位：推荐 agent 不只在当前请求里推理和调工具，还开始把用户与 item 的最新偏好改写成可传播、可路由、可被反馈反向更新的网络状态。它把 forward `router-mediated preference propagation` 和 backward `textual reward + textual gradient` 接成闭环，逼着 Story Lab 新增 `preference propagation owner / routing table carrier / reception filter memory / textual backprop locus / async optimization boundary`。

2026-03-24 / creator-simulator

CreAgent：推荐系统长期评测开始显式引入创作者 simulator

补完 `SUBER / Lusifer / GRSU / RecoWorld / Echoes in the Loop` 之后，站里已经把用户 simulator、环境层、反馈回路风险诊断拆得比较细。但 `CreAgent` 说明，长期评测里还有一个此前没单独落盘的 actor：被推荐系统影响的内容创作者。它把 creator behavior 建成 `LLM + belief + fast/slow thinking + PPO` 的模拟代理，并明确把平台-创作者信息不对称写成环境前提。这意味着 Story Lab 后续还要补 `simulated actor / information boundary / creator-side reward consumer / ecosystem metric`。

2026-03-24 / tri-party-agency

TriRec：推荐 agent 不再只围绕用户，item 开始为自己争取曝光

补完 `AgenticRec / RecNet / CreAgent` 之后，站里已经能分别写 user-side tool policy、router-mediated preference propagation 和 creator-side simulator，但 `item` 仍常被默认成被排序的静态对象。`TriRec` 说明公开世界已经把 item 推成显式 stakeholder：Stage 1 让 item agent 做 user-conditioned `self-promotion`，Stage 2 再由 platform agent 以 `exposure` 为状态做多目标 sequential re-ranking，联动 user relevance、item utility 与 platform fairness。Story Lab 后续要补 `stakeholder owner / item-side advocacy / platform fairness controller / exposure-control state / tri-party utility contract`。

2026-03-24 / attention-unit

From Token to Item：推荐里的 attention 基本单位开始从 token 改回 item

补完 `OpenOneRec / SAGE / DeepInterestGR / Why Thinking Hurts / MemGen-GR` 之后，站里已经开始区分 `tokenization`、`action space` 和 `semantic ID drift`。但 `From Token to Item` 又补出一个更靠近 backbone 的缺口：就算 item 已经被编码成 token，标准 attention 仍然只在 token 间平均分配建模预算，协同信息并没有天然被 item-level 消费。`IAM` 通过 `intra-item -> inter-item` 两层 attention，把 item 重新拉回推荐里的基本建模单位。Story Lab 后续要补 `attention unit / relation split / collaboration consumption locus / item boundary enforcement`。

2026-03-24 / bid-aware-decoding

GEM-Rec：生成式推荐开始把广告开槽和出价调制写进同一条解码链

补完 `TriRec / SearchLLM` 之后，站里已经能写 stakeholder owner 和 reward contract，但 `organic recommendation` 与 `sponsored auction` 仍常被默认成两套后接系统。`GEM-Rec` 说明公开世界已经开始把 `<ORG>/<AD>` 控制 token、广告开槽决策和实时 bid modulation 写进同一条 semantic ID 解码链，并用推理时 `λ` 显式控制 `ad rate / revenue / organic integrity`。Story Lab 后续要补 `market split owner / slot-opening policy / bid-modulation locus / organic-integrity contract / monetization steering knob`。

2026-03-24 / group-interest

ISRF：生成式推荐开始把 group interest reasoning 单独做成一层

补完 `deep interest / profile text / preference propagation` 这些上游语义线后，很容易继续把用户兴趣理解成“个体历史的另一种表达”。但 `ISRF` 说明，公开世界已经开始显式建模从 `individual explicit interest` 到 `group implicit interest` 的推理桥：先做 item-level semantic reasoning，再构造 similar-user graph，最后用 iterative refinement 在两层兴趣之间来回耦合。Story Lab 后续还要补 `interest scope / similarity owner / explicit-implicit bridge / semantic graph carrier / iterative coupling locus`。

2026-03-24 / satisfaction-fusion-policy

SaFRO：短视频搜索的多任务融合开始被写成满意度 policy

补完 `SearchLLM / 小红书搜索 relevance teacher / S-GRec / IB-GRPO` 之后，站里已经能写 reward governance、teacher-student handoff、train-time semantic judge 和 objective aggregation。但 `SaFRO` 说明公开世界还有一个更靠近排序栈内部的 consumer：`CTR / long-play / duration / relevance` 这些预测头的融合器，不再只是静态加权器，而开始被 `query-level satisfaction` 与 `DRPO` 训练成真正的 fusion policy。Story Lab 后续要补 `fusion policy locus / satisfaction constructor / query-level retention proxy / batch-quality modulation / task-relation topology`。

2026-03-24 / explainer-policy

Shielded RecRL：推荐里的 RL 开始单独训练解释塔，而不是再动 ranker

补完 `RecExplainer / HF4Rec / RecPilot` 之后，站里很容易继续把 explainer 理解成 surrogate 分析器、report generator 或 simulated-feedback 场景。但 `Shielded RecRL` 说明，公开世界已经出现另一条更直接的 RL consumer：排序塔完全冻结，只让 explanation tower 用 `PPO + KL` 学会写更有点击价值的个性化理由。它把 `explainer-policy owner / ranking-isolation contract / explanation reward constructor / engagement proxy` 这几列正式补了出来。

2026-03-24 / policy-model

RecLLM-R1：推荐里的 RL 开始吞并业务策略层

补完 `SearchLLM / SaFRO / AgenticRec / Shielded RecRL` 之后，站里已经能看到 reward governance、fusion policy、tool policy 和 explanation policy 这些较新的 consumer。但 `RecLLM-R1` 提醒我，这条线里还有一个更早、也更容易被忽略的系统位：`RL` 不只是在调排序器或 reasoning，它还可能直接试图把外部业务策略层吞回同一个推荐 policy。更关键的是，论文口头上讲的是 `CTR / CVR / diversity / new-content / retention` 的统一优化，公开实现细节却主要停在 `position-weighted LCS + VeRL default rewards`，这逼着 Story Lab 后续补 `policy-model coupling locus / business-policy parameterization / public reward concrete level / offline-online strategy boundary`。

2026-03-24 / tool-free-unification

NEO：统一搜索、推荐和推理，不一定要靠工具编排

补完 `GLIDE / AgenticRec / SearchLLM / OneSearch` 之后，站里已经能写 semantic ID、tool policy、reward governance 和统一搜索推荐栈。但 Spotify 新出的 `NEO` 又补出一个此前没被单独记成层的位置：统一 discovery 不一定要靠 tool orchestration，也可以把 `typed item identifiers + constrained decoding + natural-language steering` 压进同一个自包含生成模型。Story Lab 后续要补 `tool-free unification / typed entity addressing / catalog-grounding contract / language-steerability / staged alignment boundary`。

2026-03-24 / predeployment-policy-sandbox

PolicySim：推荐与曝光策略开始在部署前先过社会沙箱

补完 `Echoes / RecoWorld / CreAgent` 之后，站里已经能写反馈回路风险、agentic environment 和 creator-side 长期评测。但 `PolicySim` 说明，公开世界开始把推荐与曝光策略的优化时点前移到部署前：不是等上线后再看 `A/B`，而是先用 `SFT + DPO` 训练 social user agents，再让 `contextual bandit + message passing` 在沙箱里直接优化 intervention policy。Story Lab 后续要补 `pre-deployment validator / intervention-policy owner / ecosystem objective / policy-feedback carrier / micro-macro realism contract`。

2026-03-24 / selection-robustness

BiasRecBench：推荐 agent 的脆弱面，先暴露在单轮 selection

补完 `Echoes / PolicySim / Shielded RecRL` 之后，站里已经能写反馈回路、部署前沙箱和解释层隔离。但 `BiasRecBench` 说明，更近的一层风险其实在单轮严格选择：当 `LLM` 以 recommender agent 身份必须从候选池里选出一个答案时，只要质量差距被刻意压窄，`authority / bandwagon / marketing / brand` 这类上下文偏见就足以劫持选择。Story Lab 后续要补 `selection robustness / quality-margin calibration / bias channel / mitigation owner / alignment attack surface`。

2026-03-24 / group-mode-discriminator

DALI：群组推荐开始先判谁主导，再决定怎么聚合

补完 `ISRF / PolicySim / BiasRecBench` 之后，站里已经能写 group interest、platform sandbox 和 selection robustness。但 `DALI` 说明群组推荐还有一个更前置的系统位：系统不该默认所有群体都按同一种 attention 聚合，而要先判定这是 `leader-dominated` 还是 `collaborative` 群体，再切换后续聚合路径。`LLM` 在这里不直接做推荐器，而是扮演 `rule governance expert + rule evolution engine`，持续修订 leadership discrimination rules。Story Lab 后续要补 `group-mode discriminator / leadership owner / aggregation regime split / rule-evolution loop / power-structure observability`。

2026-03-24 / tool-corruption-risk

AgentDrift：ranking 指标稳定，不代表推荐 agent 没被受污染工具带偏

补完 `AgenticRec / BiasRecBench / Echoes / PolicySim` 这些线之后，站里还缺一层更贴近 tool-augmented recommender agent 的风险位：很多系统默认工具返回的证据是可信的，评测也主要看 `NDCG / ranking quality`。但 `AgentDrift` 说明，公开世界已经出现一种更危险的失真：即使 utility 几乎不掉，agent 仍会在 `65%-93%` 的轮次里推荐风险不合适的对象，而且 `23` 步轨迹里几乎不会自我质疑工具可靠性。Story Lab 后续要补 `tool-integrity assumption / evaluation blindness / contamination channel / self-skepticism rate / trajectory-level safety monitor`。

2026-03-24 / simulator

USB-Rec：user simulator 开始同时承担 RL 偏好构造器和 test-time 内部裁判

站里此前已经写过 `iEvaLM / SUBER / GRSU / RecoWorld / Interplay` 这些 simulator 路线，但 `USB-Rec` 把一个更具体的新角色做实了：simulator 不只评测、不只当环境，也不只提供搜索反馈；它开始在训练期直接制造 `RL` 偏好对，在推理期又回到系统内部充当 `SES` 的打分裁判。这逼着 Story Lab 再补 `preference-constructor locus / train-time vs inference-time simulator consumer / internal search onset / potential acquisition vs release`。

2026-03-24 / tag-interface

TagLLM：note 推荐开始把多模态 CoT 压成可解释标签接口

站里已经写过 `semantic ID / tokenization / item-aware attention / multimodal reasoning carrier`，但 `TagLLM` 补出一个此前没单独写开的系统位：`MLLM` 不一定只负责产 latent embedding，也可以先被 `User Interest Handbook` 约束，再把多模态 CoT 蒸成可部署的 fine-grained tags，最终以 `user profile + tag embedding` 两种形态进入推荐塔。Story Lab 后续要补 `interest-guidance owner / tag-interface granularity / generation-to-serving bridge / judge-alignment contract / cold-start leverage`。

2026-03-24 / strategy-planner

RSO：对话推荐开始把“怎么聊”拆成可学习的策略规划器

补完 `SAPIENT / ECPO / Rank-GRPO / USB-Rec` 之后，站里已经能看到 planning、turn-level 对齐、rank-level RL 和 simulator judge，但 `RSO` 又补出一个更明确的系统位：对话推荐里的交互策略不必继续藏在统一 prompt 里，而可以被拆成 `macro-level planner + micro-level actor`，再只让 Planner 吃 `entropy-regularized RL`。Story Lab 后续要补 `strategy owner / macro-micro split / planner-only optimization contract / strategy-collapse control`。

2026-03-24 / semantic-anchor

S²GR：latent reasoning 开始给每级 SID 配可监督语义锚点

补完 `Why Thinking Hurts / PROMISE / GR2 / DeepInterestGR` 之后，站里已经能分出 `reasoning drift`、`test-time search control`、`rerank-stage reasoning` 和 `SID-ready interest carrier`。但 `S²GR` 又补出一个不同系统位：latent reasoning 不再只是一串难解释的中间向量，而开始在每一级 `SID` 生成前插入 `thinking token`，再用 coarse-grained codebook cluster distribution 做监督。Story Lab 后续要补 `semantic anchoring contract / step-to-code coupling / codebook-behavior alignment / reasoning granularity schedule / overthinking boundary`。

2026-03-24 / directional-feedback-evolution

Self-EvolveRec：推荐器自演化开始吃方向性反馈，而不只看标量分数

补完 `Self-Evolving Recommendation System / RecNet / AgenticRec` 之后，站里已经能分出 `outer-loop MLE agent`、`router-mediated preference propagation` 和 `tool-integrated ranking policy`。但 `Self-EvolveRec` 又补出一条更贴近模型本体的演化路线：不再只用 `NDCG / HR` 这类 scalar metric 做 trial-and-error，而是让 `user simulator` 给 qualitative critique、`diagnosis tool` 给 quantitative verification，并让诊断器本身跟着模型一起共演化。Story Lab 后续要补 `feedback semantics / critique-verifier split / diagnosis co-evolution / planning-retrieval necessity / code-quality divergence`。

2026-03-25 / entropy-router

Entropy-Driven Dialogue Policy：对话推荐不一定非得训练 Planner，也可以让检索熵接管路由

补完 `SAPIENT / Rank-GRPO / USB-Rec / RSO` 之后，站里已经能看到 planning、rank-level RL、simulator judge 和 strategy planner，但还缺一个更轻的系统位：对话推荐里的策略切换不一定非得由可训练 planner 或 prompt condition 决定，也可以直接由检索分布的熵来判断用户意图是否足够聚焦。Gorgias 这篇电商工作说明 Story Lab 还要补 `strategy evidence source / catalog-conditioned ambiguity signal / discovery-pressure preset / recommendation trigger confidence`。

2026-03-25 / causal-invariance

CausalDPO：推荐里的 DPO，不只会学偏好，也会把环境混杂一起对齐

站里已经有 `DPO4Rec / DRPO / FlexRec / SearchLLM`，能看到 pairwise preference、重尾脏日志、多目标切换和 reward governance，但还缺一个更早的因果位：推荐里的 `DPO` 不只会学 `chosen > rejected`，也会把 `popularity / temporal / exposure` 这类环境混杂一起放大。`CausalDPO` 说明 Story Lab 还要补 `environment confounder / latent-environment inference / invariance regularization / shift contract / IID tax`。

2026-03-25 / alignment-substrate

SIDReasoner：semantic ID 推荐里的 reasoning，不一定先追 trace，也可以先补对齐底座

补完 `Why Thinking Hurts / S²GR / GR2 / DeepInterestGR / From Token to Item / OpenOneRec` 之后，站里已经能分出 `semantic drift / semantic anchoring / rerank reasoning / interest carrier / item-aware attention`。但 `SIDReasoner` 又补出一个更前置的系统位：在 `semantic ID` 推荐里，reasoning 不一定首先由更长 trace 或更重 RL 解锁，它也可能先取决于 `SID-language alignment substrate`。Story Lab 后续要补 `reasoning-enablement substrate / alignment corpus owner / activation locus / general-ability budget / cross-domain transfer condition`。

2026-03-25 / grounding-loop

MGFRec：推荐里的 reasoning 不能只在语言空间里打转，还要反复落到真实 item space

站里已经写过 `VRec / PROMISE / Why Thinking Hurts / SIDReasoner / USB-Rec`，很容易继续把推荐 reasoning 理解成 verifier、search controller、semantic alignment 或 internal judge。但 `MGFRec` 说明，还有一条更早却没单独写开的主线：`RL` 训练的 recommendation agent 不该只在语言空间里推理，再在最后一步映射到 item；它应该在中间多次 `ground` 到真实 item space，并在每次 grounding 后吃 user-agent feedback。Story Lab 后续要补 `reasoning space / grounding frequency / grounded-feedback carrier / search-space contraction / process-signal carrier`。

2026-03-25 / self-play-debias

SPRec：推荐里的 DPO，不只要看 pair 怎么造，还要看负样本由谁提供

站里已经有 `DPO4Rec / DRPO / CausalDPO`，能看到 pairwise preference、脏日志过滤和环境混杂，但还缺一个更近的 owner：DPO 里被压下去的 rejected 到底来自谁。`SPRec` 说明，推荐里的过度推荐 / filter bubble 不一定先靠外部规则修，也可以让模型上一轮自己的高频输出回流成 self-play negatives。Story Lab 还要补 `negative sample owner / self-suppression loop / over-recommendation target / debiasing data loop`。

2026-03-25 / weight-simplex-policy

GRADE：多目标融合不只要会个性化，还得先学会在权重单纯形里探索

补完 `SaFRO / FlexRec / IB-GRPO` 之后，站里已经能写 fusion policy、need-conditioned ranker 与 Pareto aggregation，但 `GRADE` 又补出一个更基础的系统位：推荐/搜索里的 `RL` 不一定先接管 item ranking 或 task relation，也可以先接管多任务融合权重本身，并在 simplex-constrained continuous action space 里做个性化搜索。Story Lab 后续要补 `scalarization owner / exploration geometry / weight-simplex prior / reward anti-hacking regularizer`。

2026-03-25 / value-axis-alignment

RosePO：推荐里的 DPO，不只要挑 pair，还得先把 helpfulness 和 harmlessness 分轴写清

补完 `DPO4Rec / DRPO / CausalDPO / SPRec` 之后，站里已经能写 pair 构造、脏日志过滤、环境混杂和 self-play negatives，但 `RosePO` 又补出一个更早的系统位：推荐里的偏好对齐不只要决定 rejected 由谁提供，还要决定 helpfulness 与 harmlessness 分别由什么 rejected sampling 承担，并用 preference oracle 预测每条 pair 的 flip-rate。Story Lab 后续要补 `value-axis coupling / shortcut-targeted negatives / label-noise owner / preference-oracle smoothing`。

2026-03-25 / negative-coupling

S-DPO：推荐里的 DPO，不只要更多 negative，还要决定这些 negative 是逐对比较还是共同竞争

站里已经有 `DPO4Rec / DRPO / SPRec / CausalDPO / RosePO`，能看到 pair 是谁造的、负样本谁供给、环境混杂和 value axis，但还缺一个更底层的损失位：当推荐里不止一个 negative 时，它们到底是被拆成多对 pairwise `DPO`，还是作为一个 softmax 竞争集共同约束 chosen。`S-DPO` 说明 Story Lab 还要补 `comparison unit / negative coupling geometry / ranking-gradient density / objective bridge / pairwise decomposition tax`。

2026-03-25 / cross-user-memory

AMEM4Rec：agentic recommender 的 memory，不再只记单个用户，也开始跨用户长出 CF 信号

补完 `RecThinker / MemoCRS / Shopping Companion / RecNet` 之后，站里已经能写工具记忆、对话长期记忆、shopping grounding 和记忆中的偏好传播，但还有一个位一直没被单独记开：agentic LLM recommender 的 memory 到底只服务单个用户，还是也能在跨用户层面沉淀 collaborative filtering 信号。`AMEM4Rec` 给出的答案是后者。Story Lab 后续要补 `memory scope / cross-user pattern owner / memory evolution trigger / validator split / collaborative-signal recovery path`。

2026-03-25 / rlvr

ReRe：推荐里的 RLVR，不只要 on-policy negative，还要先把生成空间约束住

站里已经有 `DPO4Rec / S-DPO / SPRec / CausalDPO / RosePO`，能看到 pair 怎么造、negative 谁供给、环境混杂和值轴怎样进目标，但还缺一层更靠近 `RLVR` 的问题：如果 negative 直接从当前 policy 在线采样，推荐里的窄 item 空间会不会先把采样效率和 reward 信号一起压坏。`ReRe` 说明 Story Lab 还要补 `negative exposure regime / output validity contract / reward verifiability / diversity-preserving search / proxy-reward hacking`。

2026-03-25 / negative-efficiency

NAPO：推荐里的 DPO，不只要更多 negative，还要先解决负样本扩容效率和信息量调权

站里已经写了 `S-DPO / SPRec / RosePO / ReRe`，能看到 negative 在 loss 里如何耦合、由谁提供、服务哪条价值轴，以及 search 怎样暴露 hard negatives，但还缺一个更靠前的 owner：negative 覆盖怎样在不增加额外解码成本的前提下被扩容，以及不同 negative 的作用强度是否应按置信度动态改 margin。`NAPO` 说明 Story Lab 还要补 `negative coverage regime / sharing validity contract / informativeness-aware margin / auxiliary confidence owner / negative-efficiency frontier`。

2026-03-25 / negative-extraction

ILRec：推荐里的 preference learning，不一定只看序列级 rejected，也可以从中间层直接抽 token 级 self-hard negatives

补完 `SPRec / S-DPO / RosePO / NAPO / ReRe` 之后，站里已经能分清 negative 由谁提供、怎样耦合、怎样扩容和怎样按价值轴平滑，但还缺一个更靠近模型内部的 extraction locus：负信号不一定来自外部 sampled items，也可以直接从中间层 logits 里长出来。`ILRec` 说明 Story Lab 还要补 `negative extraction locus / token-level self-hard negative / false-negative mitigation / intermediate-layer teacher-student loop`。

2026-03-25 / causal-attention

Beyond Interleaving：生成式推荐里的 action，不一定非得插成 token，也可以回到因果注意力池化

补完 `From Token to Item / Why Thinking Hurts / SIDReasoner / GLIDE` 之后，站里已经能看到 item-aware attention、reasoning drift、SID-language substrate 和 soft-prompt carrier。但还有一个更底层的结构位一直没被单独记开：item 和 action 在生成式推荐里到底该怎么耦合。`Beyond Interleaving` 说明 Story Lab 还要补 `item-action coupling form / causal dependency materialization / attention-noise tax / fusion timing / sequence-complexity tax`。