Index
Stories
把论文、技术报告和研究判断组织成可持续追踪的中文 Story。
快手种子方向:从 OneRec 到 OneRec-Think
如果这个项目要先抓住 LLM-RL 协同推荐的主线,OneRec 系列是当前最值得优先吃透的一批公开材料。
OneRec 主线开始进入公开生态期
OpenOneRec、OneRec-Think 代码仓和中文公开传播同时出现后,OneRec 不再只是一个工业论文案例,而是开始变成可追踪、可复现、可校验的公开研究栈。
OneRec-V2 才是 OneRec 主线里的 RL 桥梁
如果只看 OneRec、OneRec-Think 和 OpenOneRec,会漏掉快手主线里最关键的一次转向。OneRec-V2 明确指出 reward-model-only RL 的局限,并把真实用户反馈对齐、decoder-only scaling 与后续公开栈接了起来。
OpenOneRec 正在先把公开底盘补到前训练层
截至 2026-03-20,OpenOneRec 官方继续在 Hugging Face 增加 tokenizer、pretrain checkpoint、多模态 embedding 和新数据集,但 benchmark 仍有 gated 门槛,RL / VeRL 统一复现仍未 turnkey。
中文讨论层开始补上 OneRec-V2 的机制细节
这一轮新增的不是官方资产,而是几篇能把 OneRec-V2 的真实反馈、GBPO 和中文传播层串起来的高价值讨论;它们说明中文社区已经开始从快讯转向机制拆解。
OpenOneRec 已把后训练链路拆分公开
截至 2026-03-20,OpenOneRec 主仓已可见 `verl_rl` 与 `verl_distillation` 两个官方模块,这意味着推荐 RL 与 on-policy distillation 代码已经分拆放出;真正缺的不是“完全没有代码”,而是统一、一键、低门槛的复现链。
RecIF-Bench 已公开评测接口,但还不是无门槛 benchmark
截至 2026-03-20,OpenOneRec 已公开 `benchmarks/` 代码、8 个任务层级和公开模型卡,但 `OpenOneRec-RecIF` 数据仍是 `gated: auto`,评测 README 还要求本地 benchmark 数据、Ray/vLLM 环境和 Gemini 配置;真正开放的是接口和脚本,不是零门槛复现。
RecIF-Bench 的两项语义评测,默认还是 Gemini 裁判
截至 2026-03-20,OpenOneRec 公开的 8 个 benchmark 任务并不共享同一种评测范式:前 6 项主要走本地指标,而 `item_understand` 与 `rec_reason` 两项会调用 `benchmarks/api` 做 `LLM-as-Judge`,官方 quick start 默认要求配置 Vertex Gemini。
OpenOneRec 的 judge backend 可切换,但并不等价
截至 2026-03-20,OpenOneRec 的 `benchmarks/api` 虽然暴露了 `Gemini / DeepSeek / Claude` 三种 judge backend,但官方实现并非对称替换:`Gemini` 是文档默认路径,`DeepSeek` 实际走百度千帆,`Claude` 的配置模板还留着空的 `model_name`。
OneRec-Think 公开的是推理激活链,不是完整 RL 链
截至 2026-03-20,OneRec-Think 论文已经明确写出 `Reasoning Enhancement = VERL + GRPO + Rollout-Beam reward`,但公开仓库只放出了 `Itemic Alignment -> Recommendation -> Reasoning Activation` 训练与评测脚本;公开边界应写成“推理链已开放到激活层”,而不是“完整 reasoning RL 已开源”。
推荐后训练开始分化成三条公开路线
从 DPO4Rec 到 ECPO 再到 ReRe,公开论文已经把推荐中的偏好优化拆成离线 rerank 对齐、多轮对话 turn-level 对齐和生成式 RLVR 三条路线;这能更准确地安放 OneRec-V2、OneRec-Think 与 OpenOneRec。
推荐后训练下一张方法图,应该按反馈来源画
本轮新增 HF4Rec 后,可以把当前公开推荐后训练的反馈源拆成 reward model 代理评分、LLM 模拟用户反馈、真实用户反馈与可验证 reward 四类;这比只盯 DPO/GRPO 更能解释 OneRec-V2、ECPO、ReRe、OneRec-Think 与 OpenOneRec 的差异。
LLM-RL 协同推荐,也可以先桥接黑盒推荐器
Rec-R1 与 Rank-GRPO 说明,公开世界里的 LLM-RL 协同推荐不只是在重做 OneRec 式端到端生成器;另一条成形中的路线,是把 LLM 通过 RL 接到现有推荐/检索系统上,其中 `Rec-R1` 做 sequence-level closed-loop optimization,`Rank-GRPO` 则进一步把优化单位收缩到 rank-level。
LLM-RL 协同推荐的统一方法表,还缺一个角色维度
新找到的 TechRxiv 综述把 LLM-RL 协同推荐按 `policy / reasoner / representer / explainer / simulator` 五种角色重排;这说明 Story Lab 现有的 `反馈来源 × reward 类型 × 优化单位 × 集成层 × 公开程度` 还不够,至少还要再加一列 `LLM 在 RL pipeline 里扮演什么角色`。
用户模拟器正在前移成推荐 RL 的环境层
从 SUBER、Lusifer、LLM-Powered User Simulator 到 RecoWorld,公开世界里的 simulator 已经不只是给 RL 多一个便宜 reward,而是在逐步长成推荐系统的训练、评测和多轮交互环境层。
RecAI 已把推荐里的多种 LLM 角色放进同一公开栈
微软 `RecAI` 不只是又一个 LLM4Rec 仓库。它把 `RecLM-gen`、`RecLM-emb`、`RecExplainer` 和 evaluator 放在同一项目里,说明 `policy / representer / explainer` 这组角色划分已经不只是 survey taxonomy,而是开始长成可追踪的公开工程底盘。
RecAI 的剩余模块说明,项目级角色栈已经溢出五类 taxonomy
继续下钻 `InteRecAgent / Knowledge_Plugin / RecLM-eval` 后可以看到,公开推荐栈已经不只是在收集 `policy / representer / explainer`。项目级现实里还出现了 `agent / tool-use`、prompt-time `knowledge injection` 与 `evaluator` 三类系统角色,说明 survey 的五类 taxonomy 更适合论文级,而不是项目级全景。
模拟用户反馈这条线,先要校准模拟器本身
从 iEvaLM 到 NAACL 2024 的五任务协议,再到 RecUserSim 的显式打分,公开世界已经开始把 user simulator 从对话推荐的隐形配角推进成需要单独校准的评测对象;这意味着 Story Lab 记录 simulated feedback 时,不能只记有没有 simulator,还要记它服务训练还是评测,以及有没有人类对齐证据。
生成式推荐后训练,正在从 RLHF 偏向离线加权 SFT
从 Netflix 官方 `A-SFT` 技术博客到新论文 `Exp-RSFT`,可以看到一条更清晰的对照线:在 noisy reward、静态日志、巨大 catalog 和缺少 propensity score 的推荐场景里,公开世界正在认真论证 fully offline 的 reward-weighted `SFT`,而不是默认继续往 `RLHF` 走。
推荐 RL 的新公开增量,开始转向系统瓶颈
`LERL`、`MiniRec` 和 `GRC` 这组三篇 2026 年论文说明,公开世界里的 LLM-RL 协同推荐正在从“有没有 RL”转向“RL 卡在哪一层”:有人在压动作空间,有人在压训练预算,也有人开始直接修解码轨迹。
统一方法表里,`feedback source` 和 `reward consumption mode` 不能混写
把 `DPO4Rec`、`HF4Rec`、`ECPO`、`OneRec-V2`、`A-SFT / Exp-RSFT` 和 `OpenOneRec` 放在一起后,一个更清楚的结构冒出来:推荐后训练至少要分开记“反馈从哪来”和“训练时怎么消费 reward”,否则会系统性误读公开路线。
推荐后训练的下一层分叉,是谁在构造 preference data
把 `DPO4Rec`、`ECPO`、`HF4Rec`、`ReRe`、`A-SFT / Exp-RSFT` 放在一起后,一个此前还没单独写清楚的层浮出来了:真正决定推荐后训练长什么样的,不只是 feedback source 或 reward consumption mode,还包括中间那层 `preference constructor / signal construction layer`。
MiniOneRec:把 ReRe 式 RLVR 压成可复现的开源推荐底盘
`MiniOneRec` 说明,公开生成式推荐生态已经不只剩工业体量的 `OpenOneRec` 和方法级样板 `ReRe` 两端。它把 `SID 构造 -> SFT -> recommendation-oriented RL` 直接打包成一条可复现实验链,而且代码里还保留了明显的 `ReRe` 继承痕迹。
推荐里的 LLM-as-a-Judge,正在从评测器前移成世界模型
Spotify 的 profile-aware judge 和 slate world model 两篇新论文说明,推荐里的 judge 已经不只是 benchmark 语义评分器,而开始分化成 profile-aware offline judge 与 pairwise slate world model 两层。
推荐里的 judge 观察表,至少要再加三列
从 OpenOneRec 的语义裁判、RecLM-eval 的项目级 evaluator,到 Spotify 的 profile-aware judge 与 slate world model,推荐里的 LLM judge 已经不能只记成一个角色;至少还要补上 context carrier、verdict granularity 和 consistency control 三列。
RecLM:推荐里的 RL,也可以先修 profile constructor
ACL 2025 的 RecLM 把 LLM 做成 collaborative-aware 的 profile constructor,再用 reward model + PPO 精修用户画像,并把结果即插即用地接到 BiasMF、NCF、LightGCN、SGL、SimGCL 等传统推荐器上;它说明 LLM-RL 协同推荐还有一类此前容易漏掉的集成层:representer / profile adapter。
LettinGo:profile constructor 也开始吃 task-driven preference data
LettinGo 把推荐里的用户画像生成从固定 prompt / 固定格式,推进到“多模型探索 -> 下游任务打分 -> pairwise preference -> DPO 对齐”的任务驱动闭环;它说明 `profile constructor` 这条线不只是在传统推荐器前接一个 adapter,也开始把 `profile text` 本身变成可被偏好优化的对象。
PALR、RLMRec、KAR:RecLM 之前,画像在推荐里已经有三种系统用法
回看 `LettinGo` 表里的 `PALR / RLMRec / KAR`,会发现它们并不是同一种“用户画像方法”:`PALR` 把画像当 prompt 输入给 `LLM` 重排,`RLMRec` 把画像当语义视图拿去做表征对齐,`KAR` 则把偏好推理和物品知识压成 augmented vectors。对 Story Lab 更关键的结论是:`profile constructor` 子表不能只记 downstream consumer,还要补一列 `carrier / interface`。
LFM 到 LangPTune:在 RecLM 之前,language profile 已经开始端到端训练
如果只看 `PALR -> RecLM / LettinGo`,很容易误以为 `profile text` 是最近才被当成训练对象。其实 `LFM` 先把用户画像做成可读、可编辑的中间接口,`LangPTune` 再用 `RLSO + CL` 把 recommendation objective 直接回流到 profile encoder。这说明 `profile constructor` 子表除了 `carrier / interface`,还要再补一列 `constructor optimization regime`。
UserIP-Tuning:prompt tuning 这档,并没有继续走可读画像
上一轮我给 `profile constructor` 子表补出了 `constructor optimization regime`,但 `prompt tuning` 还只是占位。补完 `UserIP-Tuning` 后,新的判断是:推荐里的 prompt tuning 并不是把自然语言画像继续微调,而是把潜在画像写进 `soft prompt`,再量化成可在线存储的 collaborative ID。这意味着子表除了 `carrier / interface` 和 `optimization regime`,还要再记 `deployment form`。
PURE:画像不只要构造,还要进入 maintenance loop
沿 `LFM / LangPTune / RecLM / LettinGo / UserIP-Tuning` 往下看,很容易把画像问题理解成“怎样构造、怎样训练、怎样部署”。`PURE` 补出的却是另一层:画像还要被持续抽取、更新和压缩。它把推荐任务改写成 `continuous sequential recommendation`,也让 Story Lab 的 `profile constructor` 子表必须再补一个 `lifecycle stage` 维度,至少区分 `construction / maintenance / deployment`。
TETUP 到 LLM-TUP:画像维护不只做压缩,也开始做双时域拆分
补完 `PURE` 后,很容易把 `profile maintenance` 理解成“持续压缩旧评论、减少 token”。但 `TETUP -> LLM-TUP` 这条时间画像支线说明,另一种公开解法是把最近行为和稳定偏好分别写成两个自然语言 profile,再用 attention 动态融合。它提示 Story Lab 在 `profile constructor` 子表里,除了 `construction / maintenance / deployment`,还要开始记录画像到底是 `single summary`,还是 `short-term + long-term` 的 `dual-horizon profile`。
MemoCRS 到 FuseRec:对话推荐里的长期历史,开始分给 memory 和 RL planner 两条路
沿 `PURE / TETUP` 往下看,很容易把“长期用户状态”继续想成某种 profile 或 memory summary。但新补到的 `MemoCRS` 和 `FuseRec` 说明,对话推荐里已经出现另一种更系统化的分叉:一条把长期历史直接交给 `LLM-side memory`,另一条则把长期历史留给 `SRS`,让 ad-hoc planner 用 curriculum `RL` 学会提问与推荐。这提示 Story Lab 还要新增 `history carrier / history owner` 这一维。
DeepRec:black-box bridge 开始长成多轮 reasoning-retrieval loop
补完 `Rec-R1 / Rank-GRPO / RecLM` 后,很容易把推荐里的 `black-box bridge` 理解成“一次性拿候选、再围绕最终列表做对齐”,或者把自然语言偏好理解成某种持久 `profile`。但 `DeepRec` 说明公开世界里已经出现了另一种更细的系统位置:`LLM` 会在轨迹中反复生成偏好描述,把它当作调 `TRM` 的临时 query interface,并用分层 reward 和两阶段 `RL` 去专门优化这条 tool-use loop。
RISER 到 V-STAR:生成式推荐里的 RL,开始直接改写搜索预算和比较信号
补完 `GRC` 后,很容易把推荐里的 `RL` 继续理解成“给 decoder 多一层反思/纠错”。但 `RISER` 和 `V-STAR` 说明,新一批公开方法更前一步,已经开始直接改写 search policy 本身:一个明确反对把 `Long CoT` 生搬进 sequential recommendation,用 `SimPO` 回收零优势 rollout;另一个把 `probability-reward mismatch` 写成主矛盾,让搜索预算和优势计算都贴着 decisive nodes 走。这提示 Story Lab 的系统瓶颈表还要新增 `search-credit coupling`。
RecThinker:推荐 agent 开始先判断信息够不够,再决定调哪些工具
补完 `Rec-R1 / DeepRec` 后,很容易把推荐里的 tool-use 路线继续理解成“固定接口上的一跳或多跳 loop”。但 `RecThinker` 说明公开世界里又往前走了一格:真正被拿来训练的,不只是推荐结果或多轮检索轨迹,而是 agent 对 `information sufficiency` 的判断,以及它据此展开的多工具自主调查。
RecMind:在 RecThinker 之前,推荐 agent 已经先长出了 planning、memory、tools 三件套
如果只顺着 `DeepRec -> RecThinker` 看,很容易把推荐 agent 的公开路线理解成最近才开始从固定 loop 走向自主调查。但 `RecMind` 说明,更早的 `NAACL 2024` 就已经把 `planning + memory + tools` 拼成同一套 zero/few-shot recommendation agent。它补出的不是 `RL`,而是一个更早的 agent 前史:推荐里的规划问题,先被写成“怎样利用全部已探索 states 继续往前想”,而不是后来的 `information sufficiency` 决策。
RecoWorld:simulator 开始训练会听指令的推荐 agent,而不只是替它打分
补完 `SUBER / Lusifer / CSHI / DeepRec / RecThinker` 后,很容易把 simulator 继续理解成更像真的 user feedback generator,或者把 agentic recommendation 理解成另一条独立的工具使用路线。但 `RecoWorld` 说明公开世界里两者已经接到一起:用户模拟器会在离场前生成 reflective instructions,推荐器则被定义成 `InFoRec`,并在 `Gym-like` 多轮 `RL` 环境里学习如何根据这些指令更新列表。这意味着 simulator 正从反馈环境进一步长成 instruction-following recommender 的训练场。
MLLMRec-R1:多模态推荐里的 RL,先把视觉负担移出 rollout,再谈推理
补完 `Rec-R1 / Rank-GRPO / RISER / V-STAR / RecThinker` 后,很容易把推荐里的 `RL` 主问题继续理解成 credit assignment、search budget 或 tool-use policy。但 `MLLMRec-R1` 说明,多模态 sequential recommendation 里先冒出来的另一个硬瓶颈其实是:图像 token 会把 rollout 成本和训练不稳定性一起放大,所以系统首先要重写的不是 reward,而是 `RL` 之前的 reasoning carrier。
可读画像不等于可信画像:用户自识别和推荐效用开始分叉
补完 `profile constructor` 的 `carrier / optimization / deployment / lifecycle` 之后,还缺一层:用户自己认不认这个画像,以及这种代表性是否和推荐效用一致。Deezer 的 RecSys 2025 工作说明,NL profile 的可解释性不自动等于可信,用户自我识别与 `Recall/NDCG` 只有弱相关,而且 `genre / locale` 偏差会让某些画像系统性更像、也更不像用户。
OpenOneRec 的 Stage 2,不是过渡步骤而是能力恢复层
继续下钻 `OpenOneRec/verl_distillation` 后,一个此前在站内还没单独写清楚的判断浮出来了:推荐后训练不只是在做 recommendation reward 优化,快手公开栈里还显式插入了一层 general capability restorer。它用通用 SFT 数据、teacher-student on-policy distillation 和 extended-vocab masking,先把被推荐任务拉偏的通用推理能力拉回来,再接 Stage 3 的 recommendation RL。
RPP:固定模板和软提示之间,还有一层 instance-wise prompt policy
沿 `PALR / RecLM / LettinGo / UserIP-Tuning` 往前看,很容易把推荐里的 prompt personalization 理解成两条路:要么把可读 profile 塞进固定模板,要么把 soft prompt 压成 latent ID。`RPP` 补出的其实是第三种公开形态:不改 LLM 权重,而把 `role / history / reasoning / format` 四类句子选择本身写成 multi-agent RL policy,为每个用户生成离散 prompt。
VRec:生成式推荐开始在中间推理步骤插 verifier,而不只等最终 item
新论文 Verifiable Reasoning for LLM-based Generative Recommendation 把生成式推荐里的常见 `reason-then-recommend` 改写成 `reason-verify-recommend`:每一步 latent reasoning 都先过 verifier,再决定是否继续往下走。这说明 reasoning 推荐的下一层主矛盾,已经开始从“会不会想”转向“中间推理能不能被持续校验”;截至 `2026-03-25`,官方 GitHub 仓仍是空仓,但 `ChatPaper` 已出现稳定中文入口,传播层从全空白推进到了导航层。
PROMISE:生成式推荐开始把 process reward model 放进解码期,而不只放进训练期
继 VRec 把 verifier 插回中间推理步骤之后,PROMISE 又把这条线往另一侧推了一格:它不是主要在训练时审计 reasoning,而是在推理时用 Path-level PRM 持续重排 Semantic ID 路径,并通过 PRM-guided beam search 提前剪掉会发生 semantic drift 的分支。这让推荐里的 process verifier 首次清楚分成两类 consumer:一种是 `train-time process supervisor`,另一种是 `test-time search controller`。
REG4Rec 到 GREAM:reasoning enhancement 开始分成自反思剪枝和可验证 RL reward
补完 `VRec / PROMISE` 后,再往后看 `REG4Rec / GREAM`,会发现推荐里的 reasoning supervision 不只是 verifier 放在哪。`REG4Rec` 更像用 `PARS + MSRA` 在训练期学路径可靠性,再在推理期用 `CORP` 做 self-reflection pruning;`GREAM` 则把 `Collaborative-Semantic Alignment + Reasoning Curriculum Activation + SRPO` 绑成一条 verifiable-RL-driven end-to-end 路线,并显式支持 direct mode 与 reasoning mode。这意味着 Story Lab 还要把 reasoning enhancement 再拆成 `self-reflection pruning` 与 `verifiable RL reward` 两档。
RecZero 到 RecOne:推荐里的 reasoning,不一定要先蒸馏,RL 也能先把它长出来
补完 `VRec / PROMISE / REG4Rec / GREAM` 后,很容易把推荐里的 `RL` 继续理解成:先有一套 teacher、verifier 或 reasoning carrier,再由 `RL` 去校验、剪枝或放大奖励。但 `RecZero / RecOne` 说明,至少在 rating prediction 这条线上,`RL` 还可以前移成 reasoning 的起点:`RecZero` 直接用 pure `RL` 让单个 `LLM` 自主长出推荐推理,`RecOne` 则只在冷启动阶段补一小段 `SFT`。这意味着 Story Lab 还要新增一列 `reasoning bootstrap regime`。
从 Netflix 到 LinkedIn:RL 开始前移到推荐里的 logs-to-language 文本构造层
补完 `profile constructor / search controller / simulator / verifier` 之后,很容易继续把推荐里的 `RL` 只理解成下游优化器。但 `From Logs to Language` 和 `High Fidelity Textual User Representation` 说明,还有一类更靠前的工业 consumer:不是先修 ranker,而是先用 `RL` 把结构化日志和异构用户数据改写成 LLM 真正能消费的文本上下文。这意味着 Story Lab 还要补一层 `observation verbalizer / text context constructor`。
GR4AD:广告生成式推荐开始把 value-aware RL 和 beam serving 写成同一套系统
沿 `OneRec-V2 / PROMISE` 往前看,很容易把推荐里的 `RL` 和推理期 search control 分开记。但 `GR4AD` 说明,在广告场景里它们已经被绑成同一套生产结构:训练侧有 `VSL + RSPO` 去对齐 eCPM,推理侧有 `LazyAR + Dynamic Beam Serving` 去贴着 traffic budget 放大搜索。这意味着 Story Lab 还要补一层 `training-serving co-design` 观察。
R2Rank:推荐里的 listwise 奖励,开始反压回 item-wise reasoning
补完 `Rank-GRPO / RecZero / DeepRec` 后,很容易把推荐里的 `RL` 继续理解成:要么直接对齐整条列表,要么控制整段 reasoning 或 tool-use 轨迹。但 `Reasoning to Rank` 说明,还有一条更细的新路线:先把每个 candidate 拆成独立的 user-item reasoning 单元,再用 `Plackett-Luce` surrogate 把 listwise `NDCG` 奖励回传到 token-level 推理内容。这意味着 Story Lab 还要新增一列 `candidate coupling regime`。
CoNRec:推荐里的 LLM-RL,开始显式补负反馈过滤层
补完 `R2Rank / DeepRec / VRec / query carrier` 之后,很容易继续把推荐里的 `RL` 只理解成:对齐正向列表、控制 reasoning 轨迹,或者为召回接口生成更好的语言 carrier。但 `CoNRec` 说明,还有一条此前站里没单独成层的新路线:`LLM-RL` 也可以专门去建模用户不想看到什么,并以 `offline filtering` 的方式直接服务现有排序系统。这意味着 Story Lab 还要补一层 `negative-interest filter`。
OneMall:快手开始把电商生成式推荐写成多场景 family,并让 ranking reward 回流 retrieval
补完 `OneRec / OpenOneRec / GR4AD` 后,很容易把快手公开生成式推荐继续理解成:短视频主线往前推,广告主线做 `training-serving co-design`。但 `OneMall` 说明,中间还长出了一条电商支线:不是单一场景模型,而是把 `product-card / short-video / live-streaming` 三种 item 分布压成同一个 generative family,再让 ranking model 显式充当 retrieval policy 的 reward supplier。这意味着 Story Lab 还要补一列 `scenario-family regime / reward supplier`。
FlexRec:推荐里的 LLM-RL,开始把目标切换接口训进同一个 ranker
补完 `R2Rank / CoNRec / query carrier / verbalization` 之后,很容易继续把推荐里的 `RL` 只理解成:优化更细的 credit assignment、控制 reasoning 轨迹,或者补一层新的信号构造器。但 `FlexRec` 说明,还有一条此前站里没单独成层的新路线:`RL` 也可以直接训练“同一模型如何按显式需求切换推荐目标”。这意味着 Story Lab 还要补一列 `objective-switch regime / need interface`。
DiffuReason:推荐里的 latent reasoning,开始从确定性链条转向概率式细化
补完 `VRec / PROMISE / REG4Rec / GREAM / RecZero` 之后,很容易继续把推荐里的 reasoning control 理解成 verifier 放在哪、reward 怎么写、self-reflection 怎样剪枝。但 `DiffuReason` 说明,还有一条此前站里没单独成层的新路线:不是继续审计或放大奖励,而是直接把 latent reasoning 当成 noisy hypothesis,再用 diffusion 做概率式 refinement。这意味着 Story Lab 还要补一列 `reasoning uncertainty model / refinement regime`。
训练级推荐 simulator,开始要求既可控又可测
新补到的 `CSHI` 论文与代码仓、以及 `NAACL 2024` 的五任务协议代码仓说明,推荐里的 user simulator 正在从“能生成像人的话”继续收敛到两个更硬的要求:前面要有可控接口,后面要有可测协议;否则它很难稳定进入 `ECPO / HF4Rec` 这类训练闭环。
GRSU:会话推荐里的 simulated user 开始兼任 search feedback engine
补完 `iEvaLM / RecUserSim / ECPO / RecoWorld` 后,我原本把 simulator 分成评测器、训练反馈生成器和环境层三类。但新补到的 `GRSU` 说明,还有一条更贴近多轮会话推荐本身的公开路线:simulated user 不只是负责评测或提供 turn-level dissatisfaction,它会同时给出 coarse-grained item scoring 与 fine-grained attribute critique,并被直接接进 beam search 过程。这意味着 Story Lab 还要再记一列 `feedback granularity / search consumer`。
Interplay:对话推荐 simulator 开始摆脱 target-aware 剧本
补完 `CSHI / RecUserSim / GRSU / RecoWorld` 后,Story Lab 已能从 `controllability / protocolized evaluation / search consumer` 去拆 simulator。但新论文 `Interplay` 又把更前面的一个结构性偏差单独抬了出来:很多 `CRS` simulator 从一开始就拿着 target item 演戏,因此再自然的对话也仍是 `oracle-guided role-play`。它把 user / recommender 拆成两个独立模型,只给 user `target attributes`、不给双方 `target item`,让推荐通过真实多轮对话自然浮现。这意味着 simulator 表还要再补一列 `target exposure / oracle knowledge`。
Persona4Rec:推荐里的 reasoning,不一定非要在线重排,也可以先离线长成 item-side persona 索引
补完 `OxygenREC / AdNanny / GLIDE / profile constructor` 这些线后,站里已经能看到 slow-fast serving、offline backbone、soft prompt carrier 等多种 handoff。但 `Persona4Rec` 说明还有一种很实用的系统位:`LLM` 不一定在线读历史、在线比候选,它也可以先把 item reviews 推理成 `persona-profiled item index`,再把线上推理压回轻量 `user-persona` 相似度匹配。Story Lab 后续要补 `reasoning timing / materialized carrier / online consumer / explanation contract / cold-start fallback`。
对话推荐的 RL 外围,已经长出 knowledge、planner、experience 三层脚手架
新补到的 `ChatCRS / SAPIENT / CRAVE` 说明,对话推荐里的公开增量不只是在 `Rank-GRPO` 这类对齐层上做文章。更早、也更系统的一条变化,是把 `knowledge grounding`、`planning interface` 和 `experience memory` 从大而化之的 agent 叙事里单独拆出来。
推荐里的 RL 还可以先学兴趣查询:跨域行为 -> query list -> 在线召回学生
新论文 `Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation` 说明,`LLM-RL` 不一定直接优化 item ranking,也不一定只做 profile 或 verbalization。它可以先把跨域用户行为压成一组可直接执行检索的 `interest-driven news search queries`,再通过 on-policy distillation 把高计算 teacher 策略移交给低延迟 student 上线。这意味着 Story Lab 还要补一层 `interest query constructor / retrieval interface`。
LAAC:推荐里的多样性 RL,开始把 LLM 用成 novelty proposer
补完 `RISER / V-STAR / FlexRec / CoNRec` 之后,站里已经把推荐里的 `RL` 看成 reward 改写、reasoning control、目标切换或负反馈过滤,但 `LAAC` 说明还有一条更早却没单独成层的路线:`LLM` 不一定自己当最终 policy,它也可以先当 `novel-action proposer`,再由轻量 actor-critic 用系统内数据去校准、接地和超越。这意味着 Story Lab 还要补一列 `exploration prior / proposal owner`。
OneSearch:电商生成式搜索开始把 MCA 三段冲突压成同一个 stack
补完 `OneRec / GR4AD / OneMall` 后,站里已经把快手公开 generative 路线写到了推荐、广告和电商 family,但搜索这一格还没单独落出来。`OneSearch` 说明,电商搜索里的关键矛盾不只是 reward 或 beam,而是传统 `MCA` 的 recall / pre-ranking / ranking 三段本身就在互相打架;而生成式系统的真实工业形态也不是“直接删掉 ranking”,而是 `generator first + reward-model selector`。这意味着 Story Lab 还要补一列 `cascade replacement regime`。
GR2:推荐里的 LLM-RL,开始单独长成重排层
补完 `DPO4Rec / FlexRec / R2Rank` 之后,很容易继续把推荐里的 reranking 理解成:离线偏好对齐、closed-set 目标切换,或者 listwise 奖励的 item-level 拆解。但 `Generative Reasoning Re-ranker (GR2)` 说明,还有一条更明确的新路线:把 `semantic ID -> teacher reasoning -> DAPO` 专门压到 re-ranking stage,让 `LLM-RL` 不再默认从端到端生成器往下游扩散,而是单独长成 `paper-first rerank-stage specialist`。这意味着 Story Lab 还要在 `集成层` 里补一类 `closed-set reranker / rerank-stage specialist`。
iALP:推荐里的 LLM-RL,开始把 offline-to-online handoff 单独做成一层
补完 `LAAC / RecZero / DeepRec` 之后,站里已经把 `LLM` 在推荐 RL 里的 proposal、bootstrap 和 tool-use 写得更细,但“离线蒸出来的策略怎样平稳接到线上环境”还没单独成层。`iALP / A-iALP` 说明,`LLM` 不只可以提供探索先验或 reasoning scaffold,还可以先当 cold-start preference distiller,给在线 actor-critic 一个不那么伤用户的起点,并通过 `frozen bootstrap + scheduled takeover` 处理 distribution shift。这意味着 Story Lab 还要新增一列 `offline-to-online handoff / policy takeover regime`。
IL-Rec:推荐里的 LLM-RL,也可以先让大模型退到 demonstration teacher
补完 `LAAC / iALP / RecThinker / DeepRec` 之后,站里已经把 `LLM` 当成探索先验、离线偏好蒸馏器、在线推理器和 tool-use policy 看得更细,但还有一条未单独成层的公开路线:`LLM` 不一定自己下场当推荐 policy,也可以先产出带反思、规划和价值判断的 demonstration,再交给离线 `RL` 策略通过 `inverse RL + weighted imitation` 吸收。这意味着 Story Lab 还要补一列 `LLM teacher retention / demonstration consumer`。
BiLLP:推荐里的 LLM-RL,早就开始把大模型放成长期规划器
补完 `LAAC / iALP / IL-Rec` 之后,站里已经把 `LLM` 在推荐 RL 里的 proposal、bootstrap 和 teacher 角色拆得更细,但还有一条更早且尚未单独成层的公开路线:`LLM` 不一定直接出 item,也不一定退场成离线 teacher,它可以先在 loop 里产出面向长期 engagement 的 `macro guidance`,再由 actor-critic 把它落成可执行的微观推荐策略。`BiLLP` 说明 Story Lab 还要补一列 `plan grounding split / planning abstraction level`。
RecPilot:推荐系统开始把最终输出从 item list 改成 decision-support report
补完 `DeepRec / RecThinker / ChatCRS / OneSearch` 之后,站里已经把推荐里的 `LLM-RL` 看成 reasoning loop、tool-use scaffold、search-credit coupling 或 industrial serving controller,但 `Deep Research for Recommender Systems` 说明,还有一条更激进的新路线:推荐系统不只替用户排序 item,还开始替用户完成探索、比较与综合,最终输出从 list 变成 report。这意味着 Story Lab 还要新增 `interaction interface / final output carrier / user-effort offloading` 这一层。
LERL:推荐里的 LLM-RL,也可以先让大模型规划类目,再让 RL 选 item
补完 `BiLLP / LAAC / iALP / IL-Rec` 之后,站里已经把推荐里的 planner、proposal、bootstrap 和 teacher 角色拆得更细,但还有一类更贴近 interactive recommendation 的公开路线尚未单独成层:`LLM` 不一定产出抽象 guidance,也不一定直接生成 item,它可以在每一步先输出可执行的 `semantic category plan`,把低层 `RL` 的 item 空间直接缩窄。`LERL` 说明 `plan grounding split` 至少还要再细分出 `semantic planner -> constrained item policy`。
UGR:推荐里的偏好优化,开始把 uncertainty blindness 与 confidence interface 单独做成一层
补完 `FlexRec / DiffuReason / RecPilot` 之后,很容易继续把推荐里的 uncertainty 只理解成 critic 置信度、latent reasoning 噪声,或 report 侧的风险控制。但 `Uncertainty-aware Generative Recommendation` 说明,还有一条此前站里没单独成层的新路线:生成式推荐的 preference optimization 本身也会出现 `uncertainty blindness`,而且置信度不只该做训练权重,还可以长成显式可消费的 serving 接口。这意味着 Story Lab 还要补一列 `uncertainty treatment / confidence interface`。
DeepInterestGR:推荐里的 RL,开始把 deep interest 变成 SID 上游接口
补完 `profile text / verbalized context / retrieval-ready query list` 之后,很容易继续把推荐里的上游语言接口只理解成“可读文本”或“可执行查询”。但 `DeepInterestGR` 说明,还有一类更贴近生成式推荐底盘的新 carrier:先用多模型、多模态 `LLM` 挖 deep interest,再做奖励标注和 `RQ-VAE` 量化,最终把兴趣语义压成 `SID-ready` 接口。这意味着 Story Lab 还要补一层 `interest constructor / tokenization interface`。
Quantized Inference for OneRec-V2:生成式推荐开始直接吃 LLM 量化栈
补完 `OneRec / OneRec-V2 / OpenOneRec / GR4AD / OneSearch` 后,站里已经把快手公开主线写到了生成式推荐、真实反馈 RL 和 serving-time controller,但最新论文 `Quantized Inference for OneRec-V2` 说明,还有一个很关键的部署拐点此前没被单独记出来:当推荐模型在结构、训练范式和计算形态上越来越像 `LLM`,它就不只是在方法层借鉴 `LLM`,也开始在推理系统层直接吃 `FP8 + TensorRT + fused kernels` 这整套 `LLM inference stack`。
GPR:广告生成式推荐开始把未来请求预演和层级奖励训进同一个 one-model
补完 `GR4AD` 和 `OneSearch` 后,站里已经看到了广告/搜索里的 value-aware RL、beam controller 和 reward-model selector,但 `GPR` 说明工业广告线又往前走了一步:不是只把 `RL` 和 serving 绑在一起,而是把 `user understanding -> thinking/refining -> eCPM valuation -> future request rehearsal` 压进同一个 `one-model`。这意味着 Story Lab 还要补一列 `request-state adaptation regime`。
RoleGen:推荐里的 item 不只看即时价值,还开始看它在转化轨迹里的触发作用
补完 `BiLLP / LERL / CoNRec / OneMall / GPR / AdNanny` 之后,站里已经能分别看到长期规划、负反馈过滤、电商多场景 family 和广告 one-model,但还缺一层更贴近转化链路的判断:一个 item 的价值不只体现在“这一跳会不会点/买”,还体现在它会不会把用户推进下一步意图。`RoleGen` 说明,针对 dormant user,推荐系统开始显式建模 `instrumental effect / functional role trajectory`,并让 LLM reasoner 与 generative backbone 通过 `Reasoning-Execution-Feedback-Reflection` 闭环协同。
SAGE:生成式推荐的 RL,不只在修 reward,也在改写 action space
补完 `OneRec-V2 / OpenOneRec / DeepInterestGR / GR2` 后,站里已经开始分辨 tokenization、interest carrier 和 rerank-stage specialist,但新论文 `SAGE` 说明还缺一层更靠近 policy 本体的观察位:推荐里的 `RL` 不只在修 reward 或 clipping,它还在逼着系统重新回答“item 到底该以 `Semantic-ID` 还是 `native vocabulary` 进入 action space”。这意味着 Story Lab 还要新增 `action-space regime / vocabulary burden`。
AdNanny:广告里的 LLM-RL,不一定上线上,它也可以先统一离线任务底座
补完 `GR4AD`、`GPR` 和 `OneSearch` 后,站里已经能看到广告/搜索工业路线里的 `online generator`、`serving-time controller` 和 `future request rehearsal`,但 `AdNanny` 说明另一种同样关键的系统位置也已经公开了:`LLM-RL` 不一定非得进线上 serving path,它也可以先退到离线广告任务底座,把 `query-ad relevance`、`ad-user relevance`、`keyword generation` 和 `user profile generation` 统一成一个 reasoning backbone。这意味着 Story Lab 还要补一列 `offline task substrate / downstream consumer`。
GFlowGR:生成式推荐后训练,开始把 reward 分发到 token-level 轨迹
补完 `DPO4Rec / R2Rank / UGR / SAGE` 之后,站里已经能区分 pairwise 对齐、group-wise 相对优势、listwise surrogate 和 action-space 设计,但 `GFlowGR` 说明推荐里的后训练还缺一类更底层的目标:不是只在最终 item 上做 outcome reward,而是把 item set 重写成 generation trajectories,再用 `GFlowNet` 让 token-level 概率直接按终点价值流动。这意味着 Story Lab 还要补一列 `trajectory credit regime / probability-reward coupling objective`。
PersonaAct:推荐里的 simulator,不只服务训练和评测,也开始被拿去做反事实审计
补完 `iEvaLM / RecUserSim / RecoWorld / Interplay / LERL` 之后,站里已经能分辨 simulator 的校准、环境、reference-free 对话和 filter-bubble mitigation,但 `PersonaAct` 说明还缺一层新的 consumer:短视频推荐里的 persona-conditioned multimodal agent,不只是拿来生成反馈或跑离线评测,也开始被拿去做 `counterfactual filter-bubble auditing`。这意味着 Story Lab 还要新增 `audit objective / bubble metric / counterfactual protocol` 这一层。
OxygenREC:生成式推荐开始把慢思考放到近线,把快执行留给统一在线模型
补完 `OneMall / OneSearch / From Logs to Language / GFlowGR` 之后,站里已经能看到 scenario family、logs-to-language、token-level credit 等多条分叉,但 `OxygenREC` 又补出一个新的工业主矛盾:不是把大模型硬塞进在线推荐环,而是让近线 `LLM` 专门供应 reasoning instructions,再让统一的快模型负责多场景实时执行和 `RL` 对齐。这意味着 Story Lab 还要补一列 `reasoning supplier / executor split`。
AIGQ:生成式推荐开始把最终交付物从 item list 扩到 query list
`AIGQ` 把淘宝 HintQ 场景写成 `query recommendation` 的端到端生成问题,而且不再是单一路径上线:`AIGQ-Direct` 走近线 `u2q` 缓存,`AIGQ-Think` 则把 reasoning 蒸成实时 `x2q` 触发索引。这条线逼着 Story Lab 在 `item list / dialogue / report` 之外,再补一种 `query list` 终态接口,并显式记录 `nearline cache + realtime trigger` 的混合部署。
GenFacet:生成式推荐开始把 facet slate 做成检索控制接口
`GenFacet` 不是给旧式 faceted search 套一层 LLM 壳,而是把 `facet generation -> facet click -> query rewriting -> retrieval` 压成同一个闭环,并用 `GRPO` 直接对齐下游搜索满意度。这逼着 Story Lab 在 `query list / item list / report` 之外,再补一种 `facet slate` 式交互控制接口。
S-GRec:LLM 可以只做训练期语义裁判,让业务 reward 继续锚定在线生成器
补完 `GR4AD / AdNanny / judge` 这些路线后,站里已经能区分 `online generator`、`offline task backbone` 和 `offline evaluator`,但 `S-GRec` 又补出一个此前没单独立起来的位置:`LLM` 不必常驻线上,也不必只做离线评测,它可以退到训练期担任个性化语义裁判,再由 `A2PO` 只在语义优势和业务优势同向时注入监督。这意味着 Story Lab 还要补 `train-time semantic judge / reward conflict handling / semantic sampling ratio`。
DRPO:离线生成式推荐先要学会硬过滤,才能摆脱重尾脏日志
站里已经写过 `AWR / AsymRe / OneRec-V2 / S-GRec` 这些 reward、weighting 和 judge 路线,但 `DRPO` 又补出一个此前没单独成层的问题:离线 generative recommendation 的主矛盾不只在 `advantage` 怎么剪、reward 怎么配,还在 `heavy-tailed noisy logs` 里怎样先筛出可学信号。论文把 `hard filtering` 证明成 optimistic `DRO` 的精确解,并用 `RecSim` 的 `medium quality / extreme noisy` 两种工业模拟说明,软加权会继续 `noise cloning`。这意味着 Story Lab 还要补 `off-policy data regime / hard-filtering regime / offline-to-online safety gate`。
Why Thinking Hurts:在 Semantic ID 推荐里,显式思维链可能先把证据冲淡
站里已经写过 `OneRec-Think / PROMISE / VRec / GR2 / R2Rank` 这些 reasoning 路线,很容易继续默认“推荐里显式思维链越多越好”。但 `Why Thinking Hurts?` 给了一个关键反例:在 `OpenOneRec` 这类 `Semantic ID` foundation recommender 上,free-form `CoT` 本身会把推理过程拉向通用文本子空间,稀释 `SID` 证据,导致 `Think-On` 比 `Think-Off` 更差。论文进一步提出无需重训的 `Inference-Time Subspace Alignment`,只在推理时做 `reasoning-chain compression + bias-subtracted contrastive decoding` 就能把性能拉回去。这意味着 Story Lab 还要补 `reasoning drift / subspace alignment / inference-time calibration` 三列。
GLIDE:Spotify 把生成检索拆成短期 SID 上下文和长期 soft prompt
补完 `UserIP-Tuning / PURE / TETUP / DeepInterestGR / OxygenREC / Why Thinking Hurts` 之后,站里已经能看到 latent profile、maintenance loop、双时域画像、SID-ready interest、near-line reasoning supplier 和 Semantic ID drift,但还有一层部署位一直没被单独记清:在线 generative recommender 里,短期状态和长期稳定偏好未必应该走同一种 carrier。Spotify 的 `GLIDE` 说明,在严格 latency 约束下,可以把 `recent SID history` 作为短期上下文,把 `dense long-term user embedding` 压成单个 soft prompt token,再用 `familiar / unfamiliar` 控制 token 显式切换 discovery horizon。
小红书搜索:生成式相关性开始走 `reasoning teacher -> 轻量 ranker` 交接
补完 `AIGQ / OxygenREC / S-GRec` 后,站里已经能分辨 `query list`、`slow-fast split` 与 `train-time semantic judge`,但小红书搜索这篇 KDD 2026 论文又补出一个此前没单独成层的位置:业务相关性规则先被写进三步 reasoning prompt,再用 `SAM + GRPO` 内化到 `RedOne` teacher,最后只把最终相关性分数蒸馏给 `0.1B` BERT student 做线上排序。这意味着 Story Lab 还要补 `criteria carrier / reasoning-teacher handoff / deployment asymmetry`。
Shopping Companion:长期购物记忆开始从上游检索变成 `Stage-1 preference grounding`
阿里这篇 2026-03 新论文把电商 LLM agent 的长期偏好记忆从“先检索、再交给下游”推进成两阶段策略里的第一阶段任务:先用 memory tools 做可确认的 preference grounding,再用 product tools 做 shopping assistance,并通过 dual-reward RL + tool-wise reward 联合优化。它补出的不是又一个电商 benchmark,而是 `memory retrieval -> user confirmation -> task execution` 这条可训练 handoff。
ROS:地理约束开始从辅助特征变成推荐推理里的硬判据
这条阿里地图 / 西交新路线把 geography 从 `prompt` 附件和 feature fusion 推进成推理过程里的第一类决策变量:先用分层 `Spatial SID` 表示 locality,再用三阶段 `Mobility CoT` 做候选构造与 locality pruning,最后用 `spatial-guided RL` 把距离可行性、SID 正确性与格式约束联合对齐。它补出的不是又一个 `POI` baseline,而是 `spatial grounding / feasibility filter / geography-as-decision-variable` 这层系统位。
LatentR3:推荐里的 reasoning,也可以退回 hidden-space 再用 RL 训练
站里已经写过 `OneRec-Think / PROMISE / DiffuReason / Why Thinking Hurts` 这些 reasoning 路线,很容易继续默认:推荐里的推理要么显式写成 `CoT`,要么再加 verifier、calibration 或 search controller 去修。但 `LatentR3` 说明,还有一条更贴近部署的新路线:先用额外 attention 层生成极少量 latent reasoning token,再用改写过的 `GRPO` 直接在 hidden-space 优化 reasoning,不需要任何 CoT 数据,推理时几乎也不增加延迟。这意味着 Story Lab 还要补一列 `reasoning carrier visibility / hidden-vs-explicit interface`。
OSPO:推荐里的 credit,不只分给 token,还能先在语义联盟里结算
补完 `Rank-GRPO / GFlowGR / SAGE / R2Rank / GRC` 之后,站里已经看到推荐 `RL` 会按 `rank / token flow / sequence / candidate` 等不同颗粒度回传奖励。但 `OSPO` 说明,还有一条更细的新路线:先把响应切成语义片段,再让这些片段按连续 coalition 结盟,用 Owen-Shapley 边际贡献把 sequence reward 重分配回 token。这意味着 Story Lab 还要新增一列 `credit partition regime`,否则很多方法都会被粗写成“只是另一种 GRPO”。
RAIE:偏好漂移不只更新画像,也可以在模型内部按区域做 LoRA 编辑
补完 `PURE / TETUP / GLIDE / Shopping Companion` 这些长期偏好与记忆载体路线之后,很容易继续默认:推荐系统里的偏好更新,主要发生在 `profile / memory / prompt context` 这些外显 carrier 上。但 `RAIE` 说明还有另一条此前站里没单独记开的路线:漂移也可以被局部化到模型内部的 `knowledge region`,再用按区域路由的 LoRA adapter 做增量编辑。这意味着 Story Lab 还要补一组新的观察位:`drift handling locus / update granularity / router owner / forgetting control`。
MemGen-GR:生成式推荐的“泛化”,很多时候只是 token 记忆重组
站里已经把 `Semantic ID / action space / reasoning drift / carrier split` 补得很细,但生成式推荐为什么整体更强,过去仍容易被一句“泛化更好”糊过去。`MemGen-GR` 把这个说法拆开:`TIGER` 的确在 generalization 子集持续强于 `SASRec`,但很多所谓 item-level generalization 其实会还原成 prefix token memorization;更密的 SID codebook 还能同时提升 generalization、牺牲 memorization,最后再用 memorization-aware ensemble 把两类范式重新拼起来。这意味着 Story Lab 还要补 `generalization locus / token memorization ratio / memorization dilution / ensemble handoff`。
IB-GRPO:多目标推荐开始不先把 reward 压成一个标量
补完 `FlexRec / UGR / OSPO` 后,站里已经能写清 need-conditioned target、uncertainty weighting 和 coalition credit,但 `IB-GRPO` 又补出一个此前没单独成层的位置:在长程 learning path recommendation 里,多目标 reward 不一定先手工压成一个 scalar,再交给 `RL`;它也可以直接用 dominance indicator 在组内比较 Pareto 优势。`GA + teacher RL` 的 hybrid expert warm-start、within-session `ZPD` 对齐和 `I_{epsilon+}` group-relative advantage 说明 Story Lab 还要补 `objective aggregation / Pareto regime` 这列。
APAO:生成式推荐得先学会让正确前缀活过 beam pruning
补完 `V-STAR / PROMISE / MemGen-GR` 之后,站里已经知道 beam search 会改写 reward 可见性、test-time controller 和 prefix 支撑,但还没把“训练目标是否真的在教模型活过前缀剪枝”单独记成一层。`APAO` 把问题写得很清楚:`CE` 优化允许后续 token 补偿,beam search 却要求每一步 prefix 都留在 `Top-K`。这意味着 Story Lab 还要新增 `training-inference consistency locus / prefix survival objective / search-time pruning regime`。
EGLR:推荐里的 latent reasoning,开始按熵在重排过程中动态插入
补完 `GR2 / LatentR3 / DiffuReason` 后,站里已经能区分 rerank specialist、hidden-space reasoning 和 probabilistic refinement,但 `EGLR` 又补出一个此前没单独成层的位置:reasoning 不一定固定前置,也可以在 generative re-ranking 的中途按候选熵 `H_k` 动态触发,再用 `context-aware reasoning token + temperature split + GRPO` 只在高难阶段加思考。这意味着 Story Lab 还要补 `reasoning trigger regime / reasoning schedule / difficulty-adaptive budget`。
R²ec:reasoning 和 item prediction 开始共用同一条 policy update
补完 `RecZero / UGR / LatentR3 / Why Thinking Hurts` 后,站里已经能区分 reasoning bootstrap、uncertainty weighting、latent carrier 和 semantic drift,但还没把“reasoning 与推荐头是否属于同一个 owner”单独记成一层。`R²ec` 把 `lm_head + rec_head` 压进同一模型,并用只依赖 recommendation label 的 `RecPO` 联合更新 reasoning 轨迹与 item prediction。这意味着 Story Lab 还要补 `reasoning-recommendation ownership / answer-head switch / unified policy-update locus`。
SafeCRS:对话推荐的 RL,开始显式对齐个体安全边界
补完 `ChatCRS / SAPIENT / CRAVE / GRSU / RecoWorld` 后,站里已经把对话推荐里的 knowledge grounding、planning、history carrier 和 simulated feedback 拆得更细,但 `alignment layer` 还常被粗写成“提高满意度”。`SafeCRS` 说明,在 `LLM-based CRS` 里,`RL` 也可以先不追更会聊,而是显式约束用户的 trauma trigger、恐惧、成瘾回避等个体安全边界,并用 `Safe-SFT + Safe-GDPO` 在 relevance 与安全之间做 rank-wise 对齐。这意味着 Story Lab 还要新增 `personalized safety constraint / safety oracle / reward sparsity balance`。
GRPO:推荐里的对齐目标,开始前移到信息一致性
补完 `RPP / FlexRec / UGR / IB-GRPO / SafeCRS` 后,站里已经能区分 prompt policy、need-conditioned target、多目标聚合、uncertainty weighting 与 safety alignment,但还没把“语义等价提示是否稳定输出同一份信息”单独记成一类 objective。`Information-Consistent Language Model Recommendations through Group Relative Policy Optimization` 把 semantically equivalent prompt variants 当成同一 `GRPO` group,用 entropy-based `helpfulness + stability` reward 直接压信息方差。这意味着 Story Lab 还要补 `equivalence group owner / invariance objective / context reset regime / personalization-consistency boundary`。
SearchLLM:开放式搜索对齐开始长出 `先守底线、再谈效用` 的奖励契约
RedNote 这篇 2026-03 论文把 generative search 的 RL 奖励从“多目标加权”推进成了两层治理契约:先用 factual grounding、safety、format 这些 bottom-line constraints 设 gate,再在 safe region 内优化 noisy evidence robustness 与 user-need alignment。它补出的不是又一个 search LLM,而是 `reward governance contract / gate-before-utility / evidence-conditioned reward owner`。
Echoes in the Loop:LLM 推荐开始需要 role-aware 的反馈回路风险诊断
补完 `policy / reasoner / representer / explainer / simulator` 这些角色线后,站里很容易继续只按单轮离线指标理解 LLM 推荐。但 `Echoes in the Loop` 和官方 `EchoTrace` 说明,真正缺的一层是 `role-aware feedback-loop diagnostics`:偏差、幻觉和排序失真会沿着内容生成、推荐输出、再训练数据这三相回路持续累积。这意味着 Story Lab 还要补 `risk surface / feedback-cycle metric / ecosystem-level effect`。
Self-Evolving Recommendation System:LLM 开始接管推荐器的外层演化循环
站里之前主要在看 `LLM` 怎样直接做推荐、做推理、做 reward、做 judge。但 `Self-Evolving Recommendation System` 说明,工业里已经出现一条更靠外的路线:`LLM` 不再只优化推荐 policy,而是扮演 `MLE agent`,在 `offline proxy inner loop + online north-star outer loop` 里持续改 optimizer、architecture 与 reward。Story Lab 后续还要补 `change owner / validation horizon / experiment memory / human override slot`。
AgenticRec:推荐 agent 开始把工具轨迹并进 ranking policy
补完 `RecMind / InteRecAgent / DeepRec / RecThinker / R²ec` 之后,站里很容易继续把推荐里的工具调用理解成推理脚手架或检索外挂。但 `AgenticRec` 说明,公开世界已经更进一步:工具调用不再只是 prompt 习惯,而开始和中间推理、最终 `top-K` 列表一起,被同一个 list-wise ranking reward 端到端更新。第二阶段 `PPR` 还会把自己的排序失误挖成 hard negatives 继续细化偏好边界。Story Lab 后续要补 `tool policy locus / evidence owner / trajectory optimization scope / hard-pair self-bootstrapping / tool-budget stability`。
RecNet:偏好传播开始长出 router owner 与文本化反向优化
补完 `AgenticRec / DeepRec / RecThinker / Self-Evolving Recommendation System` 之后,站里已经能分出 `tool-integrated policy`、`reasoning-retrieval loop` 与 `outer-loop MLE agent`。但 `RecNet` 又补出一个不同系统位:推荐 agent 不只在当前请求里推理和调工具,还开始把用户与 item 的最新偏好改写成可传播、可路由、可被反馈反向更新的网络状态。它把 forward `router-mediated preference propagation` 和 backward `textual reward + textual gradient` 接成闭环,逼着 Story Lab 新增 `preference propagation owner / routing table carrier / reception filter memory / textual backprop locus / async optimization boundary`。
CreAgent:推荐系统长期评测开始显式引入创作者 simulator
补完 `SUBER / Lusifer / GRSU / RecoWorld / Echoes in the Loop` 之后,站里已经把用户 simulator、环境层、反馈回路风险诊断拆得比较细。但 `CreAgent` 说明,长期评测里还有一个此前没单独落盘的 actor:被推荐系统影响的内容创作者。它把 creator behavior 建成 `LLM + belief + fast/slow thinking + PPO` 的模拟代理,并明确把平台-创作者信息不对称写成环境前提。这意味着 Story Lab 后续还要补 `simulated actor / information boundary / creator-side reward consumer / ecosystem metric`。
TriRec:推荐 agent 不再只围绕用户,item 开始为自己争取曝光
补完 `AgenticRec / RecNet / CreAgent` 之后,站里已经能分别写 user-side tool policy、router-mediated preference propagation 和 creator-side simulator,但 `item` 仍常被默认成被排序的静态对象。`TriRec` 说明公开世界已经把 item 推成显式 stakeholder:Stage 1 让 item agent 做 user-conditioned `self-promotion`,Stage 2 再由 platform agent 以 `exposure` 为状态做多目标 sequential re-ranking,联动 user relevance、item utility 与 platform fairness。Story Lab 后续要补 `stakeholder owner / item-side advocacy / platform fairness controller / exposure-control state / tri-party utility contract`。
From Token to Item:推荐里的 attention 基本单位开始从 token 改回 item
补完 `OpenOneRec / SAGE / DeepInterestGR / Why Thinking Hurts / MemGen-GR` 之后,站里已经开始区分 `tokenization`、`action space` 和 `semantic ID drift`。但 `From Token to Item` 又补出一个更靠近 backbone 的缺口:就算 item 已经被编码成 token,标准 attention 仍然只在 token 间平均分配建模预算,协同信息并没有天然被 item-level 消费。`IAM` 通过 `intra-item -> inter-item` 两层 attention,把 item 重新拉回推荐里的基本建模单位。Story Lab 后续要补 `attention unit / relation split / collaboration consumption locus / item boundary enforcement`。
GEM-Rec:生成式推荐开始把广告开槽和出价调制写进同一条解码链
补完 `TriRec / SearchLLM` 之后,站里已经能写 stakeholder owner 和 reward contract,但 `organic recommendation` 与 `sponsored auction` 仍常被默认成两套后接系统。`GEM-Rec` 说明公开世界已经开始把 `<ORG>/<AD>` 控制 token、广告开槽决策和实时 bid modulation 写进同一条 semantic ID 解码链,并用推理时 `λ` 显式控制 `ad rate / revenue / organic integrity`。Story Lab 后续要补 `market split owner / slot-opening policy / bid-modulation locus / organic-integrity contract / monetization steering knob`。
ISRF:生成式推荐开始把 group interest reasoning 单独做成一层
补完 `deep interest / profile text / preference propagation` 这些上游语义线后,很容易继续把用户兴趣理解成“个体历史的另一种表达”。但 `ISRF` 说明,公开世界已经开始显式建模从 `individual explicit interest` 到 `group implicit interest` 的推理桥:先做 item-level semantic reasoning,再构造 similar-user graph,最后用 iterative refinement 在两层兴趣之间来回耦合。Story Lab 后续还要补 `interest scope / similarity owner / explicit-implicit bridge / semantic graph carrier / iterative coupling locus`。
SaFRO:短视频搜索的多任务融合开始被写成满意度 policy
补完 `SearchLLM / 小红书搜索 relevance teacher / S-GRec / IB-GRPO` 之后,站里已经能写 reward governance、teacher-student handoff、train-time semantic judge 和 objective aggregation。但 `SaFRO` 说明公开世界还有一个更靠近排序栈内部的 consumer:`CTR / long-play / duration / relevance` 这些预测头的融合器,不再只是静态加权器,而开始被 `query-level satisfaction` 与 `DRPO` 训练成真正的 fusion policy。Story Lab 后续要补 `fusion policy locus / satisfaction constructor / query-level retention proxy / batch-quality modulation / task-relation topology`。
Shielded RecRL:推荐里的 RL 开始单独训练解释塔,而不是再动 ranker
补完 `RecExplainer / HF4Rec / RecPilot` 之后,站里很容易继续把 explainer 理解成 surrogate 分析器、report generator 或 simulated-feedback 场景。但 `Shielded RecRL` 说明,公开世界已经出现另一条更直接的 RL consumer:排序塔完全冻结,只让 explanation tower 用 `PPO + KL` 学会写更有点击价值的个性化理由。它把 `explainer-policy owner / ranking-isolation contract / explanation reward constructor / engagement proxy` 这几列正式补了出来。
RecLLM-R1:推荐里的 RL 开始吞并业务策略层
补完 `SearchLLM / SaFRO / AgenticRec / Shielded RecRL` 之后,站里已经能看到 reward governance、fusion policy、tool policy 和 explanation policy 这些较新的 consumer。但 `RecLLM-R1` 提醒我,这条线里还有一个更早、也更容易被忽略的系统位:`RL` 不只是在调排序器或 reasoning,它还可能直接试图把外部业务策略层吞回同一个推荐 policy。更关键的是,论文口头上讲的是 `CTR / CVR / diversity / new-content / retention` 的统一优化,公开实现细节却主要停在 `position-weighted LCS + VeRL default rewards`,这逼着 Story Lab 后续补 `policy-model coupling locus / business-policy parameterization / public reward concrete level / offline-online strategy boundary`。
NEO:统一搜索、推荐和推理,不一定要靠工具编排
补完 `GLIDE / AgenticRec / SearchLLM / OneSearch` 之后,站里已经能写 semantic ID、tool policy、reward governance 和统一搜索推荐栈。但 Spotify 新出的 `NEO` 又补出一个此前没被单独记成层的位置:统一 discovery 不一定要靠 tool orchestration,也可以把 `typed item identifiers + constrained decoding + natural-language steering` 压进同一个自包含生成模型。Story Lab 后续要补 `tool-free unification / typed entity addressing / catalog-grounding contract / language-steerability / staged alignment boundary`。
PolicySim:推荐与曝光策略开始在部署前先过社会沙箱
补完 `Echoes / RecoWorld / CreAgent` 之后,站里已经能写反馈回路风险、agentic environment 和 creator-side 长期评测。但 `PolicySim` 说明,公开世界开始把推荐与曝光策略的优化时点前移到部署前:不是等上线后再看 `A/B`,而是先用 `SFT + DPO` 训练 social user agents,再让 `contextual bandit + message passing` 在沙箱里直接优化 intervention policy。Story Lab 后续要补 `pre-deployment validator / intervention-policy owner / ecosystem objective / policy-feedback carrier / micro-macro realism contract`。
BiasRecBench:推荐 agent 的脆弱面,先暴露在单轮 selection
补完 `Echoes / PolicySim / Shielded RecRL` 之后,站里已经能写反馈回路、部署前沙箱和解释层隔离。但 `BiasRecBench` 说明,更近的一层风险其实在单轮严格选择:当 `LLM` 以 recommender agent 身份必须从候选池里选出一个答案时,只要质量差距被刻意压窄,`authority / bandwagon / marketing / brand` 这类上下文偏见就足以劫持选择。Story Lab 后续要补 `selection robustness / quality-margin calibration / bias channel / mitigation owner / alignment attack surface`。
DALI:群组推荐开始先判谁主导,再决定怎么聚合
补完 `ISRF / PolicySim / BiasRecBench` 之后,站里已经能写 group interest、platform sandbox 和 selection robustness。但 `DALI` 说明群组推荐还有一个更前置的系统位:系统不该默认所有群体都按同一种 attention 聚合,而要先判定这是 `leader-dominated` 还是 `collaborative` 群体,再切换后续聚合路径。`LLM` 在这里不直接做推荐器,而是扮演 `rule governance expert + rule evolution engine`,持续修订 leadership discrimination rules。Story Lab 后续要补 `group-mode discriminator / leadership owner / aggregation regime split / rule-evolution loop / power-structure observability`。
AgentDrift:ranking 指标稳定,不代表推荐 agent 没被受污染工具带偏
补完 `AgenticRec / BiasRecBench / Echoes / PolicySim` 这些线之后,站里还缺一层更贴近 tool-augmented recommender agent 的风险位:很多系统默认工具返回的证据是可信的,评测也主要看 `NDCG / ranking quality`。但 `AgentDrift` 说明,公开世界已经出现一种更危险的失真:即使 utility 几乎不掉,agent 仍会在 `65%-93%` 的轮次里推荐风险不合适的对象,而且 `23` 步轨迹里几乎不会自我质疑工具可靠性。Story Lab 后续要补 `tool-integrity assumption / evaluation blindness / contamination channel / self-skepticism rate / trajectory-level safety monitor`。
USB-Rec:user simulator 开始同时承担 RL 偏好构造器和 test-time 内部裁判
站里此前已经写过 `iEvaLM / SUBER / GRSU / RecoWorld / Interplay` 这些 simulator 路线,但 `USB-Rec` 把一个更具体的新角色做实了:simulator 不只评测、不只当环境,也不只提供搜索反馈;它开始在训练期直接制造 `RL` 偏好对,在推理期又回到系统内部充当 `SES` 的打分裁判。这逼着 Story Lab 再补 `preference-constructor locus / train-time vs inference-time simulator consumer / internal search onset / potential acquisition vs release`。
TagLLM:note 推荐开始把多模态 CoT 压成可解释标签接口
站里已经写过 `semantic ID / tokenization / item-aware attention / multimodal reasoning carrier`,但 `TagLLM` 补出一个此前没单独写开的系统位:`MLLM` 不一定只负责产 latent embedding,也可以先被 `User Interest Handbook` 约束,再把多模态 CoT 蒸成可部署的 fine-grained tags,最终以 `user profile + tag embedding` 两种形态进入推荐塔。Story Lab 后续要补 `interest-guidance owner / tag-interface granularity / generation-to-serving bridge / judge-alignment contract / cold-start leverage`。
RSO:对话推荐开始把“怎么聊”拆成可学习的策略规划器
补完 `SAPIENT / ECPO / Rank-GRPO / USB-Rec` 之后,站里已经能看到 planning、turn-level 对齐、rank-level RL 和 simulator judge,但 `RSO` 又补出一个更明确的系统位:对话推荐里的交互策略不必继续藏在统一 prompt 里,而可以被拆成 `macro-level planner + micro-level actor`,再只让 Planner 吃 `entropy-regularized RL`。Story Lab 后续要补 `strategy owner / macro-micro split / planner-only optimization contract / strategy-collapse control`。
S²GR:latent reasoning 开始给每级 SID 配可监督语义锚点
补完 `Why Thinking Hurts / PROMISE / GR2 / DeepInterestGR` 之后,站里已经能分出 `reasoning drift`、`test-time search control`、`rerank-stage reasoning` 和 `SID-ready interest carrier`。但 `S²GR` 又补出一个不同系统位:latent reasoning 不再只是一串难解释的中间向量,而开始在每一级 `SID` 生成前插入 `thinking token`,再用 coarse-grained codebook cluster distribution 做监督。Story Lab 后续要补 `semantic anchoring contract / step-to-code coupling / codebook-behavior alignment / reasoning granularity schedule / overthinking boundary`。
Self-EvolveRec:推荐器自演化开始吃方向性反馈,而不只看标量分数
补完 `Self-Evolving Recommendation System / RecNet / AgenticRec` 之后,站里已经能分出 `outer-loop MLE agent`、`router-mediated preference propagation` 和 `tool-integrated ranking policy`。但 `Self-EvolveRec` 又补出一条更贴近模型本体的演化路线:不再只用 `NDCG / HR` 这类 scalar metric 做 trial-and-error,而是让 `user simulator` 给 qualitative critique、`diagnosis tool` 给 quantitative verification,并让诊断器本身跟着模型一起共演化。Story Lab 后续要补 `feedback semantics / critique-verifier split / diagnosis co-evolution / planning-retrieval necessity / code-quality divergence`。
Entropy-Driven Dialogue Policy:对话推荐不一定非得训练 Planner,也可以让检索熵接管路由
补完 `SAPIENT / Rank-GRPO / USB-Rec / RSO` 之后,站里已经能看到 planning、rank-level RL、simulator judge 和 strategy planner,但还缺一个更轻的系统位:对话推荐里的策略切换不一定非得由可训练 planner 或 prompt condition 决定,也可以直接由检索分布的熵来判断用户意图是否足够聚焦。Gorgias 这篇电商工作说明 Story Lab 还要补 `strategy evidence source / catalog-conditioned ambiguity signal / discovery-pressure preset / recommendation trigger confidence`。
CausalDPO:推荐里的 DPO,不只会学偏好,也会把环境混杂一起对齐
站里已经有 `DPO4Rec / DRPO / FlexRec / SearchLLM`,能看到 pairwise preference、重尾脏日志、多目标切换和 reward governance,但还缺一个更早的因果位:推荐里的 `DPO` 不只会学 `chosen > rejected`,也会把 `popularity / temporal / exposure` 这类环境混杂一起放大。`CausalDPO` 说明 Story Lab 还要补 `environment confounder / latent-environment inference / invariance regularization / shift contract / IID tax`。
SIDReasoner:semantic ID 推荐里的 reasoning,不一定先追 trace,也可以先补对齐底座
补完 `Why Thinking Hurts / S²GR / GR2 / DeepInterestGR / From Token to Item / OpenOneRec` 之后,站里已经能分出 `semantic drift / semantic anchoring / rerank reasoning / interest carrier / item-aware attention`。但 `SIDReasoner` 又补出一个更前置的系统位:在 `semantic ID` 推荐里,reasoning 不一定首先由更长 trace 或更重 RL 解锁,它也可能先取决于 `SID-language alignment substrate`。Story Lab 后续要补 `reasoning-enablement substrate / alignment corpus owner / activation locus / general-ability budget / cross-domain transfer condition`。
MGFRec:推荐里的 reasoning 不能只在语言空间里打转,还要反复落到真实 item space
站里已经写过 `VRec / PROMISE / Why Thinking Hurts / SIDReasoner / USB-Rec`,很容易继续把推荐 reasoning 理解成 verifier、search controller、semantic alignment 或 internal judge。但 `MGFRec` 说明,还有一条更早却没单独写开的主线:`RL` 训练的 recommendation agent 不该只在语言空间里推理,再在最后一步映射到 item;它应该在中间多次 `ground` 到真实 item space,并在每次 grounding 后吃 user-agent feedback。Story Lab 后续要补 `reasoning space / grounding frequency / grounded-feedback carrier / search-space contraction / process-signal carrier`。
SPRec:推荐里的 DPO,不只要看 pair 怎么造,还要看负样本由谁提供
站里已经有 `DPO4Rec / DRPO / CausalDPO`,能看到 pairwise preference、脏日志过滤和环境混杂,但还缺一个更近的 owner:DPO 里被压下去的 rejected 到底来自谁。`SPRec` 说明,推荐里的过度推荐 / filter bubble 不一定先靠外部规则修,也可以让模型上一轮自己的高频输出回流成 self-play negatives。Story Lab 还要补 `negative sample owner / self-suppression loop / over-recommendation target / debiasing data loop`。
GRADE:多目标融合不只要会个性化,还得先学会在权重单纯形里探索
补完 `SaFRO / FlexRec / IB-GRPO` 之后,站里已经能写 fusion policy、need-conditioned ranker 与 Pareto aggregation,但 `GRADE` 又补出一个更基础的系统位:推荐/搜索里的 `RL` 不一定先接管 item ranking 或 task relation,也可以先接管多任务融合权重本身,并在 simplex-constrained continuous action space 里做个性化搜索。Story Lab 后续要补 `scalarization owner / exploration geometry / weight-simplex prior / reward anti-hacking regularizer`。
RosePO:推荐里的 DPO,不只要挑 pair,还得先把 helpfulness 和 harmlessness 分轴写清
补完 `DPO4Rec / DRPO / CausalDPO / SPRec` 之后,站里已经能写 pair 构造、脏日志过滤、环境混杂和 self-play negatives,但 `RosePO` 又补出一个更早的系统位:推荐里的偏好对齐不只要决定 rejected 由谁提供,还要决定 helpfulness 与 harmlessness 分别由什么 rejected sampling 承担,并用 preference oracle 预测每条 pair 的 flip-rate。Story Lab 后续要补 `value-axis coupling / shortcut-targeted negatives / label-noise owner / preference-oracle smoothing`。
S-DPO:推荐里的 DPO,不只要更多 negative,还要决定这些 negative 是逐对比较还是共同竞争
站里已经有 `DPO4Rec / DRPO / SPRec / CausalDPO / RosePO`,能看到 pair 是谁造的、负样本谁供给、环境混杂和 value axis,但还缺一个更底层的损失位:当推荐里不止一个 negative 时,它们到底是被拆成多对 pairwise `DPO`,还是作为一个 softmax 竞争集共同约束 chosen。`S-DPO` 说明 Story Lab 还要补 `comparison unit / negative coupling geometry / ranking-gradient density / objective bridge / pairwise decomposition tax`。
AMEM4Rec:agentic recommender 的 memory,不再只记单个用户,也开始跨用户长出 CF 信号
补完 `RecThinker / MemoCRS / Shopping Companion / RecNet` 之后,站里已经能写工具记忆、对话长期记忆、shopping grounding 和记忆中的偏好传播,但还有一个位一直没被单独记开:agentic LLM recommender 的 memory 到底只服务单个用户,还是也能在跨用户层面沉淀 collaborative filtering 信号。`AMEM4Rec` 给出的答案是后者。Story Lab 后续要补 `memory scope / cross-user pattern owner / memory evolution trigger / validator split / collaborative-signal recovery path`。
ReRe:推荐里的 RLVR,不只要 on-policy negative,还要先把生成空间约束住
站里已经有 `DPO4Rec / S-DPO / SPRec / CausalDPO / RosePO`,能看到 pair 怎么造、negative 谁供给、环境混杂和值轴怎样进目标,但还缺一层更靠近 `RLVR` 的问题:如果 negative 直接从当前 policy 在线采样,推荐里的窄 item 空间会不会先把采样效率和 reward 信号一起压坏。`ReRe` 说明 Story Lab 还要补 `negative exposure regime / output validity contract / reward verifiability / diversity-preserving search / proxy-reward hacking`。
NAPO:推荐里的 DPO,不只要更多 negative,还要先解决负样本扩容效率和信息量调权
站里已经写了 `S-DPO / SPRec / RosePO / ReRe`,能看到 negative 在 loss 里如何耦合、由谁提供、服务哪条价值轴,以及 search 怎样暴露 hard negatives,但还缺一个更靠前的 owner:negative 覆盖怎样在不增加额外解码成本的前提下被扩容,以及不同 negative 的作用强度是否应按置信度动态改 margin。`NAPO` 说明 Story Lab 还要补 `negative coverage regime / sharing validity contract / informativeness-aware margin / auxiliary confidence owner / negative-efficiency frontier`。
ILRec:推荐里的 preference learning,不一定只看序列级 rejected,也可以从中间层直接抽 token 级 self-hard negatives
补完 `SPRec / S-DPO / RosePO / NAPO / ReRe` 之后,站里已经能分清 negative 由谁提供、怎样耦合、怎样扩容和怎样按价值轴平滑,但还缺一个更靠近模型内部的 extraction locus:负信号不一定来自外部 sampled items,也可以直接从中间层 logits 里长出来。`ILRec` 说明 Story Lab 还要补 `negative extraction locus / token-level self-hard negative / false-negative mitigation / intermediate-layer teacher-student loop`。
Beyond Interleaving:生成式推荐里的 action,不一定非得插成 token,也可以回到因果注意力池化
补完 `From Token to Item / Why Thinking Hurts / SIDReasoner / GLIDE` 之后,站里已经能看到 item-aware attention、reasoning drift、SID-language substrate 和 soft-prompt carrier。但还有一个更底层的结构位一直没被单独记开:item 和 action 在生成式推荐里到底该怎么耦合。`Beyond Interleaving` 说明 Story Lab 还要补 `item-action coupling form / causal dependency materialization / attention-noise tax / fusion timing / sequence-complexity tax`。