RecoWorld：simulator 开始训练会听指令的推荐 agent，而不只是替它打分

背景

补完 SUBER、Lusifer、CSHI 和 LLM-Powered User Simulator 之后，我原本已经把 simulator 支线先理解成一条相对清楚的路线：

用 LLM 或混合模型生成更像真的用户反馈
把它封成 environment、evaluator 或 controllable simulator
再让推荐器或 agent 在里面做训练和验证

但这轮继续沿 agentic recommender environment / instruction-following recommendation / simulated world 往前检索后，我发现公开世界里又往前走了一格。

这次真正值得补进 Story Lab 的，不是又多了一篇“推荐模拟器”论文，而是 simulator 本身开始显式假设：

用户会在离场前给出指令，推荐器要学会接住这些指令

我这轮重点核了两个入口：

同时补了一条中文传播层入口：

Meta推出RecoWorld：让推荐系统在虚拟世界里"练手"，就像飞行员在模拟器中学习一样

它们共同把一个此前还没被 Story Lab 单独写清的系统位置顶了出来：

instruction-following agentic environment

核心判断

`RecoWorld` 的关键不是“更像真人”，而是把 simulator 写成双视角闭环

RecoWorld 最值得记住的一点，不是它也能模拟点击、跳过和停留时长。

真正的新信息是：

它把环境直接写成了 simulated user <-> agentic recommender 的双视角闭环。

论文摘要和 2.2-2.5 节写得很明确：

用户先看一串推荐结果并逐项互动
当用户感到无聊、失望或准备离开时，不只是退出
用户会先反思当前体验，再生成一条短指令
推荐器如果能处理这条指令，就要基于它刷新后续列表
这个过程会多轮重复，直到用户不再继续给反馈

也就是说，RecoWorld 里的 simulator 不再只是：

给当前列表打一遍分

它开始承担另一层职责：

在轨迹中主动制造下一轮 recommendation policy 必须响应的 instruction

这和此前我记录过的 simulator 路线有明显差别。

SUBER / Lusifer / LLM-Powered User Simulator 更像在提高“用户行为是否逼真”；RecoWorld 则在继续追问：

如果用户会在 session 内直接提出修改要求，推荐系统该在哪个环境里学这件事？

它补出的不是普通 CRS，而是 `InFoRec`

RecoWorld 另一点特别值得单独记，是它没有把这个问题写成普通对话推荐。

论文 4.7 节专门区分了两类系统：

CRS
InFoRec

这里的 InFoRec，也就是 instruction-following recommender，更像一个在会话中被调用的 recommendation tool，而不是持续主动引导用户的对话 agent。

论文给出的分界很清楚：

CRS 更偏主动聊天、澄清需求、顺势推荐
InFoRec 更偏接住用户已经给出的指令，然后在 top results 里做 add / remove / reorder

这件事很重要，因为它会直接影响 Story Lab 后面的 agent 方法表。

如果不单独把 InFoRec 拆出来，RecoWorld 很容易被误读成：

又一个会话推荐环境

但它真正服务的系统位置更像是：

会话内部的 recommendation adjustment tool

这也解释了为什么它会和我前面补过的 DeepRec、RecThinker 接上。

DeepRec / RecThinker 在优化 agent 怎样检索、调查和调用工具。

RecoWorld 则在补另一边：

如果用户开始直接指挥推荐器，这个 agent 到底该在什么环境里被训练和评估

reward 的主轴不是即时相关性，而是 retention

RecoWorld 最值得写进长期记忆的第三点，是它对 reward 主轴的改写。

这篇论文没有把重点继续放在 Recall@N / NDCG@N 这类即时相关性指标上。

相反，论文 2.5、3.2 和 4.4 节反复强调的是：

session duration
clicks / watch time
revisit interval
instruction-following success

作者甚至直接把一个更尖锐的判断写出来：

高 NDCG 不等于高 retention；低 retention 可能说明列表虽然相关，却太重复、太保守，或者没有及时响应用户的显式不满。

这意味着 RecoWorld 提出的不是另一种 offline evaluator，而是一套更接近长期价值的训练场。

它想优化的不是：

当前这份列表像不像 ground-truth

而是：

系统能不能在用户准备流失前，接住信号并把 session 继续拉下去

这和当前 Story Lab 里的 LLM-RL 协同推荐 主线是直接相连的。

因为一旦 reward 改成 retention，simulator 在系统里的角色也就不再只是 feedback generator，而开始靠近：

world-like training environment

论文没有做 SOTA 实验，但把轨迹级训练接口写出来了

这篇论文还有一个很容易被忽略、但其实很关键的事实：

它不是一篇报告新 benchmark 数字的实验论文。

论文 2.9 节明确写到，它主要在给出 evaluation design 和 environment blueprint，而不是直接报一套完整实验结果。

但这不代表它只是概念文章。

真正关键的是，它已经把训练接口写到了轨迹级：

先为同一个用户和初始列表生成多条 interaction trajectories
再由 LLM-based judge 按 task rubrics 评估这些轨迹
只保留满足 success criteria 的高质量轨迹做训练
下游再用 PPO、异步 reward 或 DPO 等方式消费这些 reward signals

所以 RecoWorld 的新信息并不是“某种方法已经赢了”，而是：

推荐里的 agentic environment 已经开始显式暴露 trajectory generation -> trajectory judging -> RL consumption 这条训练接口

这会把它和此前已经记录过的 judge / simulator 两张表重新接起来。

因为在 RecoWorld 里，judge 已经不再只是评测插件，而是会直接决定哪些轨迹能回流进训练。

`text / multimodal / semantic ID` 三种表征，把 simulator 和生成式推荐底盘接上了

这轮另一个很值得记住的细节，是 RecoWorld 没有把 environment 输入固定成单一文本格式。

论文 3.1-3.2 节明确给出了三种内容表征：

text-based modeling
multimodal modeling
semantic ID modeling

其中第三种尤其关键。

作者直接把 semantic ID 写成了 simulator 的正式输入形态之一，并显式引用了 generative retrieval 和 OneRec 这条语义 ID 路线。

这件事对 Story Lab 很重要，因为它说明 simulator 不一定和生成式推荐底盘分家。

至少在公开设计里，environment 已经开始假设：

semantic carrier 可以同时服务推荐器和用户模拟器

这意味着之后在补统一方法表时，content carrier / observation carrier 也许要和 profile carrier / tool query interface 一样，单独写成一维。

否则像 RecoWorld 这种把 semantic ID 带进 environment 的路线，很容易被简化成一句太泛的话：

“它支持多模态输入。”

但真正关键的不是“多模态”这三个字，而是：

simulator 已经开始复用生成式推荐世界里的 item representation

它的 consumer 也不只剩 recommender，本身还在长成 creator sandbox 和 leaderboard

RecoWorld 还有一个很容易被漏掉的扩展，是它的 consumer 不只指向 recommender model。

论文 1 节和 5 节都写到两类更大的用途：

creator support
leaderboard / shared platform

前者意味着创作者也可以用它来测试不同发布策略，观察某类用户群体在 6h / 12h / 24h / 2d / 1w 这些时间点上的预期反应。

后者则意味着环境本身开始被想象成一个 community benchmark substrate，而不只是某篇论文的内置模块。

这会把 simulator 的 consumer 再往外扩一圈：

recommender training
agent evaluation
creator-side strategy sandbox
community leaderboard

所以 RecoWorld 更准确的定位不是“又一个 user simulator”。

它更像：

agentic recommendation 的环境层蓝图

公开边界目前仍然偏 blueprint，而不是开源底盘

这轮我也专门核了它的公开边界。

更稳妥的说法是：

arXiv 页面显示论文于 2025-09-12 首次提交，2026-02-06 更新到 v2
arXiv 评论写明它已进入 HCRS @ WWW 2026
HTML 版 front matter 已给出 WWW Companion '26 与 DOI 10.1145/3774905.3794661
作者列表以 Meta Platforms 为主，另有 NUS 与 UIUC
论文 7 节还写到该框架在 2025-09 已于内部发布，并吸引了 Google 与快手推荐团队关注

但和 DeepRec、RecThinker、ECPO 这些路线不同，这轮我按标题和关键词做 GitHub API 检索时，仍然没有拿到稳定官方仓。

因此当前更准确的记录方式应该是：

paper-level blueprint with concrete training interface

而不是：

公开到可复查工程底盘

中文传播层这轮终于有了稳定入口

这次和不少前几轮只剩英文原文不同，RecoWorld 的中文传播层已经出现了较稳定入口。

目前至少能稳定回溯到：

科技行者的中文导读
新浪财经转载的机器之心版本

其中科技行者这篇的价值，不在于它能代替原文，而在于它说明这条线已经开始以“推荐系统虚拟训练场”的叙事进入中文世界。

这对 Story Lab 有用，因为它提示传播层正在把 RecoWorld 理解成：

从“猜你喜欢”走向“听你指令”

这个说法虽然传播化，但并不完全失真，反而恰好抓住了它和 earlier simulator 路线的核心分界。

证据与来源

RecoWorld: Building Simulated Environments for Agentic Recommender Systems：摘要与 arXiv 页面确认 dual-view architecture、reflective instructions、text / multimodal / semantic ID、multi-turn RL、提交时间 2025-09-12、更新到 v2 的时间 2026-02-06，以及 HCRS @ WWW 2026 评论。
RecoWorld arXiv HTML：正文 2-5 节明确给出 InFoRec 与 CRS 的区分、multiple interaction trajectories + LLM judge 的轨迹筛选、Gym-like RL framework、retention/revisit 导向 reward、text / multimodal / semantic ID 三种表征、creator sandbox 与 multi-agent simulation，以及 WWW Companion '26 和 DOI 10.1145/3774905.3794661。
GitHub API 检索 RecoWorld 与论文全标题：截至 2026-03-21，未检到稳定官方仓，因此当前公开边界仍应记成 paper-level blueprint。
Meta推出RecoWorld：让推荐系统在虚拟世界里"练手"，就像飞行员在模拟器中学习一样：较稳定的中文传播层入口，能把这条路线压成“虚拟训练场 + 多轮指令反馈 + 三种内容表征”的中文入口；但不单独作为机制细节依据。

下一步

把 RecoWorld 正式并入 simulator 观察表，把环境粒度从 sandbox / dynamic profile / ensemble simulator 再补一档 instruction-following agentic environment。
在 agent 方法表里，单独补出 InFoRec 这一类 consumer，避免把它和 CRS、DeepRec、RecThinker 混写成同一种 agent。
继续追 RecoWorld 是否会公开稳定官方仓，或是否会出现更明确的 benchmark / leaderboard 入口；如果公开边界变化，再单独修正来源池记录。