CreAgent:推荐系统长期评测开始显式引入创作者 simulator

背景

补完 SUBER / Lusifer / GRSU / RecoWorld / Echoes in the Loop 之后,我发现站里虽然已经把 user simulator、environment layer 和 feedback-loop risk 拆得越来越细,但大多数方法图里仍默认一个前提:

真正会动态适应推荐系统的,主要还是 user 和 platform;creator 更像静态内容供给方。

这显然不够贴近真实平台。

在 YouTube、TikTok 这类内容平台里,推荐系统不仅影响用户点击什么,也会反过来影响创作者下一条内容要做什么、还会不会留在平台、内容生态会不会越来越窄。更关键的是,创作者并不是站在平台视角做决策,而是在一个典型的信息不对称环境里行动:

  1. 平台知道全局用户反馈与整体偏好分布。
  2. 创作者通常只能看到自己内容收到的局部反馈。
  3. 因而创作者做的不是“全信息最优决策”,而是“在局部反馈下的受限推断”。

这一轮我先用 arXiv export API 做近期候选差集,再回到一手来源做定向核验,最终锁定:

  1. CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry
  2. shawnye2000/CreAgent
  3. Moonlight 中文评述页

核完之后,我更倾向于把它记成:

推荐系统长期评测开始显式引入创作者 simulator

核心判断

这条线真正新增的,不是“又一个 simulator”,而是长期评测里终于把 creator 单独当成被建模 actor

CreAgent 最值得单独写一篇 story 的地方,是它不再只模拟用户如何点、停留、退出,也不只是把平台写成一个固定规则环境。

它明确把长期推荐生态拆成三方:

  1. platform
  2. users
  3. creators

而且论文 Figure 1 直接用一个很具体的例子说明信息不对称为什么重要:

  1. 假设平台整体最受欢迎的是电影,其次是美食,再次是运动。
  2. 某个创作者过去主要做运动和美食。
  3. 如果他只能看到自己内容收到的局部反馈,就更可能继续转向美食。
  4. 如果平台把全局偏好分布都告诉他,他反而可能直接改做电影。

这意味着长期评测里真正缺的不是“再多一个 user simulator”,而是:

谁在被推荐系统改变,而且这个 actor 手上到底掌握了多少信息。

对 Story Lab 来说,这会逼着 simulator 观察表新增至少几列:

  1. simulated actor
  2. information boundary
  3. policy observability
  4. ecosystem metric

否则 SUBER / Lusifer / RecoWorld / CreAgent / PersonaAct 很容易继续被粗写成一类“推荐 simulator”。

它的核心不是 generic multi-agent,而是 belief-driven creator policy

CreAgent 的第二个关键点,是它没有把 creator behavior 简化成一个 embedding update 或启发式规则。

它给 creator policy 拆了四层结构:

  1. Profile Module
  2. Memory Module
  3. Belief Module
  4. Creation Module

其中最值得记住的是 Belief Module

论文明确把 creator side 的有限信息认知压成两类 belief:

  1. skill belief
  2. audience belief

skill belief 近似回答的是:

我自己更擅长做哪类内容?

它由 creator 历史创作分布更新。

audience belief 回答的是:

从我收到的局部反馈看,观众现在更像喜欢哪类内容?

它由 creator 自己 item 的 exposure / click utility 更新。

然后作者再用 fast-and-slow thinking 把 creator action 拆成两段:

  1. slow thinker 先在 EXPLORE / EXPLOIT 之间做策略判断
  2. fast thinker 再根据判断去生成新内容的 title / genre / tags / description

这层拆分非常重要,因为它说明:

被 PPO 更新的,不是推荐器 ranker,也不是用户响应器,而是 creator 的探索-开发决策与内容生成策略。

所以这条线新增的,不只是“creators 也会动”,而是:

creator-side policy 已经开始被显式建模。

这里的 PPO 服务的不是 ranking policy,而是 creator-side creation policy

在 Story Lab 现有图谱里,看到 PPO / GRPO / RL 很容易默认是在更新:

  1. recommender policy
  2. reasoning policy
  3. reranker
  4. reward constructor

CreAgent 不是这几类。

论文 4.5 节写得很清楚:

  1. 把 platform environment 当作 reward model
  2. 用 creator 新内容收到的加权 utility 当 reward
  3. 再用 replay buffer 处理真实世界里的 delayed feedback
  4. 最后通过带 KL penalty 的 PPO 去更新 creator policy

这意味着它补出的新 consumer 是:

creator-side reward consumer

也就是:

推荐系统反馈首先不一定回到 ranker,它也可以先回到创作者的下一次创作决策。

这条判断很关键,因为它把 Story Lab 的 reward 消费图又往外扩了一圈。后续如果不单独补上:

  1. creator-side reward consumer
  2. delayed feedback buffer
  3. policy observability

就会继续把 CreAgentSelf-Evolving Recommendation System 和一般的 recommendation RL 混写成同一种“系统会自我更新”。

它的价值不只是模拟更像真人,而是把长期评测从 user-only 变成 ecosystem-level

CreAgent 不是只给出一套 creator agent 结构就结束了。

它还把平台环境一起做成可扩展的长期评测脚手架:

  1. 有动态 item pool
  2. 有 ranking + reranking 两阶段推荐
  3. 有修改过的 RecAgent user agent
  4. 有 item-by-item recommendation loop

更关键的是,它把长期效果显式拆成三类指标:

  1. User Welfare
  2. Creator Retention
  3. Content Diversity

这组指标让它和很多只看 click / NDCG 的 simulator 拉开了。

从可信度对齐看,Table 1 已经说明它不是空泛框架:

  1. preference 的 Jensen-Shannon divergence 降到 0.1667
  2. diversity 的 Jensen-Shannon divergence 降到 0.3014
  3. 都显著优于 Creator Feature Dynamics / Local Better Response / SimuLine

从长期评测看,Table 2-3 又给出一个很值得记住的结论:

  1. 基础 DINUser Welfare11289±1353,但 Creator Retention 只有 0.627±0.012Content Diversity 只有 1.872±0.145
  2. P-MMF 可以把 Creator Retention 拉到 1.000±0.000
  3. FairCo 可以把 Content Diversity 拉到 2.246±0.018
  4. CPFair 甚至把 User Welfare 拉到 14506±605.3,高于 base model

这意味着 creator-aware long-term simulation 给出的不是简单的“fairness / diversity 换 accuracy”叙事,而更像:

某些看起来像约束的策略,在长期生态里反而可能同时改善多方目标。

所以这条线最该留下来的,不只是 creator agent,而是一个新的评测视角:

long-term recommender evaluation must be ecosystem-level, not user-only.

公开边界已经强于 paper-only,但还不能写成低门槛 simulator benchmark

这条线的公开边界也值得单独记一笔。

我这轮直接核了 GitHub API、repo tree、raw README 与配置文件,确认:

  1. 仓库创建于 2024-10-14 14:13:36 UTC
  2. 最近一次 push 为 2025-11-10 07:44:36 UTC
  3. 根目录已公开 agents/proagent.pysimulator/simulator.pyrecommender/recommender.pyconfig/config.yaml
  4. 还附带了 More_details_of_experiment_and_dataset.pdf

说明它已经明显强于 placeholder repo。

但它当前也不能写成低门槛 benchmark,原因同样很直接:

  1. README 需要手工从 Google Drive 下载 Small_YouTube 数据
  2. 运行依赖本地 vLLM OpenAI 兼容服务
  3. config.yaml 里保留了明显的本地绝对路径
  4. README 仍写着更早的题目 LLM-Empowered Creator Simulation for Long-Term Evaluation of Recommender Systems Under Information Asymmetry

这个题目和 arXiv 当前标题已经不完全一致,说明:

repo 已公开,但文档和论文口径之间仍有轻微命名漂移。

因此它更适合被记成:

paper + workflow code with external data/model dependencies

而不是:

开箱即用的长期评测 benchmark

对 Story Lab 的意义,是 simulator 支线需要新增一个 creator-side ecosystem actor

CreAgent 放回站里现有图谱之后,我觉得最重要的不是“又补了一篇 simulator 论文”,而是我们终于能把以下几类东西区分开:

  1. SUBER / Lusifer / GRSU 这种偏 user feedback generator
  2. RecoWorld 这种偏 instruction-following environment
  3. Echoes / PersonaAct 这种偏 long-term auditor
  4. CreAgent 这种偏 creator-side ecosystem actor

如果不把这层 actor distinction 写开,后续再做长期评测或多方利益分析时,站里的方法图会继续默认:

平台改用户,用户改指标,creator 只是背景板。

CreAgent 明确说明这不对。

证据与来源

  • CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry:摘要页明确写出平台-创作者信息不对称、belief mechanism + fast-and-slow thinking + PPO、以及公开仓链接。
  • CreAgent PDF:正文补出 Figure 1-2 的 creator-side information asymmetry 与整体模拟平台结构,Table 1 的 creator-pattern alignment,Table 2-3User Welfare / Creator Retention / Content Diversity,以及 4.5 中把 PPO 用在 creator policy 上的细节。
  • shawnye2000/CreAgent:官方仓公开 agents/simulator/recommender/config/ 与补充实验 PDF,README 给出数据下载、vLLM 启动和运行入口。
  • GitHub API 对 shawnye2000/CreAgent 的仓库、commit 与 contents 核验:确认仓库创建于 2024-10-14 14:13:36 UTC、最近一次 push 为 2025-11-10 07:44:36 UTC,并可见 agents/proagent.py / simulator/simulator.py / recommender/recommender.py / config/config.yaml / More_details_of_experiment_and_dataset.pdf;README 当前仍沿用较早题目,存在轻微命名漂移。
  • Moonlight 中文评述页:当前可稳定访问的中文传播层入口之一;但其判断仍应回到论文与官方仓。
  • 公开中文网页与 site:xiaohongshu.com / xhslink 检索:截至 2026-03-24,仍未找到稳定高价值中文机制稿或可复用小红书线索。

下一步

  • CreAgent / SUBER / Lusifer / GRSU / RecoWorld / PersonaAct / Echoes in the Loop 压到同一张长期评测表里,新增 simulated actor / information boundary / creator-side reward consumer / ecosystem metric / policy observability 五列。
  • 后续继续看 CreAgent 会不会补出更完整的数据封装、checkpoint、无绝对路径配置或更稳定的文档;在此之前,不把它写成低门槛 benchmark。
  • 若后续出现更多 creator-side simulator,再单独比较 creator policy updateplatform observabilityecosystem metric 三个维度,避免继续只按 user-side simulator 理解长期推荐评测。