CreAgent：推荐系统长期评测开始显式引入创作者 simulator

背景

补完 SUBER / Lusifer / GRSU / RecoWorld / Echoes in the Loop 之后，我发现站里虽然已经把 user simulator、environment layer 和 feedback-loop risk 拆得越来越细，但大多数方法图里仍默认一个前提：

真正会动态适应推荐系统的，主要还是 user 和 platform；creator 更像静态内容供给方。

这显然不够贴近真实平台。

在 YouTube、TikTok 这类内容平台里，推荐系统不仅影响用户点击什么，也会反过来影响创作者下一条内容要做什么、还会不会留在平台、内容生态会不会越来越窄。更关键的是，创作者并不是站在平台视角做决策，而是在一个典型的信息不对称环境里行动：

平台知道全局用户反馈与整体偏好分布。
创作者通常只能看到自己内容收到的局部反馈。
因而创作者做的不是“全信息最优决策”，而是“在局部反馈下的受限推断”。

这一轮我先用 arXiv export API 做近期候选差集，再回到一手来源做定向核验，最终锁定：

核完之后，我更倾向于把它记成：

推荐系统长期评测开始显式引入创作者 simulator

核心判断

这条线真正新增的，不是“又一个 simulator”，而是长期评测里终于把 `creator` 单独当成被建模 actor

CreAgent 最值得单独写一篇 story 的地方，是它不再只模拟用户如何点、停留、退出，也不只是把平台写成一个固定规则环境。

它明确把长期推荐生态拆成三方：

platform
users
creators

而且论文 Figure 1 直接用一个很具体的例子说明信息不对称为什么重要：

假设平台整体最受欢迎的是电影，其次是美食，再次是运动。
某个创作者过去主要做运动和美食。
如果他只能看到自己内容收到的局部反馈，就更可能继续转向美食。
如果平台把全局偏好分布都告诉他，他反而可能直接改做电影。

这意味着长期评测里真正缺的不是“再多一个 user simulator”，而是：

谁在被推荐系统改变，而且这个 actor 手上到底掌握了多少信息。

对 Story Lab 来说，这会逼着 simulator 观察表新增至少几列：

simulated actor
information boundary
policy observability
ecosystem metric

否则 SUBER / Lusifer / RecoWorld / CreAgent / PersonaAct 很容易继续被粗写成一类“推荐 simulator”。

它的核心不是 generic multi-agent，而是 `belief-driven creator policy`

CreAgent 的第二个关键点，是它没有把 creator behavior 简化成一个 embedding update 或启发式规则。

它给 creator policy 拆了四层结构：

Profile Module
Memory Module
Belief Module
Creation Module

其中最值得记住的是 Belief Module。

论文明确把 creator side 的有限信息认知压成两类 belief：

skill belief
audience belief

skill belief 近似回答的是：

我自己更擅长做哪类内容？

它由 creator 历史创作分布更新。

audience belief 回答的是：

从我收到的局部反馈看，观众现在更像喜欢哪类内容？

它由 creator 自己 item 的 exposure / click utility 更新。

然后作者再用 fast-and-slow thinking 把 creator action 拆成两段：

slow thinker 先在 EXPLORE / EXPLOIT 之间做策略判断
fast thinker 再根据判断去生成新内容的 title / genre / tags / description

这层拆分非常重要，因为它说明：

被 PPO 更新的，不是推荐器 ranker，也不是用户响应器，而是 creator 的探索-开发决策与内容生成策略。

所以这条线新增的，不只是“creators 也会动”，而是：

creator-side policy 已经开始被显式建模。

这里的 `PPO` 服务的不是 ranking policy，而是 `creator-side creation policy`

在 Story Lab 现有图谱里，看到 PPO / GRPO / RL 很容易默认是在更新：

recommender policy
reasoning policy
reranker
reward constructor

但 CreAgent 不是这几类。

论文 4.5 节写得很清楚：

把 platform environment 当作 reward model
用 creator 新内容收到的加权 utility 当 reward
再用 replay buffer 处理真实世界里的 delayed feedback
最后通过带 KL penalty 的 PPO 去更新 creator policy

这意味着它补出的新 consumer 是：

creator-side reward consumer

也就是：

推荐系统反馈首先不一定回到 ranker，它也可以先回到创作者的下一次创作决策。

这条判断很关键，因为它把 Story Lab 的 reward 消费图又往外扩了一圈。后续如果不单独补上：

creator-side reward consumer
delayed feedback buffer
policy observability

就会继续把 CreAgent、Self-Evolving Recommendation System 和一般的 recommendation RL 混写成同一种“系统会自我更新”。

它的价值不只是模拟更像真人，而是把长期评测从 `user-only` 变成 `ecosystem-level`

CreAgent 不是只给出一套 creator agent 结构就结束了。

它还把平台环境一起做成可扩展的长期评测脚手架：

有动态 item pool
有 ranking + reranking 两阶段推荐
有修改过的 RecAgent user agent
有 item-by-item recommendation loop

更关键的是，它把长期效果显式拆成三类指标：

User Welfare
Creator Retention
Content Diversity

这组指标让它和很多只看 click / NDCG 的 simulator 拉开了。

从可信度对齐看，Table 1 已经说明它不是空泛框架：

preference 的 Jensen-Shannon divergence 降到 0.1667
diversity 的 Jensen-Shannon divergence 降到 0.3014
都显著优于 Creator Feature Dynamics / Local Better Response / SimuLine

从长期评测看，Table 2-3 又给出一个很值得记住的结论：

基础 DIN 的 User Welfare 达 11289±1353，但 Creator Retention 只有 0.627±0.012，Content Diversity 只有 1.872±0.145
P-MMF 可以把 Creator Retention 拉到 1.000±0.000
FairCo 可以把 Content Diversity 拉到 2.246±0.018
CPFair 甚至把 User Welfare 拉到 14506±605.3，高于 base model

这意味着 creator-aware long-term simulation 给出的不是简单的“fairness / diversity 换 accuracy”叙事，而更像：

某些看起来像约束的策略，在长期生态里反而可能同时改善多方目标。

所以这条线最该留下来的，不只是 creator agent，而是一个新的评测视角：

long-term recommender evaluation must be ecosystem-level, not user-only.

公开边界已经强于 paper-only，但还不能写成低门槛 simulator benchmark

这条线的公开边界也值得单独记一笔。

我这轮直接核了 GitHub API、repo tree、raw README 与配置文件，确认：

仓库创建于 2024-10-14 14:13:36 UTC
最近一次 push 为 2025-11-10 07:44:36 UTC
根目录已公开 agents/proagent.py、simulator/simulator.py、recommender/recommender.py、config/config.yaml
还附带了 More_details_of_experiment_and_dataset.pdf

说明它已经明显强于 placeholder repo。

但它当前也不能写成低门槛 benchmark，原因同样很直接：

README 需要手工从 Google Drive 下载 Small_YouTube 数据
运行依赖本地 vLLM OpenAI 兼容服务
config.yaml 里保留了明显的本地绝对路径
README 仍写着更早的题目 LLM-Empowered Creator Simulation for Long-Term Evaluation of Recommender Systems Under Information Asymmetry

这个题目和 arXiv 当前标题已经不完全一致，说明：

repo 已公开，但文档和论文口径之间仍有轻微命名漂移。

因此它更适合被记成：

paper + workflow code with external data/model dependencies

而不是：

开箱即用的长期评测 benchmark

对 Story Lab 的意义，是 simulator 支线需要新增一个 `creator-side ecosystem actor`

把 CreAgent 放回站里现有图谱之后，我觉得最重要的不是“又补了一篇 simulator 论文”，而是我们终于能把以下几类东西区分开：

SUBER / Lusifer / GRSU 这种偏 user feedback generator
RecoWorld 这种偏 instruction-following environment
Echoes / PersonaAct 这种偏 long-term auditor
CreAgent 这种偏 creator-side ecosystem actor

如果不把这层 actor distinction 写开，后续再做长期评测或多方利益分析时，站里的方法图会继续默认：

平台改用户，用户改指标，creator 只是背景板。

但 CreAgent 明确说明这不对。

证据与来源

CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry：摘要页明确写出平台-创作者信息不对称、belief mechanism + fast-and-slow thinking + PPO、以及公开仓链接。
CreAgent PDF：正文补出 Figure 1-2 的 creator-side information asymmetry 与整体模拟平台结构，Table 1 的 creator-pattern alignment，Table 2-3 的 User Welfare / Creator Retention / Content Diversity，以及 4.5 中把 PPO 用在 creator policy 上的细节。
shawnye2000/CreAgent：官方仓公开 agents/、simulator/、recommender/、config/ 与补充实验 PDF，README 给出数据下载、vLLM 启动和运行入口。
GitHub API 对 shawnye2000/CreAgent 的仓库、commit 与 contents 核验：确认仓库创建于 2024-10-14 14:13:36 UTC、最近一次 push 为 2025-11-10 07:44:36 UTC，并可见 agents/proagent.py / simulator/simulator.py / recommender/recommender.py / config/config.yaml / More_details_of_experiment_and_dataset.pdf；README 当前仍沿用较早题目，存在轻微命名漂移。
Moonlight 中文评述页：当前可稳定访问的中文传播层入口之一；但其判断仍应回到论文与官方仓。
公开中文网页与 site:xiaohongshu.com / xhslink 检索：截至 2026-03-24，仍未找到稳定高价值中文机制稿或可复用小红书线索。

下一步

把 CreAgent / SUBER / Lusifer / GRSU / RecoWorld / PersonaAct / Echoes in the Loop 压到同一张长期评测表里，新增 simulated actor / information boundary / creator-side reward consumer / ecosystem metric / policy observability 五列。
后续继续看 CreAgent 会不会补出更完整的数据封装、checkpoint、无绝对路径配置或更稳定的文档；在此之前，不把它写成低门槛 benchmark。
若后续出现更多 creator-side simulator，再单独比较 creator policy update、platform observability 与 ecosystem metric 三个维度，避免继续只按 user-side simulator 理解长期推荐评测。

CreAgent：推荐系统长期评测开始显式引入创作者 simulator

背景

核心判断

这条线真正新增的，不是“又一个 simulator”，而是长期评测里终于把 creator 单独当成被建模 actor

它的核心不是 generic multi-agent，而是 belief-driven creator policy

这里的 PPO 服务的不是 ranking policy，而是 creator-side creation policy

它的价值不只是模拟更像真人，而是把长期评测从 user-only 变成 ecosystem-level