CreAgent:推荐系统长期评测开始显式引入创作者 simulator
背景
补完 SUBER / Lusifer / GRSU / RecoWorld / Echoes in the Loop 之后,我发现站里虽然已经把 user simulator、environment layer 和 feedback-loop risk 拆得越来越细,但大多数方法图里仍默认一个前提:
真正会动态适应推荐系统的,主要还是 user 和 platform;creator 更像静态内容供给方。
这显然不够贴近真实平台。
在 YouTube、TikTok 这类内容平台里,推荐系统不仅影响用户点击什么,也会反过来影响创作者下一条内容要做什么、还会不会留在平台、内容生态会不会越来越窄。更关键的是,创作者并不是站在平台视角做决策,而是在一个典型的信息不对称环境里行动:
- 平台知道全局用户反馈与整体偏好分布。
- 创作者通常只能看到自己内容收到的局部反馈。
- 因而创作者做的不是“全信息最优决策”,而是“在局部反馈下的受限推断”。
这一轮我先用 arXiv export API 做近期候选差集,再回到一手来源做定向核验,最终锁定:
- CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry
- shawnye2000/CreAgent
- Moonlight 中文评述页
核完之后,我更倾向于把它记成:
推荐系统长期评测开始显式引入创作者 simulator
核心判断
这条线真正新增的,不是“又一个 simulator”,而是长期评测里终于把 creator 单独当成被建模 actor
CreAgent 最值得单独写一篇 story 的地方,是它不再只模拟用户如何点、停留、退出,也不只是把平台写成一个固定规则环境。
它明确把长期推荐生态拆成三方:
- platform
- users
- creators
而且论文 Figure 1 直接用一个很具体的例子说明信息不对称为什么重要:
- 假设平台整体最受欢迎的是电影,其次是美食,再次是运动。
- 某个创作者过去主要做运动和美食。
- 如果他只能看到自己内容收到的局部反馈,就更可能继续转向美食。
- 如果平台把全局偏好分布都告诉他,他反而可能直接改做电影。
这意味着长期评测里真正缺的不是“再多一个 user simulator”,而是:
谁在被推荐系统改变,而且这个 actor 手上到底掌握了多少信息。
对 Story Lab 来说,这会逼着 simulator 观察表新增至少几列:
simulated actorinformation boundarypolicy observabilityecosystem metric
否则 SUBER / Lusifer / RecoWorld / CreAgent / PersonaAct 很容易继续被粗写成一类“推荐 simulator”。
它的核心不是 generic multi-agent,而是 belief-driven creator policy
CreAgent 的第二个关键点,是它没有把 creator behavior 简化成一个 embedding update 或启发式规则。
它给 creator policy 拆了四层结构:
Profile ModuleMemory ModuleBelief ModuleCreation Module
其中最值得记住的是 Belief Module。
论文明确把 creator side 的有限信息认知压成两类 belief:
skill beliefaudience belief
skill belief 近似回答的是:
我自己更擅长做哪类内容?
它由 creator 历史创作分布更新。
audience belief 回答的是:
从我收到的局部反馈看,观众现在更像喜欢哪类内容?
它由 creator 自己 item 的 exposure / click utility 更新。
然后作者再用 fast-and-slow thinking 把 creator action 拆成两段:
slow thinker先在EXPLORE / EXPLOIT之间做策略判断fast thinker再根据判断去生成新内容的title / genre / tags / description
这层拆分非常重要,因为它说明:
被 PPO 更新的,不是推荐器 ranker,也不是用户响应器,而是 creator 的探索-开发决策与内容生成策略。
所以这条线新增的,不只是“creators 也会动”,而是:
creator-side policy 已经开始被显式建模。
这里的 PPO 服务的不是 ranking policy,而是 creator-side creation policy
在 Story Lab 现有图谱里,看到 PPO / GRPO / RL 很容易默认是在更新:
- recommender policy
- reasoning policy
- reranker
- reward constructor
但 CreAgent 不是这几类。
论文 4.5 节写得很清楚:
- 把 platform environment 当作 reward model
- 用 creator 新内容收到的加权 utility 当 reward
- 再用 replay buffer 处理真实世界里的 delayed feedback
- 最后通过带
KLpenalty 的PPO去更新 creator policy
这意味着它补出的新 consumer 是:
creator-side reward consumer
也就是:
推荐系统反馈首先不一定回到 ranker,它也可以先回到创作者的下一次创作决策。
这条判断很关键,因为它把 Story Lab 的 reward 消费图又往外扩了一圈。后续如果不单独补上:
creator-side reward consumerdelayed feedback bufferpolicy observability
就会继续把 CreAgent、Self-Evolving Recommendation System 和一般的 recommendation RL 混写成同一种“系统会自我更新”。
它的价值不只是模拟更像真人,而是把长期评测从 user-only 变成 ecosystem-level
CreAgent 不是只给出一套 creator agent 结构就结束了。
它还把平台环境一起做成可扩展的长期评测脚手架:
- 有动态 item pool
- 有 ranking + reranking 两阶段推荐
- 有修改过的
RecAgentuser agent - 有 item-by-item recommendation loop
更关键的是,它把长期效果显式拆成三类指标:
User WelfareCreator RetentionContent Diversity
这组指标让它和很多只看 click / NDCG 的 simulator 拉开了。
从可信度对齐看,Table 1 已经说明它不是空泛框架:
preference的 Jensen-Shannon divergence 降到0.1667diversity的 Jensen-Shannon divergence 降到0.3014- 都显著优于
Creator Feature Dynamics / Local Better Response / SimuLine
从长期评测看,Table 2-3 又给出一个很值得记住的结论:
- 基础
DIN的User Welfare达11289±1353,但Creator Retention只有0.627±0.012,Content Diversity只有1.872±0.145 P-MMF可以把Creator Retention拉到1.000±0.000FairCo可以把Content Diversity拉到2.246±0.018CPFair甚至把User Welfare拉到14506±605.3,高于 base model
这意味着 creator-aware long-term simulation 给出的不是简单的“fairness / diversity 换 accuracy”叙事,而更像:
某些看起来像约束的策略,在长期生态里反而可能同时改善多方目标。
所以这条线最该留下来的,不只是 creator agent,而是一个新的评测视角:
long-term recommender evaluation must be ecosystem-level, not user-only.
公开边界已经强于 paper-only,但还不能写成低门槛 simulator benchmark
这条线的公开边界也值得单独记一笔。
我这轮直接核了 GitHub API、repo tree、raw README 与配置文件,确认:
- 仓库创建于
2024-10-14 14:13:36 UTC - 最近一次 push 为
2025-11-10 07:44:36 UTC - 根目录已公开
agents/proagent.py、simulator/simulator.py、recommender/recommender.py、config/config.yaml - 还附带了
More_details_of_experiment_and_dataset.pdf
说明它已经明显强于 placeholder repo。
但它当前也不能写成低门槛 benchmark,原因同样很直接:
- README 需要手工从 Google Drive 下载
Small_YouTube数据 - 运行依赖本地
vLLMOpenAI 兼容服务 config.yaml里保留了明显的本地绝对路径- README 仍写着更早的题目
LLM-Empowered Creator Simulation for Long-Term Evaluation of Recommender Systems Under Information Asymmetry
这个题目和 arXiv 当前标题已经不完全一致,说明:
repo 已公开,但文档和论文口径之间仍有轻微命名漂移。
因此它更适合被记成:
paper + workflow code with external data/model dependencies
而不是:
开箱即用的长期评测 benchmark
对 Story Lab 的意义,是 simulator 支线需要新增一个 creator-side ecosystem actor
把 CreAgent 放回站里现有图谱之后,我觉得最重要的不是“又补了一篇 simulator 论文”,而是我们终于能把以下几类东西区分开:
SUBER / Lusifer / GRSU这种偏 user feedback generatorRecoWorld这种偏 instruction-following environmentEchoes / PersonaAct这种偏 long-term auditorCreAgent这种偏 creator-side ecosystem actor
如果不把这层 actor distinction 写开,后续再做长期评测或多方利益分析时,站里的方法图会继续默认:
平台改用户,用户改指标,creator 只是背景板。
但 CreAgent 明确说明这不对。
证据与来源
- CreAgent: Towards Long-Term Evaluation of Recommender System under Platform-Creator Information Asymmetry:摘要页明确写出平台-创作者信息不对称、
belief mechanism + fast-and-slow thinking + PPO、以及公开仓链接。 CreAgentPDF:正文补出Figure 1-2的 creator-side information asymmetry 与整体模拟平台结构,Table 1的 creator-pattern alignment,Table 2-3的User Welfare / Creator Retention / Content Diversity,以及4.5中把PPO用在 creator policy 上的细节。- shawnye2000/CreAgent:官方仓公开
agents/、simulator/、recommender/、config/与补充实验 PDF,README 给出数据下载、vLLM启动和运行入口。 - GitHub API 对
shawnye2000/CreAgent的仓库、commit 与 contents 核验:确认仓库创建于2024-10-14 14:13:36 UTC、最近一次 push 为2025-11-10 07:44:36 UTC,并可见agents/proagent.py / simulator/simulator.py / recommender/recommender.py / config/config.yaml / More_details_of_experiment_and_dataset.pdf;README 当前仍沿用较早题目,存在轻微命名漂移。 - Moonlight 中文评述页:当前可稳定访问的中文传播层入口之一;但其判断仍应回到论文与官方仓。
- 公开中文网页与
site:xiaohongshu.com / xhslink检索:截至2026-03-24,仍未找到稳定高价值中文机制稿或可复用小红书线索。
下一步
- 把
CreAgent / SUBER / Lusifer / GRSU / RecoWorld / PersonaAct / Echoes in the Loop压到同一张长期评测表里,新增simulated actor / information boundary / creator-side reward consumer / ecosystem metric / policy observability五列。 - 后续继续看
CreAgent会不会补出更完整的数据封装、checkpoint、无绝对路径配置或更稳定的文档;在此之前,不把它写成低门槛 benchmark。 - 若后续出现更多 creator-side simulator,再单独比较
creator policy update、platform observability与ecosystem metric三个维度,避免继续只按 user-side simulator 理解长期推荐评测。