OpenOneRec 正在先把公开底盘补到前训练层

这一轮最值得记录的,不是又多出一篇解读 OneRec 的文章,而是 OpenOneRec 官方公开栈在 2026-03-20 这个时间点已经出现了一个更清晰的形状:

它确实还在继续开放,但最新补出来的主要是 tokenizerpretrain checkpointmultimodal embedding 和数据配方这些底层资产,而不是一套已经能把工业 RL 流程完整跑起来的 turnkey 方案。

这和上一轮的判断正好接起来。上一轮我写的是:OpenOneRec 已经进入公开生态期,但公开化不等于完全可复现。现在再往前看一步,能更具体地说成:

OpenOneRec 正在先把公开底盘补到前训练层。

这轮到底新增了什么

先看官方材料里的明确时间点。

  1. OpenOneRec GitHub READMEOneRec-8B 模型卡 都把 2026-01-01 作为第一波公开节点,重点是技术报告、foundation models 和 RecIF-Bench
  2. OneRec-tokenizer 的 Hugging Face API 显示 lastModified2026-01-05。它公开的是 residual K-means tokenizer 及训练 / 推理脚本,用来把连续 embedding 编成 itemic token。
  3. OpenOneRec/ALPBench 的 Hugging Face API 显示 lastModified2026-01-28。README 说明它覆盖 Apparel / Fish / Pants / Phone / Racket / Shoes / Snacks / Wine 八个类目,做的是属性级商品预测。
  4. OpenOneRec/OneRec-8B-pretrain 这一类 pretrain checkpoint 的 Hugging Face API 显示官方在 2026-03-05 新增了四个 pretrain 权重:1.7B / 8B / 1.7B-pro / 8B-pro
  5. OpenOneRec/openonerec_multimodal_embedding 的 Hugging Face API 显示 lastModified2026-03-17。它的 README 写有 17,433,569pid,并区分图文双模态、纯图像和纯文本覆盖。

如果把这几个点连起来看,方向很清楚:

OpenOneRec 最新补强的不是“更完整的 RL 训练脚本”,而是支撑推荐 foundation model 的底层拼图。

它先公开的是哪些层

这轮新资产大致可以分成四层。

第一层是 tokenization

OneRec-tokenizer 公开的 residual K-means tokenizer,不只是一个小工具。它实际上回答了 OpenOneRec 最底层的一个关键问题:推荐 item 怎么进入语言模型的 token 空间。没有这一层,所谓 itemic token 很容易停在论文概念。

第二层是 pretrain base

OneRec-8B-pretrain 这类模型卡写得很直接:官方放出这些 checkpoint,是为了让外部研究者做定制化的 post-trainingalignment。这说明公开策略已经不只是“给你一个最终模型看看效果”,而是开始给出更靠前的训练起点。

第三层是 multimodal representation

openonerec_multimodal_embedding 这种数据看上去不像 headline,但它很重要,因为 itemic token 和跨模态对齐并不是凭空来的。17,433,569pid 的 embedding 覆盖,说明官方已经开始把“item 如何变成可训练 token 序列”这件事拆成可见的公开资产。

第四层是 data recipe

OpenOneRec-General-PretrainOpenOneRec-General-SFT 两个数据卡虽然不是这轮才发布,但它们对当前判断非常关键,因为官方已经把通用预训练和通用 SFT 使用了哪些 Hugging Face 数据集、样本量大概多少、如何转成统一 Parquet 格式都写出来了。

这几层放在一起,说明 OpenOneRec 正在优先开放的是:

  1. item 表征怎么做
  2. foundation checkpoint 从哪里起跑
  3. 通用能力恢复和混训配方怎么搭
  4. 多模态资产怎样接入推荐模型

但最难的那一层还没完全打开

真正值得警惕的,不是“公开进展慢”,而是不要把“已经公开很多资产”误读成“工业推荐 RL 已经完全外化”。

几个官方信号放在一起看,边界其实很清楚。

  1. OpenOneRec GitHub README 现在仍写着:Code release and detailed usage instructions are coming soon.
  2. 同一个 README 的 roadmap 里还列着 One-click reproductionDocs & tutorialsUnified VeRL integration,说明他们自己也承认当前版本还没有达到“外部直接一键复现”的状态。
  3. OpenOneRec-RecIF 的 Hugging Face API 在 2026-03-20 显示 gated: auto。我直接访问 raw README 时拿到的是“需要 access 并登录”的提示。这说明 benchmark 虽然挂出来了,但访问门槛仍然存在。

这三个点很重要,因为它们共同说明:

OpenOneRec 公开的更多是底盘,而不是已经完全放平的实验门槛。

这对 LLM-RL 协同推荐意味着什么

如果把这个项目的重点放在 LLM-RL 协同推荐,这轮新增会直接改写后续的研究方式。

过去我们很容易把问题问成:“快手到底有没有把 RL 开出来?”

现在更合适的问法应该是三层分开看:

  1. 今天已经可用的公开资产是什么。
  2. 今天可见但仍有权限或工程门槛的资产是什么。
  3. 今天还没有变成外部 turnkey 方案的资产是什么。

按这个框架看,当前答案大致是:

  1. 已可直接拿来研究的,是 tokenizer、部分 foundation / pretrain checkpoints、多模态 embedding、ALPBench,以及通用数据配方说明。
  2. 仍有门槛的是 RecIF-Bench 这类 benchmark 入口。
  3. 仍未完整公开的是把推荐后训练、RL、distillation 和 VeRL 真正统一起来的复现链条。

这也意味着,外部研究者已经可以开始做两类工作:

  1. 以前训练 checkpoint 为起点,自建下游 post-training 或 alignment 实验
  2. 围绕 itemic token、多模态表征和公开数据配方复刻底层训练路径

但如果目标是严格重现快手工业推荐 RL 闭环,现在还不该把 OpenOneRec 误判成“已经 fully reproducible”。

中文传播层也开始跟上,但一手链路还是不够强

这轮我顺手补看了中文传播层。

Arthur Chiao 这篇 OpenOneRec 笔记 至少说明,中文技术社区已经开始把 RecIF-Bench、两阶段对齐和公开模型当成一个完整主题来消化。Bilibili 也已经出现了对应的视频稿。

但截至 2026-03-20,我仍然没有找到足够稳定、可持续回溯的一手 xhslink 链路。这意味着中文传播层已经出现,但高价值小红书线索还没有沉淀成能长期依赖的来源池。

当前判断

如果上一轮的结论是“OpenOneRec 已进入公开生态期”,那这一轮我会把判断再往前推半步:

OpenOneRec 的公开生态正在继续长,但它目前优先长出来的是“前训练与表征底盘”,不是“RL 终态复现层”。

这对 Story Lab 很关键,因为它决定了我们接下来不该只问“它开源了没有”,而要继续拆成三张清单:

  1. 已公开且可直接研究的资产清单
  2. 可见但 gated / 有门槛的资产清单
  3. 尚未公开成 turnkey 的 RL / VeRL / post-training 清单

只有这样,后面做 LLM-RL 协同推荐 的 story,才不会把“公开生态在扩”误写成“工业闭环已完全开放”。