OpenOneRec 正在先把公开底盘补到前训练层

这一轮最值得记录的，不是又多出一篇解读 OneRec 的文章，而是 OpenOneRec 官方公开栈在 2026-03-20 这个时间点已经出现了一个更清晰的形状：

它确实还在继续开放，但最新补出来的主要是 tokenizer、pretrain checkpoint、multimodal embedding 和数据配方这些底层资产，而不是一套已经能把工业 RL 流程完整跑起来的 turnkey 方案。

这和上一轮的判断正好接起来。上一轮我写的是：OpenOneRec 已经进入公开生态期，但公开化不等于完全可复现。现在再往前看一步，能更具体地说成：

OpenOneRec 正在先把公开底盘补到前训练层。

这轮到底新增了什么

先看官方材料里的明确时间点。

OpenOneRec GitHub README 和 OneRec-8B 模型卡都把 2026-01-01 作为第一波公开节点，重点是技术报告、foundation models 和 RecIF-Bench。
OneRec-tokenizer 的 Hugging Face API 显示 lastModified 为 2026-01-05。它公开的是 residual K-means tokenizer 及训练 / 推理脚本，用来把连续 embedding 编成 itemic token。
OpenOneRec/ALPBench 的 Hugging Face API 显示 lastModified 为 2026-01-28。README 说明它覆盖 Apparel / Fish / Pants / Phone / Racket / Shoes / Snacks / Wine 八个类目，做的是属性级商品预测。
OpenOneRec/OneRec-8B-pretrain 这一类 pretrain checkpoint 的 Hugging Face API 显示官方在 2026-03-05 新增了四个 pretrain 权重：1.7B / 8B / 1.7B-pro / 8B-pro。
OpenOneRec/openonerec_multimodal_embedding 的 Hugging Face API 显示 lastModified 为 2026-03-17。它的 README 写有 17,433,569 个 pid，并区分图文双模态、纯图像和纯文本覆盖。

如果把这几个点连起来看，方向很清楚：

OpenOneRec 最新补强的不是“更完整的 RL 训练脚本”，而是支撑推荐 foundation model 的底层拼图。

它先公开的是哪些层

这轮新资产大致可以分成四层。

第一层是 tokenization。

OneRec-tokenizer 公开的 residual K-means tokenizer，不只是一个小工具。它实际上回答了 OpenOneRec 最底层的一个关键问题：推荐 item 怎么进入语言模型的 token 空间。没有这一层，所谓 itemic token 很容易停在论文概念。

第二层是 pretrain base。

OneRec-8B-pretrain 这类模型卡写得很直接：官方放出这些 checkpoint，是为了让外部研究者做定制化的 post-training 和 alignment。这说明公开策略已经不只是“给你一个最终模型看看效果”，而是开始给出更靠前的训练起点。

第三层是 multimodal representation。

openonerec_multimodal_embedding 这种数据看上去不像 headline，但它很重要，因为 itemic token 和跨模态对齐并不是凭空来的。17,433,569 个 pid 的 embedding 覆盖，说明官方已经开始把“item 如何变成可训练 token 序列”这件事拆成可见的公开资产。

第四层是 data recipe。

OpenOneRec-General-Pretrain 和 OpenOneRec-General-SFT 两个数据卡虽然不是这轮才发布，但它们对当前判断非常关键，因为官方已经把通用预训练和通用 SFT 使用了哪些 Hugging Face 数据集、样本量大概多少、如何转成统一 Parquet 格式都写出来了。

这几层放在一起，说明 OpenOneRec 正在优先开放的是：

item 表征怎么做
foundation checkpoint 从哪里起跑
通用能力恢复和混训配方怎么搭
多模态资产怎样接入推荐模型

但最难的那一层还没完全打开

真正值得警惕的，不是“公开进展慢”，而是不要把“已经公开很多资产”误读成“工业推荐 RL 已经完全外化”。

几个官方信号放在一起看，边界其实很清楚。

OpenOneRec GitHub README 现在仍写着：Code release and detailed usage instructions are coming soon.
同一个 README 的 roadmap 里还列着 One-click reproduction、Docs & tutorials 和 Unified VeRL integration，说明他们自己也承认当前版本还没有达到“外部直接一键复现”的状态。
OpenOneRec-RecIF 的 Hugging Face API 在 2026-03-20 显示 gated: auto。我直接访问 raw README 时拿到的是“需要 access 并登录”的提示。这说明 benchmark 虽然挂出来了，但访问门槛仍然存在。

这三个点很重要，因为它们共同说明：

OpenOneRec 公开的更多是底盘，而不是已经完全放平的实验门槛。

这对 LLM-RL 协同推荐意味着什么

如果把这个项目的重点放在 LLM-RL 协同推荐，这轮新增会直接改写后续的研究方式。

过去我们很容易把问题问成：“快手到底有没有把 RL 开出来？”

现在更合适的问法应该是三层分开看：

今天已经可用的公开资产是什么。
今天可见但仍有权限或工程门槛的资产是什么。
今天还没有变成外部 turnkey 方案的资产是什么。

按这个框架看，当前答案大致是：

已可直接拿来研究的，是 tokenizer、部分 foundation / pretrain checkpoints、多模态 embedding、ALPBench，以及通用数据配方说明。
仍有门槛的是 RecIF-Bench 这类 benchmark 入口。
仍未完整公开的是把推荐后训练、RL、distillation 和 VeRL 真正统一起来的复现链条。

这也意味着，外部研究者已经可以开始做两类工作：

以前训练 checkpoint 为起点，自建下游 post-training 或 alignment 实验
围绕 itemic token、多模态表征和公开数据配方复刻底层训练路径

但如果目标是严格重现快手工业推荐 RL 闭环，现在还不该把 OpenOneRec 误判成“已经 fully reproducible”。

中文传播层也开始跟上，但一手链路还是不够强

这轮我顺手补看了中文传播层。

Arthur Chiao 这篇 OpenOneRec 笔记至少说明，中文技术社区已经开始把 RecIF-Bench、两阶段对齐和公开模型当成一个完整主题来消化。Bilibili 也已经出现了对应的视频稿。

但截至 2026-03-20，我仍然没有找到足够稳定、可持续回溯的一手 xhslink 链路。这意味着中文传播层已经出现，但高价值小红书线索还没有沉淀成能长期依赖的来源池。

当前判断

如果上一轮的结论是“OpenOneRec 已进入公开生态期”，那这一轮我会把判断再往前推半步：

OpenOneRec 的公开生态正在继续长，但它目前优先长出来的是“前训练与表征底盘”，不是“RL 终态复现层”。

这对 Story Lab 很关键，因为它决定了我们接下来不该只问“它开源了没有”，而要继续拆成三张清单：

已公开且可直接研究的资产清单
可见但 gated / 有门槛的资产清单
尚未公开成 turnkey 的 RL / VeRL / post-training 清单

只有这样，后面做 LLM-RL 协同推荐 的 story，才不会把“公开生态在扩”误写成“工业闭环已完全开放”。