OpenOneRec 正在先把公开底盘补到前训练层
这一轮最值得记录的,不是又多出一篇解读 OneRec 的文章,而是 OpenOneRec 官方公开栈在 2026-03-20 这个时间点已经出现了一个更清晰的形状:
它确实还在继续开放,但最新补出来的主要是 tokenizer、pretrain checkpoint、multimodal embedding 和数据配方这些底层资产,而不是一套已经能把工业 RL 流程完整跑起来的 turnkey 方案。
这和上一轮的判断正好接起来。上一轮我写的是:OpenOneRec 已经进入公开生态期,但公开化不等于完全可复现。现在再往前看一步,能更具体地说成:
OpenOneRec 正在先把公开底盘补到前训练层。
这轮到底新增了什么
先看官方材料里的明确时间点。
- OpenOneRec GitHub README 和 OneRec-8B 模型卡 都把
2026-01-01作为第一波公开节点,重点是技术报告、foundation models 和RecIF-Bench。 - OneRec-tokenizer 的 Hugging Face API 显示
lastModified为2026-01-05。它公开的是 residual K-means tokenizer 及训练 / 推理脚本,用来把连续 embedding 编成 itemic token。 - OpenOneRec/ALPBench 的 Hugging Face API 显示
lastModified为2026-01-28。README 说明它覆盖Apparel / Fish / Pants / Phone / Racket / Shoes / Snacks / Wine八个类目,做的是属性级商品预测。 - OpenOneRec/OneRec-8B-pretrain 这一类 pretrain checkpoint 的 Hugging Face API 显示官方在
2026-03-05新增了四个 pretrain 权重:1.7B / 8B / 1.7B-pro / 8B-pro。 - OpenOneRec/openonerec_multimodal_embedding 的 Hugging Face API 显示
lastModified为2026-03-17。它的 README 写有17,433,569个pid,并区分图文双模态、纯图像和纯文本覆盖。
如果把这几个点连起来看,方向很清楚:
OpenOneRec 最新补强的不是“更完整的 RL 训练脚本”,而是支撑推荐 foundation model 的底层拼图。
它先公开的是哪些层
这轮新资产大致可以分成四层。
第一层是 tokenization。
OneRec-tokenizer 公开的 residual K-means tokenizer,不只是一个小工具。它实际上回答了 OpenOneRec 最底层的一个关键问题:推荐 item 怎么进入语言模型的 token 空间。没有这一层,所谓 itemic token 很容易停在论文概念。
第二层是 pretrain base。
OneRec-8B-pretrain 这类模型卡写得很直接:官方放出这些 checkpoint,是为了让外部研究者做定制化的 post-training 和 alignment。这说明公开策略已经不只是“给你一个最终模型看看效果”,而是开始给出更靠前的训练起点。
第三层是 multimodal representation。
openonerec_multimodal_embedding 这种数据看上去不像 headline,但它很重要,因为 itemic token 和跨模态对齐并不是凭空来的。17,433,569 个 pid 的 embedding 覆盖,说明官方已经开始把“item 如何变成可训练 token 序列”这件事拆成可见的公开资产。
第四层是 data recipe。
OpenOneRec-General-Pretrain 和 OpenOneRec-General-SFT 两个数据卡虽然不是这轮才发布,但它们对当前判断非常关键,因为官方已经把通用预训练和通用 SFT 使用了哪些 Hugging Face 数据集、样本量大概多少、如何转成统一 Parquet 格式都写出来了。
这几层放在一起,说明 OpenOneRec 正在优先开放的是:
- item 表征怎么做
- foundation checkpoint 从哪里起跑
- 通用能力恢复和混训配方怎么搭
- 多模态资产怎样接入推荐模型
但最难的那一层还没完全打开
真正值得警惕的,不是“公开进展慢”,而是不要把“已经公开很多资产”误读成“工业推荐 RL 已经完全外化”。
几个官方信号放在一起看,边界其实很清楚。
- OpenOneRec GitHub README 现在仍写着:
Code release and detailed usage instructions are coming soon. - 同一个
README的 roadmap 里还列着One-click reproduction、Docs & tutorials和Unified VeRL integration,说明他们自己也承认当前版本还没有达到“外部直接一键复现”的状态。 - OpenOneRec-RecIF 的 Hugging Face API 在
2026-03-20显示gated: auto。我直接访问 raw README 时拿到的是“需要 access 并登录”的提示。这说明 benchmark 虽然挂出来了,但访问门槛仍然存在。
这三个点很重要,因为它们共同说明:
OpenOneRec 公开的更多是底盘,而不是已经完全放平的实验门槛。
这对 LLM-RL 协同推荐意味着什么
如果把这个项目的重点放在 LLM-RL 协同推荐,这轮新增会直接改写后续的研究方式。
过去我们很容易把问题问成:“快手到底有没有把 RL 开出来?”
现在更合适的问法应该是三层分开看:
- 今天已经可用的公开资产是什么。
- 今天可见但仍有权限或工程门槛的资产是什么。
- 今天还没有变成外部 turnkey 方案的资产是什么。
按这个框架看,当前答案大致是:
- 已可直接拿来研究的,是
tokenizer、部分 foundation / pretrain checkpoints、多模态 embedding、ALPBench,以及通用数据配方说明。 - 仍有门槛的是
RecIF-Bench这类 benchmark 入口。 - 仍未完整公开的是把推荐后训练、
RL、distillation 和VeRL真正统一起来的复现链条。
这也意味着,外部研究者已经可以开始做两类工作:
- 以前训练 checkpoint 为起点,自建下游
post-training或 alignment 实验 - 围绕 itemic token、多模态表征和公开数据配方复刻底层训练路径
但如果目标是严格重现快手工业推荐 RL 闭环,现在还不该把 OpenOneRec 误判成“已经 fully reproducible”。
中文传播层也开始跟上,但一手链路还是不够强
这轮我顺手补看了中文传播层。
Arthur Chiao 这篇 OpenOneRec 笔记 至少说明,中文技术社区已经开始把 RecIF-Bench、两阶段对齐和公开模型当成一个完整主题来消化。Bilibili 也已经出现了对应的视频稿。
但截至 2026-03-20,我仍然没有找到足够稳定、可持续回溯的一手 xhslink 链路。这意味着中文传播层已经出现,但高价值小红书线索还没有沉淀成能长期依赖的来源池。
当前判断
如果上一轮的结论是“OpenOneRec 已进入公开生态期”,那这一轮我会把判断再往前推半步:
OpenOneRec 的公开生态正在继续长,但它目前优先长出来的是“前训练与表征底盘”,不是“RL 终态复现层”。
这对 Story Lab 很关键,因为它决定了我们接下来不该只问“它开源了没有”,而要继续拆成三张清单:
- 已公开且可直接研究的资产清单
- 可见但 gated / 有门槛的资产清单
- 尚未公开成 turnkey 的
RL / VeRL / post-training清单
只有这样,后面做 LLM-RL 协同推荐 的 story,才不会把“公开生态在扩”误写成“工业闭环已完全开放”。