2026-03-19 / roadmap

研究路线图

把 LLM × 推荐系统收敛到一条可执行主线：生成式推荐、推理增强、奖励建模与工业评估。

研究路线图

当前阶段不追求面面俱到，而是沿着 OneRec -> OneRec-V2 -> OneRec-Think -> OpenOneRec -> 可复现实验基座 这条路径往前推。

主线

生成式推荐重构：研究 OneRec 这类端到端生成式推荐架构，理解它如何替代传统多阶段 pipeline。
RL 主线补桥：跟踪 OneRec-V2 Technical Report 这类围绕真实用户反馈、reward shaping 与 decoder-only scaling 的工业演进，理解 RL 为什么开始真正吃到在线收益。
推理增强：跟踪 OneRec-Think 这类显式推理推荐模型，重点看 reasoning scaffolding、奖励设计和线上部署形态。
RL 协同优化：从推荐专用 reward、真实反馈、多目标平衡和偏好多解性这几个角度沉淀问题框架。
可复现与开源：以 OpenOneRec 作为公开实验入口，避免只停留在论文层。
数据基座：用 KuaiRec 和 KuaiRand 衔接离线验证。

为什么先看快手这条线

OneRec Technical Report 已经给出工业级端到端生成式推荐的系统报告。
OneRec-V2 Technical Report 补上了 OneRec 主线里最关键的一次 RL 转向：从 reward model 走向真实用户反馈对齐。
OneRec-Think: In-Text Reasoning for Generative Recommendation 直接把推荐问题推进到显式推理与 reward design。
OpenOneRec 已经以“开放基础模型与 benchmark”的姿态公开，适合变成这个项目的实验底盘。

当前不做的方向

泛泛而谈的 AIGC 内容站
多语种并行内容
与推荐无关的 LLM 通用工具链整理
已经撤销公网暴露的 zc.20041023.xyz

近期里程碑

恢复 story.20041023.xyz
固化收集、去重、总结、Story synthesis、发布的本地 workflow
建立首批种子论文池
形成第一版问题地图：reward、reasoning、长期目标、数据闭环、线上指标

最新 Stories

2026-03-19 / seed

快手种子方向：从 OneRec 到 OneRec-Think

如果这个项目要先抓住 LLM-RL 协同推荐的主线，OneRec 系列是当前最值得优先吃透的一批公开材料。

2026-03-20 / ecosystem

OneRec 主线开始进入公开生态期

OpenOneRec、OneRec-Think 代码仓和中文公开传播同时出现后，OneRec 不再只是一个工业论文案例，而是开始变成可追踪、可复现、可校验的公开研究栈。

2026-03-20 / rl-bridge

OneRec-V2 才是 OneRec 主线里的 RL 桥梁

如果只看 OneRec、OneRec-Think 和 OpenOneRec，会漏掉快手主线里最关键的一次转向。OneRec-V2 明确指出 reward-model-only RL 的局限，并把真实用户反馈对齐、decoder-only scaling 与后续公开栈接了起来。

2026-03-20 / open-stack

OpenOneRec 正在先把公开底盘补到前训练层

截至 2026-03-20，OpenOneRec 官方继续在 Hugging Face 增加 tokenizer、pretrain checkpoint、多模态 embedding 和新数据集，但 benchmark 仍有 gated 门槛，RL / VeRL 统一复现仍未 turnkey。

工作台

2026-03-19 / roadmap

研究路线图

把 LLM × 推荐系统收敛到一条可执行主线：生成式推荐、推理增强、奖励建模与工业评估。

2026-03-19 / workflow

工作流设计

长期项目不靠上下文硬记，而是把知识沉淀到本地文件：来源池、决策记录、工作日志、Story 草稿。

2026-03-19 / status

当前状态

记录 2026-03-19 的基础设施现状、恢复动作和当前剩余缺口。