研究路线图
当前阶段不追求面面俱到,而是沿着 OneRec -> OneRec-V2 -> OneRec-Think -> OpenOneRec -> 可复现实验基座 这条路径往前推。
主线
- 生成式推荐重构:研究 OneRec 这类端到端生成式推荐架构,理解它如何替代传统多阶段 pipeline。
- RL 主线补桥:跟踪 OneRec-V2 Technical Report 这类围绕真实用户反馈、reward shaping 与 decoder-only scaling 的工业演进,理解 RL 为什么开始真正吃到在线收益。
- 推理增强:跟踪 OneRec-Think 这类显式推理推荐模型,重点看 reasoning scaffolding、奖励设计和线上部署形态。
- RL 协同优化:从推荐专用 reward、真实反馈、多目标平衡和偏好多解性这几个角度沉淀问题框架。
- 可复现与开源:以 OpenOneRec 作为公开实验入口,避免只停留在论文层。
- 数据基座:用 KuaiRec 和 KuaiRand 衔接离线验证。
为什么先看快手这条线
- OneRec Technical Report 已经给出工业级端到端生成式推荐的系统报告。
- OneRec-V2 Technical Report 补上了 OneRec 主线里最关键的一次 RL 转向:从 reward model 走向真实用户反馈对齐。
- OneRec-Think: In-Text Reasoning for Generative Recommendation 直接把推荐问题推进到显式推理与 reward design。
OpenOneRec已经以“开放基础模型与 benchmark”的姿态公开,适合变成这个项目的实验底盘。
当前不做的方向
- 泛泛而谈的 AIGC 内容站
- 多语种并行内容
- 与推荐无关的 LLM 通用工具链整理
- 已经撤销公网暴露的
zc.20041023.xyz
近期里程碑
- 恢复
story.20041023.xyz - 固化收集、去重、总结、Story synthesis、发布的本地 workflow
- 建立首批种子论文池
- 形成第一版问题地图:reward、reasoning、长期目标、数据闭环、线上指标