研究路线图

当前阶段不追求面面俱到,而是沿着 OneRec -> OneRec-V2 -> OneRec-Think -> OpenOneRec -> 可复现实验基座 这条路径往前推。

主线

  1. 生成式推荐重构:研究 OneRec 这类端到端生成式推荐架构,理解它如何替代传统多阶段 pipeline。
  2. RL 主线补桥:跟踪 OneRec-V2 Technical Report 这类围绕真实用户反馈、reward shaping 与 decoder-only scaling 的工业演进,理解 RL 为什么开始真正吃到在线收益。
  3. 推理增强:跟踪 OneRec-Think 这类显式推理推荐模型,重点看 reasoning scaffolding、奖励设计和线上部署形态。
  4. RL 协同优化:从推荐专用 reward、真实反馈、多目标平衡和偏好多解性这几个角度沉淀问题框架。
  5. 可复现与开源:以 OpenOneRec 作为公开实验入口,避免只停留在论文层。
  6. 数据基座:用 KuaiRecKuaiRand 衔接离线验证。

为什么先看快手这条线

当前不做的方向

  • 泛泛而谈的 AIGC 内容站
  • 多语种并行内容
  • 与推荐无关的 LLM 通用工具链整理
  • 已经撤销公网暴露的 zc.20041023.xyz

近期里程碑

  1. 恢复 story.20041023.xyz
  2. 固化收集、去重、总结、Story synthesis、发布的本地 workflow
  3. 建立首批种子论文池
  4. 形成第一版问题地图:reward、reasoning、长期目标、数据闭环、线上指标