LFM 到 LangPTune:在 RecLM 之前,language profile 已经开始端到端训练
背景
上一轮我刚把 PALR、RLMRec、KAR 补成一条 profile 前史线,也把 RecLM 和 LettinGo 接成了 profile constructor 的新主线。
但那张图里还留着一个明显空档:
如果只写成 PALR -> RecLM / LettinGo,会让人误以为推荐里的 profile text 是到了 PPO / DPO 时代才第一次成为训练对象。
这一轮继续补检后,我发现这中间其实已经有两篇很关键的公开工作:
Language-Based User Profiles for RecommendationEnd-to-end Training for Recommendation with Language-based User Profiles
它们更适合被记成一条连续的 bridge:
PALR -> LFM -> LangPTune -> RecLM / LettinGo
核心判断
LFM 首先把 profile text 做成了独立系统接口
LFM 最重要的点,不是“又一个会生成用户画像的 prompt”,而是它第一次把 profile text 说成一个独立、可因果操作的系统接口。
论文摘要和 HTML 都把结构写得很清楚:
- encoder
LLM从评分历史生成紧凑的自然语言用户画像 - decoder
LLM再基于这段画像完成评分预测、偏好比较等下游任务
更关键的是,正文直接写到:
- 语言画像可以替代难以解释的高维向量
- 用户如果直接编辑画像,后续推荐会被因果性改变
- 这让
profile不只是解释层,而是可被阅读、可被操控的中间 carrier
这和 PALR 很不一样。
PALR 更像把画像塞进 prompt 里,帮助 LLM 做候选重排;LFM 则把画像从 prompt 片段往前推成了 encoder 和 decoder 之间的独立接口。
所以在 Story Lab 里,LFM 更适合被记成:
language-based profile interface
而不只是“另一种 profile baseline”。
LFM 其实已经提前暴露出后续训练方向
LFM 还有一个很容易被漏掉的价值:
它虽然本身主要还是 zero-shot 设定,但已经把下一步该怎么走说透了。
论文结论里最关键的判断有两条:
- 在 cold-start 条件下,文本画像方案可以优于传统 matrix factorization。
- 但 zero-shot
LFM无法随着更多背景数据继续稳定变强。
作者给出的直接结论是:
后续应该 finetune encoder 和 decoder。
这意味着 LFM 对 Story Lab 的价值,不只是“证明 language profile 可行”,而是:
它已经把 profile constructor 这条线从“可读接口”推到了“值得专门训练的接口”。
从今天回看,RecLM / LettinGo 并不是凭空出现的;LFM 已经把问题先定义成了:
怎样训练一个更有效的 profile generator。
LangPTune 才真正把 recommendation objective 回流到 profile encoder
LangPTune 的关键推进,不在“继续生成画像”,而在:
它把 downstream recommendation utility 明确接回了上游 profile encoder。
论文 1 节和 3.2 节给出的结构非常清楚:
- 它自称是第一条 end-to-end training pipeline,用来优化
LLM-generated user profiles RLSO会为同一用户采样多个 profile,并用 downstream recommender 的表现做 reward- recommender decoder 侧再用 contrastive learning 共同优化
这和 RecLM、LettinGo 都不完全一样。
| 路线 | 训练信号怎样回到 profile | 更像哪一类优化 | | --- | --- | --- | | LFM | 主要还是 zero-shot,可读接口先成立 | interface construction | | LangPTune | recommender utility 直接回流到 encoder | end-to-end system objective | | RecLM | reward model + PPO 精修 profile | explicit reward alignment | | LettinGo | pairwise preference + DPO 对齐 profile | preference alignment |
这张对照背后的含义是:
在 RecLM / LettinGo 之前,公开世界里已经有一条中间路线,专门解决“怎样让 profile generator 直接为 recommendation objective 服务”。
如果后续 Story Lab 只记录 carrier / interface,仍然会把这层差异压扁。
LangPTune 用的是系统效用,不是 RecLM 式 reward model
这条线另一个值得单独记的点,是它的 reward 来源和消费方式。
从论文正文和 README 看,LangPTune 的训练特征至少有四个:
- ranking utility 用的是 bounded 的
NDCG - batch 内会对 utility 做标准化
- policy 侧加了
KLregularization,保证新 profile policy 不离初始模型太远 - decoder 侧不是静态 consumer,而是和 encoder 一起被训练
所以它虽然明显借了 RLHF 的思想,但更准确的说法不是“又一个给 profile 做 PPO / DPO 的方法”。
更接近的表述是:
LangPTune 把 recommendation system 本身变成了 profile encoder 的训练反馈回路。
这对 Story Lab 很重要,因为它说明 profile constructor 这条线至少已经有三种不同的训练逻辑:
- zero-shot / prompt-only
- end-to-end system objective
- explicit reward / preference alignment
因此 profile constructor 子表还要再补一列
上一轮我已经确认,profile constructor 子表不能只记录 downstream consumer,还要补 carrier / interface。
这一轮再往前补 LFM / LangPTune 后,另一条缺口也很清楚了:
还需要再补一列:
constructor optimization regime
至少先区分四类:
zero-shot interface constructionprompt tuningend-to-end system objectiveexplicit reward / preference alignment
否则下面这些方法会被写得过于相似:
LFMLangPTuneRecLMLettinGo
但它们实际上对应的是同一条 profile 主线上的四个不同训练阶段。
LangPTune 的公开边界也值得单独记
这轮我也顺手核了 ZhaolinGao/LangPTune 的公开边界。
当前仓库已经不只是“放一份 README”:
- 根目录能看到
data/、src/、accelerate_cfgs/和environment.yml - README 公开了 Amazon-Movie-TV 的 Hugging Face 数据入口
- 训练命令直接写出
Gemma-2B-it、Llama-3-8B-Instruct、reward_type=ndcg|mrr、kl_coef和更新步数
所以这条线已经开放到:
data prep + training scripts
但它也有明确边界。
GitHub API 显示:
- 仓库创建于
2024-10-23 - 最近一次代码 push 在
2024-10-28 - 论文 arXiv
v2更新时间则是2025-02-12
因此更准确的说法不是“还在持续迭代的 profile training toolkit”,而是:
公开仓已经给出完整可检查入口,但代码活跃度没有继续追到论文后续版本。
中文传播层这轮仍然很弱
这一轮我也继续补做了 LangPTune 推荐 中文、Language-Based User Profiles for Recommendation 中文、site:xiaohongshu.com LangPTune 推荐 和 xhslink LangPTune 推荐 检索。
结果比较明确:
- 稳定高价值中文机制稿仍然很少
- 能看到的主要还是导航层页面和论文摘要页
- 截至
2026-03-21,仍没有拿到可复用的稳定xhslink
所以这条线目前仍应以 arXiv 正文和官方仓库为主,中文传播层暂时不够强,不进来源池也更稳妥。
证据与来源
Language-Based User Profiles for Recommendation:摘要与 HTML 明确写出encoder/decoder结构、cold-start 优势、短输入长度与“后续应 finetune encoder / decoder”的判断。End-to-end Training for Recommendation with Language-based User Profiles:摘要与 HTML 明确写出LangPTune是第一条 end-to-end profile training pipeline,以及RLSO + CL的系统结构。arXiv HTML:1节和3.2节明确写出 downstream recommender utility 如何回流到 profile encoder;4.3节写出 boundedNDCG、batch 标准化与KLregularization;附录D还补出GPT-4与n=150crowdworker interpretability study。ZhaolinGao/LangPTune:README 已公开 Hugging Face 数据入口、Gemma / Llama 训练命令、reward_type与关键超参,说明公开边界不只停在 paper-level。- GitHub API
ZhaolinGao/LangPTune:本轮核到仓库创建于2024-10-23 16:12:22 UTC,最近一次代码 push 为2024-10-28 18:08:13 UTC;这说明公开仓与论文初始版本时间线一致,但没有继续跟到2025-02-12的 arXivv2。 - 本地检索与公开网页检索
site:xiaohongshu.com LangPTune 推荐、xhslink LangPTune 推荐:截至2026-03-21,仍未找到稳定高价值中文机制稿或可复用xhslink。
下一步
- 把
LFM / LangPTune / RecLM / LettinGo压到同一张profile constructor子表里,新增constructor optimization regime一列。 - 再补一轮
LangPTune相关 work 里提到的prompt tuning型 language profile 论文,避免中间阶段只剩 zero-shot 和端到端训练两端。 - 继续跟踪
LangPTune是否出现更晚的正式发表页、数据卡或活跃仓库更新,以及中文传播层是否出现足够稳定的高价值xhslink。