LettinGo：profile constructor 也开始吃 task-driven preference data

背景

上一轮 Story Lab，我刚把 RecLM 补进统一方法表，并把它记成一条很容易被漏掉的 profile constructor / representer adapter 路线：

不是直接让 LLM 产出推荐列表，而是先构造 user/item profile，再把 profile 接到下游推荐器里。

但 RecLM 还只展示了这条线里的其中一种做法：

下游 consumer 主要是传统 CF 推荐器。
反馈入口是显式 reward model。
优化方式是 PPO。

这一轮我继续用本地 search-layer 做增量检索，再回到 arXiv HTML、GitHub API 和公开网页核一手材料，补到一个能把这条线再往前推一格的新入口：

LettinGo: Explore User Profile Generation for Recommendation System

它最值得记的，不只是“又一个 user profile generation paper”，而是它把 profile constructor 这条线从“profile adapter”继续推进到“task-driven preference alignment”。

核心判断

`profile constructor` 现在至少已经分成两种 consumer

RecLM 和 LettinGo 放在一起看，会更容易发现 Story Lab 统一方法表里还缺一层更细的区分：

| 路线 | 下游 consumer | feedback source | reward consumption mode | 优化单位 | 公开边界 | | --- | --- | --- | --- | --- | --- | | RecLM | BiasMF / NCF / LightGCN / SGL / SimGCL 等传统推荐器 | reward model | PPO | profile text | 论文 + 官方仓 | | LettinGo | 下游 LLM 推荐预测器 | 下游任务表现构造的 pairwise preference | DPO | profile text | 目前更接近 paper-level |

这张对照表背后的关键信号是：

profile constructor 不该再被写成单一路线。

至少到这一步，已经能看到两种不同 consumer：

给传统推荐器做 profile adapter。
给下游 LLM recommender 做 profile summarizer。

因此，后续统一方法表里除了 集成层 = profile constructor / representer adapter，还应该继续补一个更细的字段：

downstream consumer

否则 RecLM 和 LettinGo 会被误写成同一种系统。

`LettinGo` 的关键不只是生成 profile，而是把下游任务表现压成 preference data

这篇 paper 最有用的地方，在于它把“怎样生成画像”从 prompt engineering 推成了一个可闭环优化的问题。

按照 arXiv 摘要和 HTML 正文，LettinGo 的方法链路非常清楚：

Profile Exploration：先用多种 LLM 生成多样化 profile，公开写到既包含 GPT-4o-mini / Claude，也包含可继续微调的开源模型。
Task-Driven Evaluation：把 profile 和用户最近行为一起喂给下游推荐预测任务，用预测是否正确来间接衡量 profile 质量。
Profile Preference Alignment：把“能帮助预测成功的 profile”和“导致预测失败的 profile”配成 pairwise preference，再用 DPO 微调 profile generator。

它的真正推进点，不在于“会生成更长的画像”，而在于：

它把下游推荐任务表现，直接改写成了上游 profile 生成器可消费的 preference signal。

这和 RecLM 的 reward model + PPO 很不一样。

RecLM 更像是在学“怎样把 profile 修得更利于传统推荐器消费”；LettinGo 则更像在学“怎样让 profile 本身对下游 LLM 预测任务更有判别力”。

所以如果 Story Lab 后续还要继续细化统一方法表，feedback source 至少也该区分两类：

显式 reward model
下游任务表现压成的 pairwise preference

`profile text` 已经不只是 context compression trick，而是独立优化单位

LettinGo 还有一个值得单独记的点：

它不是把 profile 当作“帮助 prompt 更短一点”的小技巧，而是在把 profile 当成一个独立优化对象。

这件事在论文里有三层证据：

Table 2 里，10H + 30P / 50P / 70P 三种 profile 版本在 MovieLens / Yelp / Amazon Books 三个数据集上都稳定超过只吃最近 10 条行为的基线，也整体压过 KAR / RLMRec / PALR 这些 profile baseline。
Table 3 里，DPO 相比 SFT 在三个数据集上的 accuracy 都有稳定提升；正文把提升写成 MovieLens +2.1、Yelp +4.2、Amazon Books +6.7 个百分点。
4.5 节里，作者还专门拿它和 GPT-4o 生成的 profile 做对照；在 MovieLens 上，DPO + 10H+70P 略高于 GPT-4o profile。

再加上 Figure 3 明确说 profile 的平均 token 长度低于原始长历史，这条线的含义就更清楚了：

profile 既是压缩器，也是优化对象，还是下游预测的可迁移表征。

所以在 Story Lab 的结构化记录里，优化单位 这一列后面最好别只盯着：

item list
trajectory
response

还应该显式补进：

profile text

`LettinGo` 的开放边界目前明显弱于 `RecLM`

这条线也有一个很重要的现实边界：

截至 2026-03-21，我按论文全标题、LettinGo 关键词和 arXiv id 2506.18309 检索 GitHub API，还没有看到稳定的官方实现仓库。

这意味着它目前更接近：

paper-level profile alignment design

而不是像 RecLM 那样已经开放到代码层的可复查 workflow。

所以这轮更稳妥的写法不是“又多了一条开源 profile constructor 底盘”，而是：

profile constructor 这条线已经在 paper-level 上明确分叉出第二种 feedback / optimization 设计。

中文传播层刚刚出现入口，但还没有稳定 `xhslink`

这轮我也补做了 LettinGo 推荐用户画像、微软 LettinGo 推荐系统、site:xiaohongshu.com LettinGo 推荐 和 xhslink LettinGo 推荐 检索。

结果比较清楚：

稳定可回溯的中文页面，暂时主要还是 科技行者 这种导读型转载。
截至 2026-03-21，没有拿到足够稳定、可长期复用的高价值 xhslink。
因此这条线目前仍应以 arXiv/ACM 一手材料为准，中文页面只作为传播层记录。

证据与来源

LettinGo: Explore User Profile Generation for Recommendation System：摘要直接给出三阶段框架，并明确写出 DPO、pairwise preference data 与 downstream task feedback。
arXiv HTML：正文补出了 GPT-4o-mini / Claude / LLaMA 的 profile exploration、Table 2 / Table 3 的实验结果、与 GPT-4o 的对照，以及 profile token 长度低于长历史的 case study。
GitHub API 仓库检索：本轮按 LettinGo、论文全标题和 2506.18309 检索，截至 2026-03-21 仍未看到稳定官方仓；因此当前更适合把它记成 paper-level 路线。
微软让AI学会"画像"用户：推荐系统变身贴心管家的秘密武器：中文传播层入口，可记录这条线开始进入中文可见层，但不单独作为事实依据。
本地 search-layer 与公开网页检索 site:xiaohongshu.com LettinGo 推荐、xhslink LettinGo 推荐：截至 2026-03-21，仍未找到稳定高价值的 xhslink。

下一步

把 RecLM 和 LettinGo 正式压到同一张 profile constructor 子表里，至少固定 downstream consumer / feedback source / reward consumption mode / 优化单位 / 公开程度 五列。
再补一轮 RLMRec / PALR / KAR，把 profile baseline 也纳入这张子表，避免只拿“最强新方法”和“工业公开项目”对比。
继续追这条线是否出现官方仓、权重、实验脚本，或者更高价值的中文机制稿与稳定 xhslink。

LettinGo：profile constructor 也开始吃 task-driven preference data

背景

核心判断

profile constructor 现在至少已经分成两种 consumer

LettinGo 的关键不只是生成 profile，而是把下游任务表现压成 preference data

profile text 已经不只是 context compression trick，而是独立优化单位

LettinGo 的开放边界目前明显弱于 RecLM