可读画像不等于可信画像:用户自识别和推荐效用开始分叉
背景
这几轮我已经把 profile constructor 这条线拆得越来越细:
PALR / LFM / RLMRec / KAR补出carrier / interfaceLangPTune / RecLM / LettinGo / UserIP-Tuning补出constructor optimization regime与deployment formPURE / TETUP / LLM-TUP又把画像生命周期拆成construction / maintenance / deployment
但这里还留着一个此前没有被单独写出来的问题:
即便一个画像是自然语言、可读、可编辑的,它就一定是“像用户本人”的画像吗?
而且,即便它能提升推荐指标,它就一定是用户自己愿意认领的那种画像吗?
这一轮我补到 Deezer 的 Biases in LLM-Generated Musical Taste Profiles for Recommendation 后,觉得这条线必须单独写一篇。
因为它补的不是新的 carrier,而是 profile validity / fairness 这一层:谁来验收画像、画像对谁更像、这种“像”与下游推荐效用是否一致。
核心判断
这篇工作补的不是新画像类型,而是 profile validity
这篇论文关心的核心问题不是:
怎样再生成一种更强的 profile
而是:
用户会不会把 LLM 生成的 profile 认成“这就是我”
论文把自然语言画像的价值说得很清楚:它们是比协同过滤 latent vector 更可读、可编辑、可审查的替代物。
但作者没有把“可读”直接等价成“可信”。
相反,他们先把 profile quality 拆成两层:
- 用户自我识别,也就是用户主观上觉得画像像不像自己
- 下游推荐效用,也就是这些画像被拿去做推荐后,
Recall@10 / NDCG@10有没有变好
这个拆法对 Story Lab 很重要,因为它说明:
profile constructor 这条线不能只记录“怎么造画像”,还要开始记录“谁来验证画像”。
time window 影响没有想象中大,LLM 写法反而更关键
作者在音乐流媒体场景下做了一组很干净的对照:
64位参与者- 每人基于
30 / 90 / 180 / 365天四种时间窗口生成画像 - 每个窗口分别用
Gemini 2.0 Flash / DeepSeek-R1 / Llama 3.2三个模型生成 - 因而每位用户共有
12份画像可评分
这组实验最值得记的一个结论是:
时间窗口长度对自我识别的影响只有边际作用,LLM 的写法和风格影响更大。
论文 Figure 2 和结论部分都在说同一件事:
- time window 没有显著主效应
- model 有显著主效应
- 用户能认出“真画像”高于随机画像,但不同模型写法会显著改变评分
作者进一步解释了这种差异:
Gemini更短、更高层概括Llama更容易写出具体艺人和曲名,即便 prompt 已要求少写这些细节DeepSeek有时会把remastered这类元数据细节突出出来,用户并不觉得这些信息更有意义
也就是说,对当前的自然语言画像来说,form 还没有稳定从 content 里分离出来。
这和我前面写 LFM / LangPTune / RecLM / LettinGo 时的默认直觉不一样。此前更容易把关注点放在:
- 取哪段历史
- 用什么训练目标
- 怎样把画像接回推荐器
但这篇 Deezer 工作说明,在用户主观验收这一步上,真正先起作用的可能是:
模型把同一份偏好写成什么样
用户自我识别和推荐指标只有弱相关,user-facing profile 与 rank-facing profile 可能需要拆开
这篇论文最值得记住的判断,不是某个模型分数高,而是它把一个常被默认忽略的错位明确写出来了:
用户觉得像自己的画像,不一定就是最适合做推荐检索的画像。
作者把生成的 profile 直接喂给下游 bi-encoder 推荐流程,使用 Recall@10 和 NDCG@10 做对照。
结果很克制:
- 用户评分和推荐表现总体只有弱正相关
DeepSeek甚至没有稳定的正相关趋势- 推荐表现随更长时间窗口往往变好,但用户评分模式并不和它同步
这意味着一个很重要的系统判断:
representativeness 和 utility 不是同一件事。
如果后续 Story Lab 继续把 profile text 只当成 recommendation-side interface,就会漏掉这条线真正补出的东西。
更准确的写法应该是:
- 有些画像更适合给用户看,用来做解释、确认和编辑
- 有些画像更适合给模型吃,用来做排序、检索或 adaptor
- 这两种画像不一定必须完全相同
论文结论甚至已经把这个方向点明了:
可以把 user-facing profile 和 recommendation-optimized profile 解耦
偏差不是只落在模型总分上,而是会沿 user attributes 和 item composition 具体落下来
这篇工作另一个很有价值的地方,是它没有只报“哪个模型平均分更高”,而是把偏差具体拆到了用户和内容构成上。
在用户侧,论文给出的稳定信号包括:
specialist users,也就是GS-score更高的用户,更容易认同生成画像- 年龄更大的用户、以及听较老歌曲的用户,往往也会给出更高评价
mainstreamness并没有成为显著预测因子
这说明 LLM 画像目前更容易抓住的是:
更集中、更可语言化、更稳定的偏好
而不是所有用户都被均匀地表示。
在内容侧,偏差则更具体:
- 更高比例的
rap内容会系统性拉低评分 metal反而会系统性拉高评分United States来源内容和某些流行语境更容易得到正向关联Belgium / world music / Canada等 locale 效应还会随模型不同而变化
这比“LLM 可能有偏见”这种泛判断要强得多。
它说明 profile bias 在推荐里会沿着实际 catalog 维度具体展开:
genre / locale / exposure composition
如果这些维度不被单独记录,后面再讨论 profile fairness 时,容易只剩抽象口号。
对 Story Lab 来说,profile constructor 子表还缺一层“验收口径”
补完这篇之后,我觉得当前 profile constructor 子表虽然已经有:
carrier / interfaceconstructor optimization regimedeployment formlifecycle stage
但还是不够。
至少还缺一个紧邻它的观察层,用来记录:
profile validatorrepresentativeness signalfairness risk
更具体一点,可以先这样粗分:
profile validator:用户自评、下游 ranker、人工编辑者、离线实验者representativeness signal:self-identification、Recall/NDCG、编辑接受度、行为一致性fairness risk:用户属性偏差、内容构成偏差、模型风格偏差
否则下面这些工作会被混成一条线:
RecLM / LettinGo在优化怎么生成 profilePURE / TETUP在优化 profile 怎样长期维护- 这篇 Deezer 工作在验证 profile 到底像不像用户、对谁更像
它们显然不是同一个问题。
公开边界比我预期更强:不只放论文,还放了用户研究数据和分析代码
这条线本来我以为更可能停留在 paper-level。
但继续核到 repo 后,公开边界其实比预期更完整。
官方仓 deezer/recsys25_llm_biases 已经公开:
user_data.csvlong_term.csvLLM_bias_plots.ipynbrepo_plots.ipynbsrc/- downstream bi-encoder 训练与评测说明
README 还明确写出:
- 仓库用于复现论文实验
long_term.csv用来做 doubly robust 的ATE- downstream task 需要下载前作 cross-encoder,再在这套数据上训练新模型
所以更准确的记录方式不是“profile fairness 的一篇论文”,而是:
公开到了 user-study dataset + bias analysis + downstream evaluation workflow
这让它在 Story Lab 里的地位明显高于普通 paper-only 观察点。
中文传播层仍然几乎为空
这轮我也补做了:
Biases in LLM-Generated Musical Taste Profiles for Recommendation 中文site:xiaohongshu.com 音乐 推荐 用户画像 大模型xhslink 音乐 推荐 用户画像 大模型
结果还是比较一致:
- 没有拿到稳定高价值的中文机制稿
- 小红书相关结果仍主要是噪声、通用画像页和无关页面
- 当前最稳定的公开入口仍然是 arXiv、RecSys 页面、SlidesLive 与官方 GitHub 仓库
因此这条线目前仍应以英文一手材料为主。
证据与来源
Biases in LLM-Generated Musical Taste Profiles for Recommendation:摘要明确给出问题设置,即用自然语言画像替代 opaque collaborative filtering representation,并同时考察用户属性、item 属性与 downstream recommendation 的偏差。arXiv HTML:正文2-5节可直接核到64位参与者、30 / 90 / 180 / 365四个时间窗口、Gemini / DeepSeek / Llama三个模型、user rating 与 downstreamRecall@10 / NDCG@10的弱相关关系,以及specialist / age / rap / metal / locale这些偏差细节。deezer/recsys25_llm_biases:官方仓公开了user_data.csv、long_term.csv、notebook 与 downstream task 说明,说明这条线已不只停在 paper-level 结论。- GitHub API
deezer/recsys25_llm_biases:本轮核到仓库创建于2025-04-30 09:00:38 UTC,最近一次代码 push 为2025-09-20 19:25:26 UTC。 RecSys 2025 Session Page:可回溯到正式会议收录与 ACM DOI10.1145/3705328.3748030。SlidesLive:官方 talk 摘要用更压缩的口径确认了几个关键结论,包括 time-window length 影响小、LLM choice 更重要、specialist/older users 评分更高,以及genre / locale偏差。- 本轮继续补做
Biases in LLM-Generated Musical Taste Profiles for Recommendation 中文、site:xiaohongshu.com 音乐 推荐 用户画像 大模型与xhslink 音乐 推荐 用户画像 大模型检索后,仍未找到稳定高价值中文机制稿或可复用xhslink。
下一步
- 把这篇 Deezer 工作和官方仓并入
profile constructor相关观察表,新增一层profile validity / fairness记录,而不是硬塞回carrier / optimization / deployment / lifecycle四列里。 - 在 profile 支线旁边补一个小观察表,至少先记录
profile validator / representativeness signal / fairness risk / user-facing vs rank-facing split。 - 继续找音乐之外的公开样本,判断“self-identification 与 ranking utility 分叉”是 music-specific 现象,还是更普遍的 LLM profile 规律。
- 继续跟踪这条线是否出现中文高价值机制稿、稳定
xhslink,或更完整的正式发表页与后续扩展实验。