TETUP 到 LLM-TUP:画像维护不只做压缩,也开始做双时域拆分
背景
补完 PURE 之后,我原本已经把 profile maintenance 先理解成一条比较清楚的支线:
- 从持续新增的评论和历史里抽取稳定偏好
- 再把这些偏好压成更紧凑的 profile
- 让推荐系统不必每次都回放整段原始文本
但继续往下检索后,我发现公开世界里还有另一种做法。
同一组作者在 2025-05-01 先放出 Towards Explainable Temporal User Profiling with LLMs,到 2025-08-11 又放出后续版 Temporal User Profiling with LLMs: Balancing Short-Term and Long-Term Preferences for Recommendations;对应仓库 TETUP 和 LLM-TP 也都已经公开。
这条线值得写进 Story Lab,不是因为它又发明了一种新的 profile 名词,而是因为它把“维护用户画像”这件事,从单一压缩推进成了显式的时间分层。
核心判断
PURE 之外,maintenance 还有另一种公开解法:不是只压缩,而是先拆 horizon
PURE 的关键矛盾是:
long-term preference retention vs context budget
它通过 Review Extractor -> Profile Updater -> Recommender 去把越来越长的评论历史压回一个可控的状态对象。
而 TETUP / LLM-TUP 的系统假设不太一样。
这条线不是把所有历史先揉成一段统一摘要,再交给下游系统;它显式要求 LLM 分别生成两份自然语言画像:
- 最近行为对应的
short-term profile - 更稳定偏好对应的
long-term profile
之后再把这两份文本画像编码成向量,并通过 attention 动态融合成最终的 user representation。
也就是说,这条 temporal profile 路线的第一步不是压缩,而是:
先拆时间尺度,再做融合
这让 profile maintenance 的含义变得更具体了。
它不只是在回答“怎样把历史压短”,还在回答:
要不要把短期意图和长期口味当成两个并存的状态对象
这不是又一个普通 profile baseline,而是 dual-horizon profile carrier
从 TETUP 摘要到 LLM-TUP 摘要,真正稳定不变的核心设计其实只有三步:
- 用 interaction timestamps 把用户历史切成 short-term 和 long-term 两段
- 用
LLM把这两段历史各自写成自然语言 profile - 用 attention 在下游推荐时动态平衡两种 profile 的权重
这里最重要的不是“模型里有 attention”。
真正重要的是,它把 profile 的接口形态从单一 carrier,推进成了:
dual-horizon natural-language profiles
这和我前面已经补过的几条路线都不同:
PURE更像single compact profileLFM / LangPTune / RecLM / LettinGo更像在优化单一 language-profile interfaceUserIP-Tuning更像把 latent profile 压成 deployment-ready ID
TETUP / LLM-TUP 的新信息是:
即使都还停留在文本画像接口,profile 也不一定只有一份。
它完全可能同时保留:
- 近期意图
- 稳定偏好
然后把两者的消费权重交给后续模块动态决定。
所以对 Story Lab 来说,这条线更适合被记成:
dual-horizon profile structuring
而不是“又一个会生成 user profile 的方法”。
这条线的收益明显依赖用户历史稠密度,不是无条件成立
这轮最有价值的一个细节,不是架构图,而是它对适用条件的提示。
LLM-TP README 直接把两套数据的交互密度摆了出来:
Movies&TV平均交互数约11.79Video Games平均交互数约4.55
而结果也没有被写成“全面碾压”。
更准确的描述应该是:
- 在
Movies&TV这类 richer-history 场景里,LLM-TP相对Temp-Fusion的增益更稳,Recall@10 / NDCG@10 / Recall@20 / NDCG@20都更高 - 在更稀疏的
Video Games上,提升就开始变得 mixed:例如Recall@20更高,但NDCG@10反而低于Temp-Fusion
这很重要,因为它说明 temporal profile 不是“只要分成长短期就一定更好”。
它更像一种有前提的画像维护策略:
当用户历史足够丰富、短期波动和长期口味都能被稳定读出来时,双时域画像才更有价值。
所以这条支线不能只被记成方法名,还应该同时记住它的适用条件:
history richness / temporal signal density
从 TETUP 到 LLM-TUP,作者自己的叙事也在变化
同一组作者的两版标题已经把变化说得很清楚了。
前一版 TETUP 更强调:
Explainable Temporal User Profiling
后一版 LLM-TUP 更强调:
Balancing Short-Term and Long-Term Preferences
这不是小修辞。
它说明这条线正在从“文本画像更可解释”往“怎样在系统里更稳地处理两种时间尺度偏好”偏移。
换句话说,公开世界里 temporal profile 的主问题正在从:
能不能把画像讲清楚
转向:
该怎样把近期意图和长期口味同时保留下来
这比单纯多记一篇论文更重要,因为它给 Story Lab 的 profile maintenance 支线补出了一个新切口:
maintenance 不是只有 compaction,也可以是 horizon balancing
公开边界比 PURE 强,但还不是完整 raw-to-profile 复现栈
这条线另一个值得单独记的点,是它的公开边界明显强于 PURE。
按 GitHub API 和仓库树核对:
TETUP创建于2025-04-10,最近一次 push 为2025-08-11LLM-TP创建于2025-07-11,最近一次 push 也为2025-08-11- 两个仓库都已经公开了
code/、prompt/、处理后的data/、训练切分和图表资产
尤其 LLM-TP 已经把这些关键材料直接放出来了:
prompt_short.txtprompt_long.txtprompt_general.txt- 处理后的
short-term / long-term / general profilepickle train / validation / testCSV
但这还不能被写成“完整 end-to-end 复现栈”。
原因也很直接:
- 仓库更像训练与评估端,而不是从原始用户历史自动调用
LLM生成 profile 的全流程脚本 - README 写的是
GPT-4o-mini + all-MiniLM-L6-v2 - 代码与数据文件名却仍保留
bert_*命名,嵌入维度是384
这说明 repo 和 paper 之间仍存在轻微实现漂移。
更稳妥的记录方式应该是:
repo with processed profile artifacts + training code
而不是已经完全固化的标准复现底盘。
这条线对 Story Lab 的真正价值,是把 maintenance 再细化了一格
补完 PURE 之后,我已经把画像生命周期先粗分成:
constructionmaintenancedeployment
但 TETUP / LLM-TUP 说明,maintenance 这层内部还会继续分叉。
至少已经出现了两种不同思路:
PURE:把越来越长的原始文本压成更紧凑的单一 profileTETUP / LLM-TUP:显式保留short-term + long-term两份 profile,再做 attention fusion
所以对 Story Lab 现在更合适的处理方式,不一定是立刻再加一列大表。
更实用的做法是先在 carrier / interface 的记录里补一个子标记:
single-summary profiledual-horizon profile
这样既不会让方法表立刻膨胀,又能把这个新差异稳定沉淀下来。
中文传播层目前仍然很弱
这轮我也继续补做了中文公开讨论层检索,包括:
Temporal User Profiling with LLMs 中文Towards Explainable Temporal User Profiling with LLMs 中文site:xiaohongshu.com 时间 用户画像 推荐系统- 相关
xhslink检索
截至 2026-03-21,能看到的主要还是论文镜像、仓库页和低信息量索引,没有拿到稳定高价值的中文机制稿,也没有拿到可复用的稳定 xhslink。
所以这条线当前仍应以 arXiv 和官方仓库为主。
证据与来源
Towards Explainable Temporal User Profiling with LLMs:早版 temporal profile 论文,摘要明确写出short-term / long-term自然语言画像、attention fusion 与 explainability 目标。Temporal User Profiling with LLMs: Balancing Short-Term and Long-Term Preferences for Recommendations:后续版论文,摘要把重点收敛到short-term / long-term偏好平衡与 richer-context 条件下的推荐收益。milsab/TETUP:官方仓。GitHub API 截至2026-03-21显示仓库创建于2025-04-10,最近一次 push 为2025-08-11;仓库树已公开code/、prompt/、处理后的data/与图表资产。milsab/LLM-TP:官方仓。GitHub API 截至2026-03-21显示仓库创建于2025-07-11,最近一次 push 为2025-08-11;仓库树可见prompt/prompt_short.txt、prompt/prompt_long.txt、prompt/prompt_general.txt、profile / item pickle 与train / validation / test数据切分。- 仓库 README 与代码核对:
LLM-TPREADME 明确写GPT-4o-mini与all-MiniLM-L6-v2 (384 dimensions);而代码和数据文件名仍使用bert_*命名,说明当前公开仓更像“已给出可检查实现与处理后工件”,不是完全固定的一体化复现栈。 - 中文传播层与
site:xiaohongshu.com/xhslink检索截至2026-03-21仍未找到稳定高价值线索。
下一步
- 把
TETUP / LLM-TUP加进那张profile constructor子表,先在carrier / interface里补记single-summary与dual-horizon两种 temporal handling。 - 继续补
profile maintenance / profile editing / temporal user modeling相关路线,判断是否还会出现第三类不是compaction、也不是dual-horizon split的维护策略。 - 继续跟踪这条线是否出现正式发表页、更完整的数据构造脚本、以及足够稳定的中文机制稿或
xhslink。