Shopping Companion：长期购物记忆开始从上游检索变成 `Stage-1 preference grounding`

背景

补完站内的 profile constructor / long-term memory / tool-use recommender / train-time judge 这些层之后，我发现电商 agent 这条线还缺一个比较具体的系统位置：

长期记忆到底只是上游检索准备，还是可以成为被单独训练和验收的策略阶段？

这一轮我先沿 2026-03 的新论文做候选筛选，再回到一手页面和公开讨论层做定向核验，最终锁定：

核完之后，我更倾向于把它记成：

长期购物记忆开始从上游检索，变成 agent 内部一个可训练的 Stage-1 preference grounding

核心判断

这条线真正新增的，不是又一个 shopping benchmark，而是 `memory retrieval -> user confirmation -> task execution` 被写成可训练 handoff

这篇 paper 最值得先记住的，不是它来自阿里，也不是它又做了一个 shopping agent benchmark。

真正新的地方在于，它没有把长期记忆继续写成：

prompt 前的检索准备
profile 抽取的上游模块
下游购物代理默认会调用的一块背景上下文

而是直接把它压成两阶段 agent 里的第一阶段任务。

论文 5.1 写得很清楚：

Stage 1 (Preference Identification)：先通过 memory tools 找回相关对话历史，抽取隐式偏好，例如品牌厌恶、尺码历史，再把结果展示给用户确认
Stage 2 (Shopping Assistance)：只在偏好确认之后，再去调用 product tools 做商品检索、预算约束和组合决策

这意味着在这条线里，长期记忆不再只是 retriever。

它已经变成：

可被单独优化、可被用户中途纠偏、并且必须先过关的 Stage-1 policy

它补出的 benchmark 缺口，也不是“商品规模更大”，而是第一次把 `长记忆 + 真实购物任务 + 用户干预` 放进同一个框架

论文引言和 Table 1 给了一个很清楚的对照：

WebShop 更像单 session 的网页购物环境，没有长期记忆
LongMemEval 强在跨 session 长期记忆，但不落到真实 shopping downstream task
ShoppingBench 扩了 shopping competence，但没有长期记忆和交互式纠偏
ShopSimulator 有多轮互动，但偏好仍主要来自静态 summarization，而不是持久 memory store

而 Shopping Companion 同时补上了三件事：

1.2M 真实商品规模
两类真实购物任务：单品推荐与 add-on deals
多 session 长期记忆和 multi-turn user intervention

它的数据构造也不是普通 instruction list。6.1 和 Algorithm 1 说明：

benchmark 共 1000 条指令，训练/测试为 800/200
每条样本都带 15-50 轮对话历史
偏好会被埋在长对话里，再与无关 session 交错，形成更接近 needle-in-a-haystack 的长期记忆场景

所以这条线更准确的系统位置不是：

shopping benchmark with memory

而是：

shopping benchmark where memory grounding itself becomes the first task

它的 RL 设计也不是“给整条轨迹一个 reward”这么简单，而是把 credit 显式拆到 `stage` 和 `tool`

这篇 paper 另一个很关键的地方，是它没有让 memory retrieval 和 shopping execution 共用一个模糊的 terminal reward。

5.2 节把 reward 明确拆成三层：

Stage-1 reward：看 memory grounding 是否正确，核心信号是 query relevance、attribute match，以及 add-on deals 下的 product-count
Stage-2 reward：看最终推荐是否 machine-extractable，并满足 relevance、attribute match、数量与预算约束
Tool-wise reward：给每次 tool invocation 单独打分，再加一个轻量 format reward 去稳定 thinking tag、tool-call JSON 和最终推荐格式

这件事很重要，因为它说明这条线真正新增的不是“电商 agent 也能做 RL”，而是：

长期记忆工具和商品工具终于不再共吃一个模糊终局分数

对于 Story Lab 来说，这里最值得沉淀的不是另一个 reward 名字，而是至少要新增三类观察位：

memory grounding stage
intervention slot
tool-role split

否则 MemoCRS 这类 history carrier、DeepRec / RecThinker 这类 tool-use 路线，以及 Shopping Companion 这种 memory-first handoff 还会被继续写成一类 agent。

结果说明，真正值钱的不是“模型更大”，而是把记忆 grounding 和购物执行分成两步训

如果只是多一个 benchmark，但闭源大模型自然全做对，这条线的系统价值仍然有限。

这篇 paper 最有信息量的结果，恰恰说明不是这样。

Table 2 给出的基线非常直接：

GPT-5 的平均 Succ. 只有 64.5%，在 add-on deals 上是 54.0%
GPT-4.1 平均 Succ. 只有 51.0%
Qwen3-4B 平均 Succ. 只有 25.0%

而作者的 Qwen3-4B-LoRA + RL (Dual&Tool-wise) 做到：

单品任务 Acc./Succ. = 90.0 / 84.0
add-on deals 任务 Acc./Succ. = 55.0 / 43.0
平均 Acc./Succ. = 72.5 / 63.5

也就是说，这条线不是在证明“小模型已经碾压 GPT-5”。

它真正证明的是：

把长期记忆 grounding 独立成第一阶段，并配上 stage-aligned + tool-wise RL，能让轻量模型逼近闭源强基线

Table 3 的 ablation 更说明系统增益来自结构，而不只是 reward 微调：

One-Stage 的平均 success 只有 52.5%
Two-Stage (None) 回升到 65.0%
Two-Stage (High) 到 70.0%
Oracle 是 79.0%

这基本已经把问题说透了：

shopping agent 的主矛盾之一，不是会不会搜商品，而是有没有把 preference grounding 从执行阶段里先拆出来

`Tool-wise reward` 的价值，还不只是多拿一点 success，而是在压缩无效轨迹

如果 tool-wise reward 只在最终 success 上有一点提升，它更像普通 reward shaping。

但 Table 4 和 Figure 2 给了一个更系统的信号：

Dual-Reward 的平均 turns 是 9.82，Dual & Tool-wise 降到 8.89
tool uses 从 9.17 降到 8.47
response length 从 10485.39 降到 10068.83

论文正文把这解释为：

更细的中间 credit assignment 不只改 terminal success，也在收紧 agent 的冗余行为

这意味着在电商 agent 场景里，tool-wise reward 更像：

trajectory compaction + tool targeting

而不只是“每步都打一分”的形式主义。

公开边界当前仍偏 `paper-first`，讨论层刚冒头，但稳定中文传播层还很弱

公开边界上，这条线目前不能写得太乐观。

我核到的事实是：

arXiv 摘要页显示论文提交于 2026-03-16
PDF 首页写作者来自 Alibaba International Digital Commercial Group
摘要页 Comments 写的是 Subbmited to ACL 2026
截至 2026-03-23，按 arXiv id 2603.14864、论文全标题与 Shopping Companion Alibaba 检 GitHub API，total_count 都是 0

也就是说，当前更准确的公开边界仍然是：

paper-first

讨论层方面，本轮能稳定回溯到的主要是：

AlphaXiv overview
DuckDuckGo 可见的 CatalyzeX 聚合页

但继续补做 site:xiaohongshu.com、xhslink 与中文检索后，我还没有拿到稳定高价值中文机制稿或可复用的小红书线索。

证据与来源

一手论文入口：Shopping Companion arXiv 摘要页、Shopping Companion arXiv HTML
时间与作者：arXiv 摘要页显示论文提交于 2026-03-16；PDF 首页写作者来自 Alibaba International Digital Commercial Group
benchmark 与任务设置：HTML 4.1-4.2 与 6.1 明确给出 1.2M 真实商品、1000 条指令、15-50 轮历史、single product / add-on deals 两类任务，以及 GPT-5 evaluator 与 90%+ 的人类一致率
关键机制：HTML 5.1-5.2 明确给出 Stage-1 preference identification -> user confirmation -> Stage-2 shopping assistance、dual-reward RL、tool-wise reward 与 format reward
核心数值：PDF Table 2 / Table 3 / Table 4 给出 GPT-5 平均 Succ. 64.5%、Qwen3-4B-LoRA + RL (Dual&Tool-wise) 的平均 Acc./Succ. 72.5 / 63.5，以及 turns / tool uses / response length 的压缩效果
公开边界：GitHub API 以 arXiv id 2603.14864、论文全标题与 Shopping Companion Alibaba 检索，total_count 均为 0；因此截至 2026-03-23 仍未看到稳定官方 repo
公开讨论层：AlphaXiv overview 可作为聚合讨论入口；但它本质上仍是二手页面，事实判断仍应回到 arXiv 原文
小红书/中文线索：本轮继续补做 site:xiaohongshu.com、xhslink 与中文检索后，仍未拿到稳定高价值机制稿或可复用小红书线索

下一步

把 Shopping Companion / WebShop / ShoppingBench / ShopSimulator / DeepRec / RecThinker / MemoCRS 横向压成一张 memory grounding / intervention / tool-role split 观察表，避免继续把 memory retriever、profile store 和 stage-1 grounding policy 写成一种东西
在统一方法表里补 memory grounding reward / intervention slot / task-success consumer 三列，专门记录“长期记忆在哪一阶段被消费、在哪里被纠偏、最终又由谁承担业务成败”

Shopping Companion：长期购物记忆开始从上游检索变成 Stage-1 preference grounding

背景

核心判断

这条线真正新增的，不是又一个 shopping benchmark，而是 memory retrieval -> user confirmation -> task execution 被写成可训练 handoff

它补出的 benchmark 缺口，也不是“商品规模更大”，而是第一次把 长记忆 + 真实购物任务 + 用户干预 放进同一个框架

它的 RL 设计也不是“给整条轨迹一个 reward”这么简单，而是把 credit 显式拆到 stage 和 tool