AgenticRec：推荐 agent 开始把工具轨迹并进 ranking policy

背景

补完站里现有的 RecMind、DeepRec、RecThinker 和 R²ec 这些线之后，站里其实还留着一个没被单独拆开的空档：

推荐里的工具调用，到底只是 inference-time 的脚手架，还是已经进入同一个可学习 ranking policy？

过去多数公开路线虽然已经会：

让 LLM 做多步 reasoning。
在推理过程中调工具补证据。
再把最终输出映射到 item ranking。

但很多系统的 tool-use 仍然主要靠：

prompt 里的静态说明；
LLM 自己的语言先验；
或训练外部附着的传统推荐器结果。

也就是说，tool invocation 往往还是“会不会用工具”的能力问题，而不是“工具怎样和 ranking reward 一起被优化”的 policy 问题。

这一轮我先用 arXiv export API 做差集检索，再回到一手论文、HTML、PDF 与 GitHub API 做定向核验，最终锁定：

核完之后，我更愿意把它记成：

推荐 agent 开始把工具轨迹并进 ranking policy

核心判断

这条线真正新增的，不是“又一个会调工具的推荐 agent”，而是 `tool use` 开始直接吃 ranking feedback

这篇 paper 最关键的一点，是它没有把工具调用继续当成推理附属能力，也没有停在 RecMind / InteRecAgent 那种 training-free agent 范式。

它明确研究的是一个 ranking 场景：

输入是用户历史 x_u 和预先准备好的 candidate set C。
输出是 ordered top-K list。
监督来自 implicit feedback 里的 next interacted item。

也就是说，它不是 open-ended item generation，也不是对话里慢慢探索用户需求，而是：

在已有 candidate pool 上，学习一个会推理、会调工具、还会排序的统一 policy。

论文摘要和正文都把这个点写得很清楚：

优化对象是 entire decision-making trajectory。
这个 trajectory 同时包含 intermediate reasoning、tool invocation 和 final ranking list generation。
reward 不再只落在最后一个 item token 上，而是要沿整条轨迹反压回来。

这对 Story Lab 很重要，因为它说明：

推荐里的 tool-use 已经开始从“外挂能力”变成“被 ranking signal 训练的 policy 组成件”。

它用的不是泛搜索工具，而是四类 `recommendation-native evidence source`

AgenticRec 第二个值得单独记的地方，是它没有让 agent 去调用通用 web search 或通用知识库。

它把工具明确收束成四类 recommendation-specific sources：

User Profile Tool
Item Information Tool
Behavioral Statistics Tool
Collaborative Information Tool

其中每类工具对应的 consumer 都很具体。

User Profile Tool：

先用 Qwen3-4B-Instruct 基于用户历史预生成 profile。
在推理时直接取回这个 profile 作为长期偏好摘要。

Item Information Tool：

item_info_search 查单个 item 细节。
candidates_analyze 汇总整个 candidate list 的 category / price 等分布。

Behavioral Statistics Tool：

get_session_behavior 提取最近 session 的短期兴趣变化。
get_rating_behavior 按高分 / 中性 / 低分整理历史显式偏好。

Collaborative Information Tool：

用 SASRec 在训练集上建协同 embedding 空间。
支持 get_similar_items 和 get_similar_users 两类协同检索。

这个设计的系统意义非常直接：

证据不是从外部互联网临时抓，而是从 recommender stack 自己的 profile、metadata、behavior summary 和 CF space 里取。

所以这条线补出的新观察位，不只是 tool count 或 tool type，而是：

evidence owner
tool policy locus
recommendation-native evidence composition

否则 RecThinker 那种自主调查式 multi-tool loop，和 AgenticRec 这种 ranking-native tool policy，会继续被写成同一种“agentic recommendation”。

`list-wise GRPO` 在这里的关键，不是又换了一个 RL 名字，而是把 credit 明确分回了整条工具轨迹

这篇 paper 最核心的方法位在 4.3：

List-Wise Group Relative Policy Optimization

但它真正重要的地方，不只是“也用了 GRPO”，而是它把 reward 明确写成了三层：

Ranking Reward：直接用 NDCG@K
Format Constraint：非法输出、越界 item、过多工具调用都会失败
Tool-use Reward：鼓励 outcome-driven 的有效工具调用

这意味着 AgenticRec 的训练目标不是只看“最后排对没排对”，而是同时在学：

什么时候值得调工具；
调了工具之后怎样把 observation 吃进 reasoning；
最后怎样把整条轨迹落成合法的 top-K 排序。

论文理论部分还进一步证明：

list-wise GRPO 的 gradient estimator 是 unbiased；
ranking quality 可以回传去指导 reasoning 和 tool invocation；
这件事在 sparse implicit feedback 下也能保持更稳定。

这就把它和很多 prompt-driven agent 拉开了：

工具调用不再只是“模型想到了就用”，而是被最终 ranking utility 直接问责。

第二阶段 `PPR` 说明它还不满足于 coarse list-level reward，而是把自己的错排再挖成 fine-grained preference data

如果 AgenticRec 只做到第一阶段，它仍然可以被理解成“让 agent 用 list-wise reward 学会调工具”。

但这篇 paper 又往前补了一层：

Progressive Preference Refinement (PPR)

它修的问题也很具体：

implicit feedback 的 list-level reward 太粗，学会整体排序后，面对高度相似的 hard candidates 仍然会脆。

于是第二阶段不再继续只用原始 label，而是：

从 agent 自己的 ranking outputs 里挖 ranking violations
找出 ground-truth positive 与 hard competitor
把这些 pair 再送回模型做 more likely / less likely 的双向偏好判断
用 bidirectional preference reasoning 继续收紧 fine-grained boundary

这条链最值得记住的不是“又做了 pairwise alignment”，而是：

ranking violation -> hard negative mining -> bidirectional preference refinement

也就是说，它把自己在 top-ranked confusable items 上犯的错，反过来变成第二阶段 supervision。

这意味着 Story Lab 后续还要在方法表里补一列：

hard-pair self-bootstrapping

否则 ReRe / DPO4Rec / S-DPO / AgenticRec 这些都会被继续写成一类“偏好优化”。

结果说明它补出的不是小修小补，而是 recommender agent 的一个新系统位

Table 1 给出的结果很整齐。

AgenticRec 在 CDs / Instruments / Office / Games 四个 Amazon 子集上都拿到最优结果，H@10 / N@10 分别达到：

CDs: 0.8093 / 0.5324
Instruments: 0.8052 / 0.5021
Office: 0.7773 / 0.4775
Games: 0.8157 / 0.5445

如果和 strongest baseline 对照，提升也很直观：

CDs 上从 LLaRA 的 0.7234 / 0.4394 提到 0.8093 / 0.5324
Office 上从 ReRe 的 0.6962 / 0.4579 提到 0.7773 / 0.4775
Games 上从 LLaRA / ReRe 区间的 0.7332 / 0.4976 提到 0.8157 / 0.5445

更重要的是，后面的分析把“为什么有效”写得很系统：

正奖励轨迹里的 tool invocation rate 在早期快速升高，之后保持高位。
average tool calls 先升后稳，说明模型学到的是稳定策略，不是无脑多调工具。
group size 增大会提高比较信号，但收益会逐渐饱和，说明存在明显的 tool-budget / optimization 平衡点。
用 Qwen3 的 1.7B / 4B / 8B 做 scaling 时，性能会稳定上升，说明这条路线不是只在单一 backbone 上偶然成立。

因此这条线最适合被记成：

tool-integrated ranking policy

而不是：

普通的 LLM recommender
普通的 tool-augmented reasoner
普通的 ReAct for recommendation

对 Story Lab 的意义

AgenticRec 补出的不是一个新 benchmark，而是一组此前站里还没单独沉淀的观察位：

tool policy locus：工具调用究竟是 prompt 习惯、静态 rule，还是被 ranking reward 直接训练
evidence owner：证据来自 web / KG / profile / CF / behavior summary 的哪一层
trajectory optimization scope：reward 是否覆盖 reasoning、tool use 和 final ranking 的整条轨迹
hard-pair self-bootstrapping：方法会不会把自己的错排再转成 fine-grained 偏好监督
tool-budget stability：模型学到的是稳态策略，还是不断增加工具调用次数

否则后续继续写：

RecMind
InteRecAgent
DeepRec
RecThinker
AgenticRec

时，很容易继续把它们都压回“会推理、会调工具的推荐 agent”。

但实际上，这五条线已经对应五种不同系统位：

recommendation agent 前史
training-free tool-augmented interactive recommender
LLM <-> TRM 多轮 reasoning-retrieval bridge
information-sufficiency-driven multi-tool investigation
tool-integrated ranking policy optimized by list-wise RL

公开边界与中文传播层

这条线当前的公开边界也要单独记一笔。

我这轮直接按以下三组关键词做了 GitHub API 定向检索：

论文全标题
AgenticRec
2603.21613

截至 2026-03-24，没有看到稳定官方 repo。

因此这条线当前更适合记成：

paper-first tool-integrated ranking policy route

中文传播层这边，我继续补做了：

AgenticRec 推荐
2603.21613 中文
site:xiaohongshu.com AgenticRec
xhslink AgenticRec

结果仍然主要是搜索噪声和无关页面，没有拿到稳定高价值中文机制稿或可复用的小红书线索。

所以截至 2026-03-24，这条线仍应以 arXiv 原文和 PDF 为准。

证据与来源

AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents：摘要直接写出 entire decision-making trajectory、recommendation-specific tools、list-wise GRPO 和 PPR 四个关键词，是定位这条路线的主入口。
AgenticRec arXiv HTML：可直接核到方法结构与目录，特别是四类工具、Ranking Reward / Format Constraint / Tool-use Reward 三段奖励，以及 Analysis on Tool Invocation / Group Size / Scaling Ability 这些系统位。
AgenticRec PDF：正文与表格给出最关键事实：四类 recommendation-native tools、SASRec 协同信息工具、Qwen3-4B-Instruct 统一 backbone、GPT-4 training-free baseline、Table 1 的最优结果，以及 PPR 如何从 ranking violations 挖 hard negatives 做双向偏好细化。
GitHub 仓库搜索："AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents"：本轮用于复核公开边界；截至 2026-03-24，未见稳定官方 repo。
GitHub API 对 AgenticRec / 2603.21613 / exact title 的三组检索：截至 2026-03-24，未返回稳定官方实现仓，因此当前不把它写成已公开 workflow。
公开中文网页与 site:xiaohongshu.com / xhslink 检索：截至 2026-03-24，仍未找到稳定高价值中文机制稿或可复用小红书线索。

下一步

把 RecMind / InteRecAgent / DeepRec / RecThinker / AgenticRec 压到同一张 tool policy 观察表里，新增 tool policy locus / evidence owner / trajectory optimization scope / tool-budget stability 四列。
再把 AgenticRec / ReRe / DPO4Rec / S-DPO 横向压成一张 hard-pair refinement 观察表，补 hard-negative source / bidirectional preference alignment / refinement consumer 三列。
继续跟踪这篇 paper 是否补出官方 repo；在此之前，不把它写成可复现实验底盘。