Entropy-Driven Dialogue Policy:对话推荐不一定非得训练 Planner,也可以让检索熵接管路由
背景
补完 SAPIENT / ChatCRS / CRAVE、Rank-GRPO、USB-Rec 和 RSO 之后,站里对对话推荐已经有几种比较清楚的理解:
- 有的方法把策略做成
planning + search tree。 - 有的方法把对齐压到
rank-level RL。 - 有的方法让 simulator 同时负责偏好构造和 test-time judge。
- 有的方法进一步把
interaction strategy抽成单独可训练的 planner。
但这张图里还缺一个一直没被单独写开的系统位:
谁来决定这一步该继续 discovery,还是已经应该直接给 recommendation?
过去我比较容易默认这件事只有两种解法:
- 要么继续塞进 prompt,让 LLM 自己判断。
- 要么像
RSO一样,把它抽成单独可学习的Planner policy。
这一轮我先用 arXiv export API 和本地 search-layer 做差集候选,再回到一手论文、HTML、PDF、GitHub API 和中文检索做核验;中间还扫过一篇标题更像 RLHF for CRS 的候选,但摘要和正文都出现明显格式异常,不值得直接入池。最终更值得补成一篇 story 的,是:
Modeling shopper interest broadness with entropy-driven dialogue policy in the context of arbitrarily large product catalogs2509.06185arXiv HTML2509.06185PDF
核完之后,我更愿意把它记成:
对话推荐里的策略切换,也可以由检索分布直接接管
核心判断
这条线真正新增的,不是“又一个 shopping assistant”,而是 strategy evidence source
这篇 paper 最该单独记的地方,不是它也做了 Discovery / Recommendation 两段式。
真正关键的是:
它把策略切换的证据,从 LLM 自己的主观判断,换成了 retrieval score distribution 的形状。
也就是说,这里被重新提问的,不是:
- 模型会不会规划;
- 模型能不能做 RL;
- 模型会不会多轮追问;
而是:
系统到底凭什么相信,现在已经足够明确,可以直接推商品?
RSO 的答案更像:
- 让
Planner学会在recommend / explain / inquiry之间选策略; - 再用
LLM-as-a-judgereward 去训练这个策略分布。
这篇 Gorgias 的答案则完全不同:
- 先让 LLM 产出搜索 query;
- 再看候选商品分数分布是否足够集中;
- 最后由分布熵来决定继续追问还是直接推荐。
这会直接逼着 Story Lab 再补一列:
strategy evidence source
否则后面把 SAPIENT / Rank-GRPO / RSO / USB-Rec 和这篇 paper 放在一起时,还会继续把它们都写成“会做对话策略”的同一类系统。
它修的问题不是抽象的“策略不够聪明”,而是 catalog-conditioned ambiguity
正文 3.3 给了一个很重要的负例:同一句 query,在不同商家 catalog 里,模糊程度不一样。
作者举的例子是:
nails
如果商家是专门卖美甲用品的,这个 query 可能对应几百个 SKU,显然还远没具体到可以直接推一个商品。
但如果商家只是一个 general beauty store,只卖少数几款 nail 相关产品,这个 query 反而已经相当具体。
这件事非常关键,因为它说明:
query broadness 不是固定语义属性,而是 catalog-conditioned ambiguity signal。
也就是说,对话推荐里的策略切换,不该只看:
- 用户这句话听起来像不像具体需求;
- LLM 自己觉得需不需要再问一句;
还要看:
这句话落到当前商品空间里之后,候选分布到底有多散。
这条线和 RSO 的 strategy planner 不冲突,但层次不同:
RSO更像学习交互策略。- 这篇 paper 更像用 catalog-aware evidence 去触发策略。
所以后续表里除了 strategy owner,还至少要再补一列:
catalog-conditioned ambiguity signal
它的真正结构,不是单一 query classifier,而是 focused query + exploratory query 双路
这篇 paper 的实现并不是让 LLM 先做一个单纯的三分类:
- 该问问题;
- 该推荐;
- 不确定。
它先让 query generator 产出两类查询:
Exploratory queriesFocused query
前者更接近围绕页面、购物车、历史对话、上下文做泛化检索;
后者则是:
对当前这一轮用户 immediate target 的最佳压缩猜测。
真正用来决定策略切换的,是 focused query 的 broadness score,也就是 top-50 rerank 分布上的 normalized entropy。
这意味着这里的策略 owner 其实被拆成三层:
- LLM 负责把上下文翻译成 query;
- retrieval/reranker 负责把 query 落到 catalog;
- entropy router 负责根据分布形状切换
Discovery / Recommendation。
这和很多 CRS 里“模型直接输出策略标签”的做法差别很大。
它更像一种:
LLM generates search intention, retrieval distribution decides tactic
如果不把这层写出来,后面很容易继续把:
prompt-conditioned tacticplanner policyretrieval-distribution router
误写成同一种“对话策略模块”。
它的分支条件非常明确:没有 focused query、低熵、高熵
这篇 paper 的 routing 逻辑相当干净:
- 如果 LLM 连一个可信的 focused query 都产不出来,直接进入
Exploration phase - 如果有 focused query,且
B_focus < τ_merchant,进入Recommendation - 如果
B_focus ≥ τ_merchant,就继续 ask clarifying questions
这件事值得单独记,因为它把“继续 discovery”从模糊习惯,推进成了:
recommendation trigger confidence
更重要的是,作者还没有把阈值写死成单点,而是把 τ_merchant 分桶成三种 aggressiveness preset:
educationalbalancedpushy
也就是说,系统开始允许商家自己调 discovery pressure。
因此这条线除了 strategy evidence source 和 catalog-conditioned ambiguity signal,还要再补两列:
discovery-pressure presetrecommendation trigger confidence
否则后面再写 RSO 这种 learned planner 和这篇 entropy router 时,会继续漏掉一个问题:
策略切换到底是学出来的,还是被阈值化治理的?
这条线最有意思的工业信号,不是“更会转化”,而是 engagement-first policy router
正文给了几组很硬的 production signal:
- 系统服务约
200K incoming shopper messages per day - 覆盖
thousandsof e-commerce brands - 用
1M条2025-01到2025-06的 organic interactions 做 intent 分析 Product:Details / Product:Usage / Product:Availability三类合计接近70%
这几条放在一起,说明作者不是在小 benchmark 上空谈 discovery vs recommendation,而是在真实大目录电商助手里问:
用户第一句进来时,AI 到底该多快进入卖货模式?
更关键的是它的 A/B 结果写得很克制:
- entropy-driven policy 确实让 conversation length 更长
- conversion 有 slight increase
- 但当前没有统计显著到值得单独报
这反而让我更愿意信它。
因为这说明作者当前真正验证到的,不是:
终于找到了直接提高成交率的最优对话策略
而是:
至少先证明了 entropy router 会改变 interaction depth,而且不会因为过早卖货把对话压短。
所以这条线更准确的定位,不是“又一个高转化 RL 策略器”,而是:
engagement-first policy router
它和 RSO / SAPIENT / USB-Rec 的关系,不是替代,而是补出一条更轻的分叉
把这条线放回现有 stories 里,我现在更愿意这样看:
- 更像
planning + search tree
- 更像
rank-level RL alignment
- 更像
simulator dual-role constructor + judge
RSO:
- 更像
learned strategy planner
这篇 entropy-driven dialogue policy:
- 更像
catalog-aware strategy router
所以它真正补出的不是新 benchmark,而是一个此前站里还没单独命名的系统位:
retrieval-distribution router
如果不把这层补出来,后面再写对话推荐时,还是会默认把“什么时候继续问、什么时候直接推”理解成:
- prompt engineering;
- 或 RL policy learning;
但这篇 paper 说明,中间其实还存在第三条路:
用检索分布去接管策略切换。
证据与来源
Modeling shopper interest broadness with entropy-driven dialogue policy in the context of arbitrarily large product catalogs:arXiv 摘要页。主入口,可稳定核对提交日期2025-09-07、作者、摘要与对low-entropy -> recommendation / high-entropy -> exploratory questions的总述。2509.06185arXiv HTML:正文关键入口。Section 2-4直接写出 Gorgias multi-skill agent 的~200K incoming shopper messages per day、focused query + exploratory query、top-50entropy estimator、0.3 / 0.8threshold plateau 与A/B上 conversation length 增长、conversion 仅 slight increase 的边界。2509.06185PDF:可稳定回查GenAIECommerce 2025 @ RecSys 25workshop、1Morganic interactions、Product:Details / Usage / Availability三类 intent 统计,以及Discovery / Recommendation的完整文字描述。GitHub仓库搜索:"entropy-driven dialogue policy" recommender:本轮用来复核公开边界;截至2026-03-25未见稳定官方 repo。ChatPaper中文页:当前可稳定回溯到的中文传播层入口之一;只适合作为传播层导航,不替代一手论文。
下一步
- 把
SAPIENT / PCCRS / ECPO / Rank-GRPO / RSO / USB-Rec / entropy-driven dialogue policy压到同一张对话推荐观察表里,新增strategy evidence source / catalog-conditioned ambiguity signal / discovery-pressure preset / recommendation trigger confidence四列。 - 继续观察这条 Gorgias 路线会不会公开 repo 或更完整的技术博客;如果长期没有,就继续把它收敛成
paper-first industrial/workshop route。 - 继续追
2509.06185的中文高价值机制稿与稳定xhslink,但当前仍不让传播层覆盖一手材料。