Entropy-Driven Dialogue Policy:对话推荐不一定非得训练 Planner,也可以让检索熵接管路由

背景

补完 SAPIENT / ChatCRS / CRAVERank-GRPOUSB-RecRSO 之后,站里对对话推荐已经有几种比较清楚的理解:

  1. 有的方法把策略做成 planning + search tree
  2. 有的方法把对齐压到 rank-level RL
  3. 有的方法让 simulator 同时负责偏好构造和 test-time judge。
  4. 有的方法进一步把 interaction strategy 抽成单独可训练的 planner。

但这张图里还缺一个一直没被单独写开的系统位:

谁来决定这一步该继续 discovery,还是已经应该直接给 recommendation?

过去我比较容易默认这件事只有两种解法:

  1. 要么继续塞进 prompt,让 LLM 自己判断。
  2. 要么像 RSO 一样,把它抽成单独可学习的 Planner policy

这一轮我先用 arXiv export API 和本地 search-layer 做差集候选,再回到一手论文、HTML、PDF、GitHub API 和中文检索做核验;中间还扫过一篇标题更像 RLHF for CRS 的候选,但摘要和正文都出现明显格式异常,不值得直接入池。最终更值得补成一篇 story 的,是:

  1. Modeling shopper interest broadness with entropy-driven dialogue policy in the context of arbitrarily large product catalogs
  2. 2509.06185 arXiv HTML
  3. 2509.06185 PDF

核完之后,我更愿意把它记成:

对话推荐里的策略切换,也可以由检索分布直接接管

核心判断

这条线真正新增的,不是“又一个 shopping assistant”,而是 strategy evidence source

这篇 paper 最该单独记的地方,不是它也做了 Discovery / Recommendation 两段式。

真正关键的是:

它把策略切换的证据,从 LLM 自己的主观判断,换成了 retrieval score distribution 的形状。

也就是说,这里被重新提问的,不是:

  1. 模型会不会规划;
  2. 模型能不能做 RL;
  3. 模型会不会多轮追问;

而是:

系统到底凭什么相信,现在已经足够明确,可以直接推商品?

RSO 的答案更像:

  1. Planner 学会在 recommend / explain / inquiry 之间选策略;
  2. 再用 LLM-as-a-judge reward 去训练这个策略分布。

这篇 Gorgias 的答案则完全不同:

  1. 先让 LLM 产出搜索 query;
  2. 再看候选商品分数分布是否足够集中;
  3. 最后由分布熵来决定继续追问还是直接推荐。

这会直接逼着 Story Lab 再补一列:

strategy evidence source

否则后面把 SAPIENT / Rank-GRPO / RSO / USB-Rec 和这篇 paper 放在一起时,还会继续把它们都写成“会做对话策略”的同一类系统。

它修的问题不是抽象的“策略不够聪明”,而是 catalog-conditioned ambiguity

正文 3.3 给了一个很重要的负例:同一句 query,在不同商家 catalog 里,模糊程度不一样。

作者举的例子是:

nails

如果商家是专门卖美甲用品的,这个 query 可能对应几百个 SKU,显然还远没具体到可以直接推一个商品。

但如果商家只是一个 general beauty store,只卖少数几款 nail 相关产品,这个 query 反而已经相当具体。

这件事非常关键,因为它说明:

query broadness 不是固定语义属性,而是 catalog-conditioned ambiguity signal。

也就是说,对话推荐里的策略切换,不该只看:

  1. 用户这句话听起来像不像具体需求;
  2. LLM 自己觉得需不需要再问一句;

还要看:

这句话落到当前商品空间里之后,候选分布到底有多散。

这条线和 RSOstrategy planner 不冲突,但层次不同:

  1. RSO 更像学习交互策略。
  2. 这篇 paper 更像用 catalog-aware evidence 去触发策略。

所以后续表里除了 strategy owner,还至少要再补一列:

catalog-conditioned ambiguity signal

它的真正结构,不是单一 query classifier,而是 focused query + exploratory query 双路

这篇 paper 的实现并不是让 LLM 先做一个单纯的三分类:

  1. 该问问题;
  2. 该推荐;
  3. 不确定。

它先让 query generator 产出两类查询:

  1. Exploratory queries
  2. Focused query

前者更接近围绕页面、购物车、历史对话、上下文做泛化检索;

后者则是:

对当前这一轮用户 immediate target 的最佳压缩猜测。

真正用来决定策略切换的,是 focused query 的 broadness score,也就是 top-50 rerank 分布上的 normalized entropy。

这意味着这里的策略 owner 其实被拆成三层:

  1. LLM 负责把上下文翻译成 query;
  2. retrieval/reranker 负责把 query 落到 catalog;
  3. entropy router 负责根据分布形状切换 Discovery / Recommendation

这和很多 CRS 里“模型直接输出策略标签”的做法差别很大。

它更像一种:

LLM generates search intention, retrieval distribution decides tactic

如果不把这层写出来,后面很容易继续把:

  1. prompt-conditioned tactic
  2. planner policy
  3. retrieval-distribution router

误写成同一种“对话策略模块”。

它的分支条件非常明确:没有 focused query低熵高熵

这篇 paper 的 routing 逻辑相当干净:

  1. 如果 LLM 连一个可信的 focused query 都产不出来,直接进入 Exploration phase
  2. 如果有 focused query,且 B_focus < τ_merchant,进入 Recommendation
  3. 如果 B_focus ≥ τ_merchant,就继续 ask clarifying questions

这件事值得单独记,因为它把“继续 discovery”从模糊习惯,推进成了:

recommendation trigger confidence

更重要的是,作者还没有把阈值写死成单点,而是把 τ_merchant 分桶成三种 aggressiveness preset:

  1. educational
  2. balanced
  3. pushy

也就是说,系统开始允许商家自己调 discovery pressure。

因此这条线除了 strategy evidence sourcecatalog-conditioned ambiguity signal,还要再补两列:

  1. discovery-pressure preset
  2. recommendation trigger confidence

否则后面再写 RSO 这种 learned planner 和这篇 entropy router 时,会继续漏掉一个问题:

策略切换到底是学出来的,还是被阈值化治理的?

这条线最有意思的工业信号,不是“更会转化”,而是 engagement-first policy router

正文给了几组很硬的 production signal:

  1. 系统服务约 200K incoming shopper messages per day
  2. 覆盖 thousands of e-commerce brands
  3. 1M2025-012025-06 的 organic interactions 做 intent 分析
  4. Product:Details / Product:Usage / Product:Availability 三类合计接近 70%

这几条放在一起,说明作者不是在小 benchmark 上空谈 discovery vs recommendation,而是在真实大目录电商助手里问:

用户第一句进来时,AI 到底该多快进入卖货模式?

更关键的是它的 A/B 结果写得很克制:

  1. entropy-driven policy 确实让 conversation length 更长
  2. conversion 有 slight increase
  3. 但当前没有统计显著到值得单独报

这反而让我更愿意信它。

因为这说明作者当前真正验证到的,不是:

终于找到了直接提高成交率的最优对话策略

而是:

至少先证明了 entropy router 会改变 interaction depth,而且不会因为过早卖货把对话压短。

所以这条线更准确的定位,不是“又一个高转化 RL 策略器”,而是:

engagement-first policy router

它和 RSO / SAPIENT / USB-Rec 的关系,不是替代,而是补出一条更轻的分叉

把这条线放回现有 stories 里,我现在更愿意这样看:

SAPIENT

  1. 更像 planning + search tree

Rank-GRPO

  1. 更像 rank-level RL alignment

USB-Rec

  1. 更像 simulator dual-role constructor + judge

RSO

  1. 更像 learned strategy planner

这篇 entropy-driven dialogue policy:

  1. 更像 catalog-aware strategy router

所以它真正补出的不是新 benchmark,而是一个此前站里还没单独命名的系统位:

retrieval-distribution router

如果不把这层补出来,后面再写对话推荐时,还是会默认把“什么时候继续问、什么时候直接推”理解成:

  1. prompt engineering;
  2. 或 RL policy learning;

但这篇 paper 说明,中间其实还存在第三条路:

用检索分布去接管策略切换。

证据与来源

下一步

  • SAPIENT / PCCRS / ECPO / Rank-GRPO / RSO / USB-Rec / entropy-driven dialogue policy 压到同一张对话推荐观察表里,新增 strategy evidence source / catalog-conditioned ambiguity signal / discovery-pressure preset / recommendation trigger confidence 四列。
  • 继续观察这条 Gorgias 路线会不会公开 repo 或更完整的技术博客;如果长期没有,就继续把它收敛成 paper-first industrial/workshop route
  • 继续追 2509.06185 的中文高价值机制稿与稳定 xhslink,但当前仍不让传播层覆盖一手材料。