Entropy-Driven Dialogue Policy：对话推荐不一定非得训练 Planner，也可以让检索熵接管路由

背景

补完 SAPIENT / ChatCRS / CRAVE、Rank-GRPO、USB-Rec 和 RSO 之后，站里对对话推荐已经有几种比较清楚的理解：

有的方法把策略做成 planning + search tree。
有的方法把对齐压到 rank-level RL。
有的方法让 simulator 同时负责偏好构造和 test-time judge。
有的方法进一步把 interaction strategy 抽成单独可训练的 planner。

但这张图里还缺一个一直没被单独写开的系统位：

谁来决定这一步该继续 discovery，还是已经应该直接给 recommendation？

过去我比较容易默认这件事只有两种解法：

要么继续塞进 prompt，让 LLM 自己判断。
要么像 RSO 一样，把它抽成单独可学习的 Planner policy。

这一轮我先用 arXiv export API 和本地 search-layer 做差集候选，再回到一手论文、HTML、PDF、GitHub API 和中文检索做核验；中间还扫过一篇标题更像 RLHF for CRS 的候选，但摘要和正文都出现明显格式异常，不值得直接入池。最终更值得补成一篇 story 的，是：

核完之后，我更愿意把它记成：

对话推荐里的策略切换，也可以由检索分布直接接管

核心判断

这条线真正新增的，不是“又一个 shopping assistant”，而是 `strategy evidence source`

这篇 paper 最该单独记的地方，不是它也做了 Discovery / Recommendation 两段式。

真正关键的是：

它把策略切换的证据，从 LLM 自己的主观判断，换成了 retrieval score distribution 的形状。

也就是说，这里被重新提问的，不是：

模型会不会规划；
模型能不能做 RL；
模型会不会多轮追问；

而是：

系统到底凭什么相信，现在已经足够明确，可以直接推商品？

RSO 的答案更像：

让 Planner 学会在 recommend / explain / inquiry 之间选策略；
再用 LLM-as-a-judge reward 去训练这个策略分布。

这篇 Gorgias 的答案则完全不同：

先让 LLM 产出搜索 query；
再看候选商品分数分布是否足够集中；
最后由分布熵来决定继续追问还是直接推荐。

这会直接逼着 Story Lab 再补一列：

strategy evidence source

否则后面把 SAPIENT / Rank-GRPO / RSO / USB-Rec 和这篇 paper 放在一起时，还会继续把它们都写成“会做对话策略”的同一类系统。

它修的问题不是抽象的“策略不够聪明”，而是 `catalog-conditioned ambiguity`

正文 3.3 给了一个很重要的负例：同一句 query，在不同商家 catalog 里，模糊程度不一样。

作者举的例子是：

nails

如果商家是专门卖美甲用品的，这个 query 可能对应几百个 SKU，显然还远没具体到可以直接推一个商品。

但如果商家只是一个 general beauty store，只卖少数几款 nail 相关产品，这个 query 反而已经相当具体。

这件事非常关键，因为它说明：

query broadness 不是固定语义属性，而是 catalog-conditioned ambiguity signal。

也就是说，对话推荐里的策略切换，不该只看：

用户这句话听起来像不像具体需求；
LLM 自己觉得需不需要再问一句；

还要看：

这句话落到当前商品空间里之后，候选分布到底有多散。

这条线和 RSO 的 strategy planner 不冲突，但层次不同：

RSO 更像学习交互策略。
这篇 paper 更像用 catalog-aware evidence 去触发策略。

所以后续表里除了 strategy owner，还至少要再补一列：

catalog-conditioned ambiguity signal

它的真正结构，不是单一 query classifier，而是 `focused query + exploratory query` 双路

这篇 paper 的实现并不是让 LLM 先做一个单纯的三分类：

该问问题；
该推荐；
不确定。

它先让 query generator 产出两类查询：

Exploratory queries
Focused query

前者更接近围绕页面、购物车、历史对话、上下文做泛化检索；

后者则是：

对当前这一轮用户 immediate target 的最佳压缩猜测。

真正用来决定策略切换的，是 focused query 的 broadness score，也就是 top-50 rerank 分布上的 normalized entropy。

这意味着这里的策略 owner 其实被拆成三层：

LLM 负责把上下文翻译成 query；
retrieval/reranker 负责把 query 落到 catalog；
entropy router 负责根据分布形状切换 Discovery / Recommendation。

这和很多 CRS 里“模型直接输出策略标签”的做法差别很大。

它更像一种：

LLM generates search intention, retrieval distribution decides tactic

如果不把这层写出来，后面很容易继续把：

prompt-conditioned tactic
planner policy
retrieval-distribution router

误写成同一种“对话策略模块”。

它的分支条件非常明确：`没有 focused query`、`低熵`、`高熵`

这篇 paper 的 routing 逻辑相当干净：

如果 LLM 连一个可信的 focused query 都产不出来，直接进入 Exploration phase
如果有 focused query，且 B_focus < τ_merchant，进入 Recommendation
如果 B_focus ≥ τ_merchant，就继续 ask clarifying questions

这件事值得单独记，因为它把“继续 discovery”从模糊习惯，推进成了：

recommendation trigger confidence

更重要的是，作者还没有把阈值写死成单点，而是把 τ_merchant 分桶成三种 aggressiveness preset：

educational
balanced
pushy

也就是说，系统开始允许商家自己调 discovery pressure。

因此这条线除了 strategy evidence source 和 catalog-conditioned ambiguity signal，还要再补两列：

discovery-pressure preset
recommendation trigger confidence

否则后面再写 RSO 这种 learned planner 和这篇 entropy router 时，会继续漏掉一个问题：

策略切换到底是学出来的，还是被阈值化治理的？

这条线最有意思的工业信号，不是“更会转化”，而是 `engagement-first policy router`

正文给了几组很硬的 production signal：

系统服务约 200K incoming shopper messages per day
覆盖 thousands of e-commerce brands
用 1M 条 2025-01 到 2025-06 的 organic interactions 做 intent 分析
Product:Details / Product:Usage / Product:Availability 三类合计接近 70%

这几条放在一起，说明作者不是在小 benchmark 上空谈 discovery vs recommendation，而是在真实大目录电商助手里问：

用户第一句进来时，AI 到底该多快进入卖货模式？

更关键的是它的 A/B 结果写得很克制：

entropy-driven policy 确实让 conversation length 更长
conversion 有 slight increase
但当前没有统计显著到值得单独报

这反而让我更愿意信它。

因为这说明作者当前真正验证到的，不是：

终于找到了直接提高成交率的最优对话策略

而是：

至少先证明了 entropy router 会改变 interaction depth，而且不会因为过早卖货把对话压短。

所以这条线更准确的定位，不是“又一个高转化 RL 策略器”，而是：

engagement-first policy router

它和 `RSO / SAPIENT / USB-Rec` 的关系，不是替代，而是补出一条更轻的分叉

把这条线放回现有 stories 里，我现在更愿意这样看：

SAPIENT：

更像 planning + search tree

Rank-GRPO：

更像 rank-level RL alignment

USB-Rec：

更像 simulator dual-role constructor + judge

RSO：

更像 learned strategy planner

这篇 entropy-driven dialogue policy：

更像 catalog-aware strategy router

所以它真正补出的不是新 benchmark，而是一个此前站里还没单独命名的系统位：

retrieval-distribution router

如果不把这层补出来，后面再写对话推荐时，还是会默认把“什么时候继续问、什么时候直接推”理解成：

prompt engineering；
或 RL policy learning；

但这篇 paper 说明，中间其实还存在第三条路：

用检索分布去接管策略切换。

证据与来源

Modeling shopper interest broadness with entropy-driven dialogue policy in the context of arbitrarily large product catalogs：arXiv 摘要页。主入口，可稳定核对提交日期 2025-09-07、作者、摘要与对 low-entropy -> recommendation / high-entropy -> exploratory questions 的总述。
2509.06185 arXiv HTML：正文关键入口。Section 2-4 直接写出 Gorgias multi-skill agent 的 ~200K incoming shopper messages per day、focused query + exploratory query、top-50 entropy estimator、0.3 / 0.8 threshold plateau 与 A/B 上 conversation length 增长、conversion 仅 slight increase 的边界。
2509.06185 PDF：可稳定回查 GenAIECommerce 2025 @ RecSys 25 workshop、1M organic interactions、Product:Details / Usage / Availability 三类 intent 统计，以及 Discovery / Recommendation 的完整文字描述。
GitHub 仓库搜索："entropy-driven dialogue policy" recommender：本轮用来复核公开边界；截至 2026-03-25 未见稳定官方 repo。
ChatPaper 中文页：当前可稳定回溯到的中文传播层入口之一；只适合作为传播层导航，不替代一手论文。

下一步

把 SAPIENT / PCCRS / ECPO / Rank-GRPO / RSO / USB-Rec / entropy-driven dialogue policy 压到同一张对话推荐观察表里，新增 strategy evidence source / catalog-conditioned ambiguity signal / discovery-pressure preset / recommendation trigger confidence 四列。
继续观察这条 Gorgias 路线会不会公开 repo 或更完整的技术博客；如果长期没有，就继续把它收敛成 paper-first industrial/workshop route。
继续追 2509.06185 的中文高价值机制稿与稳定 xhslink，但当前仍不让传播层覆盖一手材料。

Entropy-Driven Dialogue Policy：对话推荐不一定非得训练 Planner，也可以让检索熵接管路由

背景

核心判断

这条线真正新增的，不是“又一个 shopping assistant”，而是 strategy evidence source

它修的问题不是抽象的“策略不够聪明”，而是 catalog-conditioned ambiguity

它的真正结构，不是单一 query classifier，而是 focused query + exploratory query 双路

它的分支条件非常明确：没有 focused query、低熵、高熵

这条线最有意思的工业信号，不是“更会转化”，而是 engagement-first policy router

它和 RSO / SAPIENT / USB-Rec 的关系，不是替代，而是补出一条更轻的分叉