RSO:对话推荐开始把“怎么聊”拆成可学习的策略规划器
背景
补完站里现有的 SAPIENT / ChatCRS / CRAVE、ECPO、Rec-R1 / Rank-GRPO 和 USB-Rec 之后,站里对对话推荐这条线已经有了几块比较清楚的拼图:
- 有的方法在做多轮 planning。
- 有的方法在做 turn-level 或 rank-level
RL对齐。 - 有的方法让 simulator 负责构造 preference 或做 test-time judge。
但这些线拼到一起后,仍然留着一个一直没被单独写成系统位的问题:
对话推荐里的“怎么聊”,到底是谁在学?
过去很多公开方法虽然也会:
- 在 prompt 里写 strategy instruction;
- 让模型自己决定什么时候追问、什么时候解释;
- 或在 tree search 里隐式探索对话分支;
但它们往往没有把 interaction strategy 本身单独立成一个可学习 policy。
这一轮我先用 arXiv export API 做差集候选发现,再回到一手论文、PDF、GitHub API 与中文传播层检索做定向核验,最终锁定:
Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts2509.26093PDF2509.26093arXiv HTML
核完之后,我更愿意把它记成:
对话推荐开始把“怎么聊”拆成可学习的策略规划器
核心判断
这条线真正新增的,不是“又一个 CRS 模型”,而是 interaction strategy 开始从静态 prompt 里脱身
RSO 最重要的一点,是它没有把策略继续写成 prompt 附件,也没有只把推荐 success 当成最后一轮 response 的副产品。
论文明确把任务拆成两个层次:
macro-level strategy planningmicro-level strategy adaptation
宏观层先决定这一步到底该:
recommendexplainencourageopinion inquiryexperience inquiryrephrase preference- 以及其他 sociable / non-strategy 行为
也就是说,它先把“这一步应该以什么交互姿态推进对话”单独抽成了一个显式决策。
这件事看起来像小改动,但系统意义非常直接:
CRS 终于开始把“推荐什么”和“怎么把推荐推进到被接受”拆成两个 owner。
如果不单独把这一层记出来,后面再把 PCCRS 这种 strategy-conditioned prompt、SAPIENT 这种 planning+search、ECPO 这种 turn-level 对齐 和 Rank-GRPO 这种 rank-level 对齐 放在一起时,就会继续把它们都写成“会多轮对话”的同一类系统。
它最关键的结构,不是 NoE 这个名字,而是 Planner -> Actor 的宏微观分工
RSO 的实现用的是一个很明确的 Network-of-Experts:
Planner ExpertPreference Reasoner ExpertFact Retriever ExpertActor ExpertReward Expert
但真正值得记住的,不是“它用了多个 experts”。
更重要的是它怎样划 owner:
Planner:
- 只负责选宏观策略。
- 输出是策略类型,不是完整用户回复。
Preference Reasoner:
- 从完整对话历史里显式推断当前用户偏好。
- 把原本散在多轮对话里的隐式信号压成结构化文本上下文。
Fact Retriever:
- 先做 embedding-based entity retrieve。
- 再去知识图里取 item factual evidence。
Actor:
- 不直接自由发挥。
- 而是拿着
macro strategy + inferred preference + retrieved facts去生成最终回复。
这意味着它补出的不是一般意义上的 reasoning + retrieval + generation。
它真正补出的,是:
macro policy 决定交互姿态,micro experts 决定策略如何被用户化、事实化。
这和很多现有 CRS 路线差别很大。很多方法虽然也会:
- 读历史;
- 做检索;
- 生成回复;
但没把“策略选择权”单独抽出来。
而 RSO 恰恰把这层从 response generator 里剥开了。
它最值得单独记的系统契约,是 planner-only optimization contract
这篇 paper 里最不该被忽略的地方,在 III-D。
作者没有选择联合训练整套系统,反而明确说:
ActorPreference ReasonerFact Retriever
全部固定,只优化 Planner。
原因也写得很清楚:
- 如果联合优化,搜索空间会过于耦合;
response generation / preference reasoning / factual grounding已经可以由现代LLM通过 in-context learning 相对稳定完成;- 真正最难、最依赖用户差异、也最需要被显式学出来的,是
什么时候推荐、什么时候澄清、什么时候解释这一层宏观策略。
所以这条线的学习过程被拆成两段:
- 先用 annotated strategy 做
SFT,给Planner一个强 planning prior; - 再用
entropy-regularized policy gradient和LLM-as-a-judgereward 做策略探索。
这里真正新增的系统位不是“也用了 RL”。
而是:
RL 在这里主要服务 strategy planner,而不是直接服务 response generator。
这会直接改写 Story Lab 现有 CRS 图里的几个观察维度。后续至少要补:
strategy ownermacro-micro splitplanner-only optimization contractgrounding consumer
否则 planner、reasoner、actor 和 rank-level aligner 会再次被混成同一种对话推荐训练器。
entropy-regularized RL 在这里修的,不是一般的探索不足,而是 strategy collapse
论文 V-B2 给了一个很关键的分析:只做 SFT 时,Planner 会明显偏向少数安全策略,比如 Credibility 和 Opinion Inquiry。
结果就是:
- 对话会越来越重复;
- 很多本来有价值的策略很少被激活;
- 系统会过度依赖“看起来总没错”的模板行为。
作者用 entropy regularization 去做的,其实不是泛泛的 exploration boost,而是更具体的:
防止策略分布塌到少数安全默认值。
论文图里明确写出,加入这层之后:
Rephrase PreferencePreference ConfirmationSimilarity
这些之前低频的策略会重新被拉回活跃区间。
所以这条线还补出了另一个此前站里没被单独命名的观察位:
strategy-collapse control
因为对话推荐里的策略学习,和 item ranking 一样,也会出现一种独立的 collapse:
不是 item collapse,不是 reward hacking,而是 interaction style collapse。
结果说明它补出的不只是“对话更自然”,而是 recommendation success 也被一起拉高
RSO 的结果不只是 conversational nicety。
Table IV 和 Table V 说明它同时抬了对话质量和推荐结果。
在 Inspired / ReDial 上,RSO 做到:
WI 3.8788 / 3.8393Conv-SR 0.9798 / 0.9798Rec-SR 0.535 / 0.566Recall@1 0.758 / 0.742Recall@5 0.889 / 0.884
如果只看 recommendation success,这组结果也不轻:
Inspired上相对UniCRS的整体提升最高到84.5%ReDial上相对UniCRS的整体提升最高到12.3x
更重要的是 ablation 把每个 expert 的系统职责钉得很清楚:
Fact Retriever:
Inspired上Credibility 2.73 -> 3.83ReDial上Credibility 2.76 -> 3.63
Planner:
Inspired上Conv-SR 0.92 -> 0.98ReDial上Conv-SR 0.94 -> 0.98
Preference Reasoner:
Inspired上Conv-SR 0.94 -> 0.98ReDial上Conv-SR 0.96 -> 0.98
这意味着它不是靠某个单点 trick 提升,而是把:
- 何时切换策略
- 如何读出用户偏好
- 如何让回复有事实支撑
这三件事正式拆成了互相配合的系统位。
对 Story Lab 的意义
RSO 最值得留下来的,不是一套新的 benchmark 结果,而是一组新的 CRS 观察位:
strategy owner:策略到底是 prompt 的一部分,还是独立 policymacro-micro split:系统有没有把“选策略”和“生成回复”拆成两层planner-only optimization contract:RL 到底更新谁strategy-collapse control:方法有没有显式避免策略分布塌缩grounding consumer:偏好推断和事实检索最终是给谁消费
否则后面继续写:
PCCRSSAPIENTECPORank-GRPOUSB-RecRSO
这些方法时,图会重新变粗。
更具体地说,这篇 paper 让我更确信,对话推荐里至少已经出现了三种不同的 policy owner:
search/tree ownerrank-level alignment ownerstrategy planner owner
而 RSO 代表的是第三种。
公开边界与中文传播层
这条线当前的公开边界也要写准。
我这轮直接做了 GitHub API 检索,按:
- 论文全标题
2509.26093Network-of-Experts conversational recommender
三组关键词继续查,截至 2026-03-24 都没有看到稳定官方 repo。
因此当前更适合把它记成:
paper-first strategy-planner route
中文传播层也还比较薄。
本轮继续补做:
"2509.26093" 中文"Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts" 中文site:xiaohongshu.com "Reinforced Strategy Optimization" 推荐xhslink Reinforced Strategy Optimization
稳定能回出的中文入口主要还是:
但它本质上仍是二手自动摘要,事实判断还是应该回到 arXiv 论文和 PDF。
截至 2026-03-24,围绕这篇 paper 仍没有拿到稳定高价值 xhslink。
参考来源
Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts:主入口;摘要直接写出macro-level strategy planning + micro-level strategy adaptation + network-of-experts + RL这条主线。2509.26093PDF:用于核对Table IV / Table V、Eq. 7、Planner / Preference Reasoner / Fact Retriever / Actor的系统分工,以及Inspired / ReDial上的具体数值。2509.26093arXiv HTML:用于核对III-B / III-C / III-D的方法结构、V-B2的 strategy distribution 分析和 ablation 结论。- GitHub API 检索论文全标题、
2509.26093与Network-of-Experts conversational recommender:截至2026-03-24,未见稳定官方 repo,因此当前公开边界应按paper-first记。 Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts - ChatPaper:当前可稳定访问的中文传播层入口之一,可用于确认这条线已进入中文可见层,但不能替代一手论文。
下一步
- 把
SAPIENT / PCCRS / ECPO / Rank-GRPO / RSO / USB-Rec压到同一张对话推荐观察表里,新增strategy owner / macro-micro split / planner-only optimization contract / strategy-collapse control / grounding consumer五列。 - 继续追这条线是否会公开官方代码,尤其是
Planner的具体训练接口和 reward prompt。 - 若后续出现更多中文材料,再比较
RSO和PCCRS在“strategy 是 prompt condition 还是可训练 policy”上的公开分叉。