DOI：10.3969/j.issn.2095-2163.2022.02.014

基于TD3算法的对话策略研究

引用

摘要：

对话策略是任务型对话系统构建的核心组件,通常被定义为强化学习,通过代理和环境的交互,提升对话策略效率.针对当前任务型的对话系统缺少高质量的标注数据集及模型难于收敛等问题,提出了结合规划的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient)算法,用以优化对话策略.该算法使用孪生网络结构,采用软更新、策略噪音和延迟学习等方法,有效的改善了过估计问题.实验结果表明,该方法加速了模型的收敛,提升了对话成功率.

关键词：对话系统、强化学习、对话策略、代理

所属期刊栏目：12

分类号：TP391(计算技术、计算机技术)

资助基金：羊城学者科研项目202032796

在线出版日期：2022-05-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：68-72

英文信息展示

期刊专题