10.3969/j.issn.1003-0077.2018.07.013
基于DQN的开放域多轮对话策略学习
有效地进行多轮对话是开放域人机对话系统的主要目标之一.目前的神经网络对话生成模型在开放域多轮对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话研究工作存在着没有考虑未来对话走向的问题.借鉴强化学习方法考虑全局的视角,该文利用深度强化学习算法DQN(deep Q-network),提出了使用深度价值网络对每一轮的候选句子进行评估,并选择未来收益最大的而非生成概率最大的句子作为回复的多轮对话策略学习方法.实验结果表明,该文提出的方法将多轮对话的平均对话轮数提高了两轮,同时在主观对比评价指标上获胜比例高出了45%.
多轮对话、对话策略、强化学习
32
TP391(计算技术、计算机技术)
国家重点基础研究发展计划2014CB340503;国家自然科学基金61502120 ,61472105;哈尔滨学院青年科研基金HUYF2013-002;黑龙江省哲学社会科学研究规划项目16TQD03
2018-08-28(万方平台首次上网日期,不代表论文的发表时间)
共11页
99-108,136