10.3969/j.issn.1000-1220.2021.03.004
一种自对弈棋局学习样例质量评价方法
计算机棋类游戏学习中的自对弈学习指仅依赖行棋过程及最终的输赢结果的学习.整个过程中除下棋规则外不预设任何领域知识,也无专家指导.虽然基于极大极小算法、α-β剪枝算法和蒙特卡洛搜索的自对弈学习已经取得了卓越成果,但是目前仍旧缺乏对于学习样例质量评价的针对性研究.因此,本文首次提出了一种自对弈棋局学习样例质量评价方法,该方法采用样本规模综合指标T—使用样例重复度和样例个数的线性组合—来决定学习样例大小.在西洋跳棋上的实验表明,本评价方法可以达到有效控制学习样例规模的目的,在不降低学习效果的前提下大幅降低学习样例产生的计算成本.
计算机博弈、自对弈、西洋跳棋、样例质量
42
TP183(自动化基础理论)
国家重点研发计划项目;国家自然科学基金项目
2021-03-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
467-471