基于强化学习的异步动态定价算法

引用

摘要：

研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题.基于性能势理论,建立了同时适用于平均和折扣两种优化准则下的异步定价策略的Q学习和WoLF-PHC算法,通过一个数值例子比较了相关算法的学习优化效果.仿真结果表明,Q学习和WoLF-PHC算法都能较好地解决异步动态定价问题,但由于后者采用混合策略和可变学习率,故能更好地适应环境变化,并具有更好的学习优化效果.

关键词：异步动态定价、多Agent、性能势、WoLF-PHC算法

所属期刊栏目：26

分类号：TP273(自动化技术及设备)

资助基金：教育部留学回国人员科研启动基金资助项目教外司留2008890;安徽省自然科学基会资助项目070416242,090412046;安徽高校省级自然科学研究重点资助项目KJ2008A058, J2010A256

在线出版日期：2012-03-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：664-670

英文信息展示

期刊专题