基于期望值函数的离策略深度Q神经网络算法

作者:刘川莉; 蔡乐才; 高祥; 居锦武; 吴昊霖 四川轻化工大学自动化与信息工程学院; 四川自贡643000; 人工智能四川省重点实验室; 四川自贡643000; 宜宾学院; 四川宜宾644000; 企业信息化与物联网测控技术四川省高校重点实验室; 四川自贡643000; 四川大学计算机学院; 成都610065

摘要:深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

四川理工学院学报

省级期刊 下单

国际刊号:1672-8580

国内刊号:51-1676/C

杂志详情
相关热门期刊

服务介绍LITERATURE

正规发表流程 全程指导

多年专注期刊服务,熟悉发表政策,投稿全程指导。因为专注所以专业。

保障正刊 双刊号

推荐期刊保障正刊,评职认可,企业资质合规可查。

用户信息严格保密

诚信服务,签订协议,严格保密用户信息,提供正规票据。

不成功可退款

如果发表不成功可退款或转刊。资金受第三方支付宝监管,安全放心。