基于期望值函数的离策略深度Q神经网络算法-四川轻化工大学自动化与信息工程学院-优发表

欢迎来到优发表网！

首页 > 期刊 > 四川理工学院学报 > 基于期望值函数的离策略深度Q神经网络算法【正文】

基于期望值函数的离策略深度Q神经网络算法

作者：刘川莉; 蔡乐才; 高祥; 居锦武; 吴昊霖四川轻化工大学自动化与信息工程学院; 四川自贡643000; 人工智能四川省重点实验室; 四川自贡643000; 宜宾学院; 四川宜宾644000; 企业信息化与物联网测控技术四川省高校重点实验室; 四川自贡643000; 四川大学计算机学院; 成都610065

摘要：深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社。

投稿咨询期刊咨询

四川理工学院学报杂志

四川理工学院学报杂志，双月刊，本刊重视学术导向，坚持科学性、学术性、先进性、创新性，刊载内容涉及的栏目：社会发展与社会保障特色栏目、法学、教育发展与创新特色栏目、经济与管理、编辑学与期刊学研究、信息与知识传播、中国特色社会主义理论与实践、中国盐文化研究特色栏目等。于1986年经新闻总署批准的正规刊物。

省级期刊
1-3个月审核

杂志详情

服务介绍LITERATURE

正规发表流程全程指导

多年专注期刊服务，熟悉发表政策，投稿全程指导。因为专注所以专业。

保障正刊双刊号

推荐期刊保障正刊，评职认可，企业资质合规可查。

用户信息严格保密

诚信服务，签订协议，严格保密用户信息，提供正规票据。

不成功可退款

如果发表不成功可退款或转刊。资金受第三方支付宝监管，安全放心。