摘要:深度Q神经网络算法的值函数迭代算法大多为Q学习算法,这种算法使用贪婪值函数作逼近目标,不利于深度Q神经网络算法获得长期来看更好的策略。通过以期望思想求解的期望值函数取代贪婪值函数作为更新目标,提出了基于期望值函数的离策略深度Q神经网络算法,并结合DQN算法神经网络更新方法,给出期望值函数能够作用于DQN算法的解释。通过使用该算法能够快速获得长期回报较高的动作和稳定的策略。最后分别在CarPole-v1和Acrobot仿真环境中对期望值函数的离策略深度Q神经网络算法和深度Q神经网络算法进行获取策略的稳定性对比实验,结果表明,基于期望值函数的离策略深度Q神经网络算法能够快速获得长期回报较高的动作,并且该算法表现更为稳定。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社。
四川理工学院学报杂志, 双月刊,本刊重视学术导向,坚持科学性、学术性、先进性、创新性,刊载内容涉及的栏目:社会发展与社会保障特色栏目 、法学、教育发展与创新特色栏目 、经济与管理、编辑学与期刊学研究、信息与知识传播、中国特色社会主义理论与实践、中国盐文化研究特色栏目等。于1986年经新闻总署批准的正规刊物。