摘要:针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learming框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learming难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社。
测控技术杂志, 月刊,本刊重视学术导向,坚持科学性、学术性、先进性、创新性,刊载内容涉及的栏目:综述、试验与测试、机器人技术与应用、智能感知与仪器仪表、数据采集与处理、计算机与控制系统、科技动态等。于1982年经新闻总署批准的正规刊物。