问题。
一种经典强化学习算法-Q-Learning,是解决路径规划问题一种传统方式。
Q-Learning基本思想是根据学习地图里所观察环境状态,从延迟回馈中获得最优控制策略,并提出控制策略来选择达到目操作。
但该方法实际上是专为已知整个环境地图计划者而设计。
当只能获得部分地图信息时,Q-Learning使用不了对路径规划非常有价值无素几何距离信息。
此外,对无人机而言,Q-Learning中当从一个点传播到其它点有许多不必要计算,从其它无人机得到共享信息不能被很好利用。
也有一些特殊点,如起点和目标点都没有得到很好考虑。
为了利用几何距离和从检测传感器和其它无人机来风