1、“.....设计出控制器。使用个二次奖励函数其中,和分别是给予精确跟踪和良好阻尼恒定奖励是系统所需参考状态。控制策略映射所观察到状态上到输入命令。在这项工作中,状态空间约束条件为,输入命令约束条件为。控制策略选择为其中,是策略系数向量。线性函数足以达到良好稳定性和表现。附加条款......”。
2、“.....也应该考虑进来使策略更加适应不同飞行条件。迭代策略按算法中解释那样执行。该算法旨在找到产生最大总奖励值,通过模拟个从组随机初始条件下开始有限范围系统确定,并对每个遇到状态求,和。算法基于模型强化学习生成随机初始状态集合产生随机参考轨迹集合初始化为合理值,,,,,添加高斯随机向量......”。
3、“.....每次迭代组固定随机初始条件和参考轨迹用来模拟飞行,使用个由给定策略参数。每次迭代中使用相同随机集合以便达到收敛可能。每次迭代后,新值如果优于以前最好策略则作为存储。通过比较与确定,先前最好回报则丢弃。然后,个高斯随机向量添加到。结果存储为,模拟再次执行。如是迭代,直到值经历适当迭代次数后保持稳定,由特定应用程序确定......”。
4、“.....以预测控制策略所可能产生性能。通过为策略权重使用高斯更新规则,它有可能超过局部最大。最高概率步骤是小,导致解决方案完善,中局部最大值附近。但是,如果该算法是全局最大,并允许继续执行,存在个有限概率个足够大高斯步骤将执行,这样,该算法能保持递增。六试飞结果积分滑模基于控制室外试飞结果在图中可以看出。响应时间为秒间隔,秒稳定时间......”。
5、“.....此外,在响应中可以看出振荡性质,这是最有可能被非线性气动效应和前面所述传感器数据尖峰触发。图在户外飞行测试积分滑模阶跃响应相比线性控制技术在飞机上应用,控制可以看到显著提高。通过明确纳入对未知边界在控制规律推导中,通过明确包含未知干扰力量范围,避开标准方法,保持系统高度稳定是有可能。可能保持稳定高度,系统具有回避标准方法......”。
6、“.....迭代策略算法完成实施控制策略在奔腾电脑上只用了个小时。图给出了控制器飞行测试结果用于控制设计系统高逼真度模型,为控制策略与其他控制器比较提供了个有用工具。事实上,应用线性控制器仿真被证明对旋翼不稳定,日益振荡飞行路径可以预测它密切匹配实际飞行数据。局部加权线性回归模型显示了许多线性模型没有反映关系......”。
7、“.....例如,在所有其他状态保持固定,在油门状态下向上速度在随后时间步长导致更多加速度,下降速度会产生相反效果。这是基本上是负阻尼。该模型还显示出强大地面效应。这是在所有其他状态保持固定情况下,车辆越接近地面,在给定油门水平下随后个时间步长中,将有更大加速度。图强化学习控制器在户外飞行测试下手动应用阶跃输入响应......”。
8、“.....没有经过训练强化学习控制规律是容易受到系统干扰。特别是,不同电池电量和叶片退化,可能会导致稳定或稳定状态偏移减弱。此外,控制策略积分误差项是减缓稳态干扰有效手段,就如控制规律中看到样。比较和控制阶跃响应,显示出相同稳定性和相似响应时间,虽然控制瞬态动力特性更加明显。拥有优势在于它将加速度测量值纳入其控制。这样......”。
9、“.....自主悬停应用高度控制和积分型位置控制技术,飞行试验以达到自主悬停目标。在个两分钟飞行时间内位置响应保持在直径米圆内见图,这是在使用波段差分预期必然误差之内。图自主悬停飞行位置记录与误差圆七结论本文总结了自主旋翼能够扩展户外轨迹跟踪控制发展。这是作者已知具有这种能力旋翼第个示范......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。