简介:研究基于深度强化学习技术的避障场景的算法模型设计,采用改进岛深度Q网络(DeepQ-lesrningNet-work,DQN)算法克服了Q-learning表名式算法在连续状态下导致内存不足的局限性。鉴于学习过程中奖励稀疏导致很艰难获得较好结果的情况,改进奖利机制,增知实时奖惩作为补充,解决学习耗时长和练不稳定的问题:采用相对角度、位置金和距离等信息,相比绝对坐标信息可以更有效的躲障碍物。不同于基于栅格法/可视图法等传统人为策略避障算法,深度强化学习算法DQN能够在缺乏先验知识的条件下具备自主决策能力,因此适用性更强。该技术可应用在仓储无人车、巡佥机器人、无人机等现实场景。
简介:使用Chebyshev-Gauss(CG)伪谱法研究带动量轮和推力器的欠驱动航天器姿态最优控制问题.基于欧拉姿态角和动量矩定理导出两类航天器姿态运动模型,采用Clenshaw-Curtis积分近似得到性能指标函数中的积分项,应用重心拉格朗日插值逼近状态变量和控制变量,将连续最优控制问题离散为具有代数约束的非线性规划(NLP)问题,通过序列二次规划(SQP)算法求解.数值仿真结果表明,对两类欠驱动航天器的姿态机动最优控制均能达到设计控制要求,得到的姿态最优曲线与验证得到的曲线几乎完全重叠.