排序方式: 共有2条查询结果,搜索用时 15 毫秒
1
1.
针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同时利用残差梯度法更新神经网络参数以保证收敛性。引入经验回放机制实现神经网络参数的小批量梯度更新,有效减少迭代次数,加快学习速度。为了进一步提高训练过程的稳定性,引入动量优化。此外,采用Softplus函数代替一般的ReLU激活函数,避免了ReLU函数在负数区域值恒为零所导致的某些神经元可能永远无法被激活,相应的权重参数可能永远无法被更新的问题。通过CartPole控制任务的仿真实验,验证了所提算法的正确性和有效性。 相似文献
2.
最大均值差异仅用于反映样本空间总体的分布信息和全局结构信息,忽略了单个样本对全局度量贡献的差异性。为此,提出一种最大分布加权均值差异(MDWMD)度量方法,采用白化余弦相似性度量为源域和目标域的所有样本设计相应的分布权重,使得每个样本的分布差异信息在全局度量中均得以体现。进一步,在MDWMD基础上,结合联合分布调整思想,提出一种领域适应学习算法:基于最大分布加权均值嵌入的联合分布调整,同时对源域和目标域中的数据进行边缘概率分布调整和条件分布调整。实验结果表明,与现有典型的迁移学习和无迁移学习算法相比,所提算法在不同类型跨领域图片数据集上的分类精度较高。 相似文献
1