首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
交易策略在金融资产交易中具有十分重要的作用,如何在复杂动态金融市场中自动化选择交易策略是现代金融重要研究方向.强化学习算法通过与实际环境交互作用,寻找最优动态交易策略,最大化获取收益.提出了一个融合了CNN与LSTM的端到端深度强化学习自动化交易算法,CNN模块感知股票动态市场条件以及抽取动态特征,LSTM模块循环学习...  相似文献   

2.
3.
将深度强化学习技术应用于投资组合管理,采用深度强化学习中的深度确定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法,通过限制单只股票的投资权重,分散风险,并采用丢弃算法(Dropout),即在训练模型时随机丢弃节点,解决过拟合问题。以中国股市为例,选取16只中证100指数成分股作为风险资产进行实验。结果表明,本文基于深度强化学习方法构建的投资组合,在实验期间的价值增幅显著高于对照组(等权重组合),2年达到65%,约为对照组的2.5倍,表明了本文方法的有效性。而且通过进一步实验,表明了当用于训练的数据离测试数据时间越近,则本文构建的投资组合表现越好。  相似文献   

4.
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。  相似文献   

5.
攻击路径规划对实现自动化渗透测试具有重要意义,在现实环境中攻击者很难获取全面准确的网络及配置信息,面向未知渗透测试环境下的攻击路径规划,提出了基于深度强化学习的攻击路径规划方法。首先,对渗透测试问题的状态空间和动作空间进行形式化描述,引入信息收集动作增强对环境的感知能力。然后,智能体通过与环境的自主交互进行学习,寻找最大化长期收益的最优策略,从而指导攻击者进行路径规划。当前深度强化学习算法应用于攻击路径规划存在适应性不强和收敛困难等问题,限制了其处理复杂渗透测试环境的能力。智能体在训练初期通过盲目探索得到的动作序列在维度迅速增长时质量会急剧下降,有时很难完成目标,而且低质量的动作序列大量积累会导致算法不收敛甚至神经元死亡。针对此问题,本文提出的深度强化学习算法在DDQN算法的基础上增加了路径启发信息和深度优先渗透的动作选择策略。路径启发信息充分利用历史经验,在训练初期对智能体的学习过程加以引导,深度优先渗透的动作选择策略在一定程度上对动作空间进行了剪枝,加速智能体的学习过程。最后,通过与其他深度强化学习算法在相同实验条件下的对比,验证了本文算法收敛速度更快,运行时间缩短30%以上。  相似文献   

6.
基于值函数和策略梯度的深度强化学习综述   总被引:1,自引:0,他引:1  
  相似文献   

7.
张虹芸  陈辉  张文旭 《自动化学报》2024,50(7):1417-1431
针对扩展目标跟踪(Extended target tracking, ETT)优化中的传感器管理问题, 基于随机矩阵模型(Random matrices model, RMM)建模扩展目标, 提出一种基于深度强化学习(Deep reinforcement learning, DRL)的传感器管理方法. 首先, 在部分可观测马尔科夫决策过程(Partially observed Markov decision process, POMDP)理论框架下, 给出基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient, TD3)算法的扩展目标跟踪传感器管理的基本方法; 其次, 利用高斯瓦瑟斯坦距离(Gaussian Wasserstein distance, GWD)求解扩展目标先验概率密度与后验概率密度之间的信息增益, 对扩展目标多特征估计信息进行综合评价, 进而以信息增益作为TD3算法奖励函数的构建; 然后, 通过推导出的奖励函数, 进行基于深度强化学习的传感器管理方法的最优决策; 最后, 通过构造扩展目标跟踪优化仿真实验, 验证了所提方法的有效性.  相似文献   

8.
航迹规划是无人机走向智能化的重要组成部分。目前已有的传统航迹规划算法存在实时规划能力差、无法处理动态场景、航迹不平滑等问题,现有的强化学习算法虽然能够实时规划,但是大多数算法主要应用在二维场景下,且存在容易碰撞障碍物、到达率低、航迹不平滑和航迹质量低等问题。针对上述问题,提出基于改进深度确定性策略梯度的强化学习算法,该算法融合自注意力机制,提取障碍物特征,躲避障碍,解决到达率低、实时规划能力差的问题,重新设计奖励函数,惩罚无人机“后退”行为,引入方向向量夹角引导机制,解决航迹不平滑问题。仿真验证结果表明,提出的改进算法在复杂动态场景下达到93.5%的到达率,平均飞行距离减少7.3%,推理时间减少26.2%,推理时间短,航迹符合无人机的飞行要求。  相似文献   

9.
能耗限制的服务质量优化问题一直以来都是数据中心虚拟机资源管理所面临的巨大挑战之一.尽管现有的工作通过虚拟机整合技术一定程度上降低了能耗和提升了系统服务质量,但这些方法通常难以实现长期最优的管理目标,并且容易受到业务场景变化的影响,面临变更困难以及管理成本高等难题.针对数据中心虚拟机资源管理存在的能耗和服务质量长期最优难保证以及策略调整灵活性差的问题,提出了一种基于深度强化学习的自适应虚拟机整合方法(deep reinforcement learning-based adaptive virtual machine consolidation method, RA-VMC).该方法利用张量化状态表示、确定性动作输出、卷积神经网络和加权奖赏机制构建了从数据中心系统状态到虚拟机迁移策略的端到端决策模型;设计自动化状态生成机制和反向梯度限定机制以改进深度确定性策略梯度算法,加快虚拟机迁移决策模型的收敛速度并且保证近似最优的管理性能.基于真实虚拟机负载数据的仿真实验结果表明:与开源云平台中流行的虚拟机整合方法相比,该方法能够有效地降低能耗和提高系统的服务质量.  相似文献   

10.
人工智能在机器人控制中得到广泛应用,机器人控制算法也逐渐从模型驱动转变为数据驱动。深度强化学习算法可在复杂环境中感知并决策,能够解决高维度和连续状态空间下的机械臂控制问题。然而,目前深度强化学习中数据驱动的训练过程非常依赖计算机GPU算力,且训练时间成本较大。提出基于深度强化学习的先简化模型(2D模型)再复杂模型(3D模型)的机械臂控制快速训练方法。采用深度确定性策略梯度算法代替机械臂传统控制算法中的逆运动学解算方法,直接通过数据驱动的训练过程控制机械臂末端到达目标位置,从而减小训练时间成本。同时,对于状态向量和奖励函数形式,使用不同的设置方式。将最终训练得到的算法模型在真实机械臂上进行实现和验证,结果表明,其控制效果达到了分拣物品的应用要求,相比于直接在3D模型中的训练,能够缩短近52%的平均训练时长。  相似文献   

11.
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整.为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向.结合DDQN(Double Dee...  相似文献   

12.
提出一种基于深度强化学习的智能灯亮度个性化调节方法,综合考虑自然光亮度及用户位置对用户实际感受亮度的影响,动态计算并设置灯光亮度,以满足用户个性化使用习惯.在每次完成灯光亮度自动调节后,根据用户是否再次进行手动调节设定正、负反馈,训练强化学习模型逐渐拟合用户使用习惯.实验分别实现了DQN、DDQN和A3C三种算法,在基...  相似文献   

13.
作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。  相似文献   

14.
协同深度学习(Collaborative Deep Learning,CDL)利用神经网络极强的特征学习能力和模型拟合鲁棒性,解决了推荐系统在数据稀疏的情况下性能表现急剧下降的问题。但当推荐系统面临大量数据时,导致模型训练变得难以维护,进而出现多种不可预料的问题。为解决上述问题,对协同深度学习及其并行化方法进行了研究,提出了一种针对项目内容学习优化的改进模型协同深度推荐(CDL with item private node,CDL-i),通过对传统CDL中的自编码网络进行改进,增加私有网络节点,在模型的网络参数共享情况下,为每个项目添加私有偏置项,使网络能够更针对性地学习到项目内容参数,改进了模型在推荐系统中对项目内容的探测性能。同时对算法进行并行化改进,通过对模型进行拆分,提出一种并行训练CDL-i的方法,将其移植到Spark分布式集群上,并行地对模型各部分参数进行训练优化,增强模型所能处理数据的规模和扩展性。通过在多个真实数据集上的实验,验证了提出的并行深度推荐算法的有效性和高效性。  相似文献   

15.
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG).该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机...  相似文献   

16.
智能化地制定机器人流程自动化(robotic process automation, RPA)执行路径有利于企业节约相关人力成本以及提高RPA的推广,提出基于改进深度双Q网络(double deep Q-learning algorithms, DDQN)算法进行RPA路径规划。首先针对存在RPA的作业环境即Web页面,不满足深度增强算法的探索条件的问题,借助隐喻地图的思想,通过构建虚拟环境来满足路径规划实验要求。同时为了提高DDQN算法探索效率,提出利用样本之间的位置信息的杰卡德系数,将其作为样本优先度结合基于排名的优先级(rank-based prioritization)构建新的采样方式。通过随机采用任务样本在虚拟环境上进行验证,证明其符合实验要求。进一步比较改进DDQN、深度Q网络(deep Q network, DQN)、DDQN、PPO以及SAC-Discrete算法的实验结果,结果显示改进算法的迭代次数更少、收敛速度更快以及回报值更高,验证了改进DDQN的有效性和可行性。  相似文献   

17.
深度强化学习中稀疏奖励问题研究综述   总被引:1,自引:0,他引:1  
强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法.强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域.作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题.稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际...  相似文献   

18.
    
The reinforcement and imitation learning paradigms have the potential to revolutionise robotics. Many successful developments have been reported in literature; however, these approaches have not been explored widely in robotics for construction. The objective of this paper is to consolidate, structure, and summarise research knowledge at the intersection of robotics, reinforcement learning, and construction. A two-strand approach to literature review was employed. A bottom-up approach to analyse in detail a selected number of relevant publications, and a top-down approach in which a large number of papers were analysed to identify common relevant themes and research trends. This study found that research on robotics for construction has not increased significantly since the 1980s, in terms of number of publications. Also, robotics for construction lacks the development of dedicated systems, which limits their effectiveness. Moreover, unlike manufacturing, construction's unstructured and dynamic characteristics are a major challenge for reinforcement and imitation learning approaches. This paper provides a very useful starting point to understating research on robotics for construction by (i) identifying the strengths and limitations of the reinforcement and imitation learning approaches, and (ii) by contextualising the construction robotics problem; both of which will aid to kick-start research on the subject or boost existing research efforts.  相似文献   

19.
目前,争夺电磁频谱的控制权已经成为了认知电子战的首要任务,其中认知干扰技术是认知电子战中的核心环节。以往传统的干扰方式灵活性较差,在应对具备一定抗干扰能力的通信系统时,其有效干扰率较低,且容易造成资源浪费。因此,为了提升干扰方的干扰效能,结合深度强化学习的思想,提出了一种基于深度双Q网络(DDQN,Double Deep Q Networks)的通信干扰策略生成算法,搭建了干扰决策网络,并针对传统强化学习中智能体“探索”与“利用”难以平衡的问题,提出根据历史时刻的平均奖赏值来作为控制探索概率改变的因子,对探索策略进行了改进。仿真实验表明,改进后的算法相比于未改进的算法以及传统算法有效干扰率更高,收敛速度更快,随着与环境多轮次地交互,干扰方能够逐渐学习到最优策略。  相似文献   

20.
    
Rapid integration of advanced sensors onto legacy military aircraft is critical for maintaining technological advantage in warfighting domains. Integration of these sensors is accomplished through upgrade programs that often fail during integration due to defect discovery and interoperability issues. Existing Department of Defense initiatives related to open architectures have improved sensor integration but have not eliminated the need for custom interface software to account for behavioral disparities across different sensors. The subject research proposes that reinforcement machine learning algorithms can be applied to aircraft sensor interfaces during integration and verifies effectiveness by training and testing Greedy, Q-Learning, Deep Q-Learning, Double Deep Q-Learning, and Instance-Based Learning algorithms against modeled Global Positioning System (GPS), Optical, Light Detection and Ranging (LIDAR), and Infrared sensor functions. The results are useful to open architecture standards management groups, sensor vendors, and systems and software engineers who are developing strategies and designs to accelerate subsystem integration timelines by reducing failures discovered during integration.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号

京公网安备 11010802026262号