首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
刘健  顾扬  程玉虎  王雪松 《自动化学报》2022,48(5):1246-1258
通过分析基因突变过程, 提出利用强化学习对癌症患者由正常状态至患病状态的过程进行推断, 发现导致患者死亡的关键基因突变. 首先, 将基因视为智能体, 基于乳腺癌突变数据设计多智能体强化学习环境; 其次, 为保证智能体探索到与专家策略相同的策略和满足更多智能体快速学习, 根据演示学习理论, 分别提出两种多智能体深度Q网络: 基于行为克隆的多智能体深度Q网络和基于预训练记忆的多智能体深度Q网络; 最后, 根据训练得到的多智能体深度Q网络进行基因排序, 实现致病基因预测. 实验结果表明, 提出的多智能体强化学习方法能够挖掘出与乳腺癌发生、发展过程密切相关的致病基因.  相似文献   

2.
针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划.对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的Aε...  相似文献   

3.
网络与终端协同选择及切换机制的研究   总被引:1,自引:1,他引:0  
提出了一种智能切换机制,用于实现在异构网络中网络与终端的协同选择及切换功能。随着各种业务和应用的发展,异构网络融合是信息和通信技术的必然趋势。根据多接入、多终端等应用环境的要求,采用AHP与URA等多属性决策理论,为用户选择最佳的目标网络和目标终端,并提出相应的智能切换信令流程,包括网络切换、终端切换、网络与终端联合切换方式,最终构建以用户为中心的多终端智能空间,实现个人移动性管理。仿真表明,该智能切换机制可以有效地实现网络和终端的协同选择,并可以保证在异构网络切换QoS性能,为现代服务业的业务及应用的发展提供可靠的理论依据。  相似文献   

4.
针对强化学习的大多数探索/利用策略在探索过程中忽略智能体随机选择动作带来的风险的问题,提出一种基于因子分解机(FM)用于安全探索的Q表初始化方法。首先,引入Q表中已探索的Q值作为先验知识;然后,利用FM建立先验知识中状态和行动间潜在的交互作用的模型;最后,基于该模型预测Q表中的未知Q值,从而进一步引导智能体探索。在OpenAI Gym的网格强化学习环境Cliffwalk中进行的A/B测试里,基于所提方法的Boltzmann和置信区间上界(UCB)探索/利用策略的不良探索幕数分别下降了68.12%和89.98%。实验结果表明,所提方法提高了传统策略的探索安全性,同时加快了收敛。  相似文献   

5.
田晓航  霍鑫  周典乐  赵辉 《控制与决策》2023,38(12):3345-3353
当Q学习应用于路径规划问题时,由于动作选择的随机性,以及Q表更新幅度的有限性,智能体会反复探索次优状态和路径,导致算法收敛速度减缓.针对该问题,引入蚁群算法的信息素机制,提出一种寻优范围优化方法,减少智能体的无效探索次数.此外,为提升算法初期迭代的目的性,结合当前栅格与终点位置关系的特点以及智能体动作选择的特性,设计Q表的初始化方法;为使算法在运行的前中后期有合适的探索概率,结合信息素浓度,设计动态调整探索因子的方法.最后,在不同规格不同特点的多种环境中,通过仿真实验验证所提出算法的有效性和可行性.  相似文献   

6.
针对移动互联网用户的多终端协同的垂直切换问题,提出一种UMTS与WLAN异构网络环境下的多终端协同的垂直切换决策算法,其包含切换时间判断与多终端协同算法。首先利用模糊逻辑判断网络切换时机,然后综合考虑主观因素和客观因素,采用AHP(Analytic Hierarchy Process)合理定义权值并结合TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)实现不同接入策略的性能评价,为用户提供最佳QoE(Quality of Experience)的多终端协同方案。实验结果表明:所提方法和基于迟滞算法相比,切换次数平均降低7.9次,切换失败率平均降低2.25%;网络选择结果与应用需求和用户需求保持较好的一致性。实现了多终端协同用户在异构网络环境下高效实时的垂直切换。  相似文献   

7.
目前智能决策系统中的经典算法智能化程度较低,而更为先进的强化学习算法应用于复杂决策任务又会导致存储上的维度灾难问题。针对该问题,提出了一种基于双深度Q网络的智能决策算法,改进了目标Q值计算方法,并将动作选择和策略评估分开进行,从而获得更加稳定有效的策略。智能体对输入状态进行训练,输出一个较优的动作来驱动智能体行为,包括环境感知、动作感知及任务协同等,继而在复杂度较高的决策环境中顺利完成给定任务。基于Unity3D游戏引擎开发了虚拟智能对抗演练的验证系统,对演练实时状态和智能体训练结果进行可视化,验证了双深度Q网络模型的正确性和稳定性,有效解决了强化学习算法存在的灾难问题。该智能决策算法有望在策略游戏、对抗演练、任务方案评估等领域发挥作用。  相似文献   

8.
电力信息网络的安全与稳定是当今社会发展的重要保障,随着电力信息网络越来越庞大和复杂,如何高效合理地建立电力信息防护网络成为研究人员关注的重点之一。在自动化电力信息网络中,其防御策略通常缺乏统筹管理,只能针对少数设备进行防护,存在着更新速度慢、更新周期长、无法自动更新和资源分配不均等问题。本文提出一种基于最优初始值Q学习的电力信息网络防御策略学习算法,该算法以强化学习中的Q学习算法为框架,利用生成对抗网络思想,通过攻击智能体和防御智能体的模拟对抗学习安全策略。算法中的防御智能体使用Q学习方法更新其防御策略,利用历史防御经验在线改进防御策略,避免了人为手动操作。在训练中引入最优初始值极大加快了系统防御性能的训练速度。实验结果验证了算法的有效性。  相似文献   

9.
针对异构环境下不同业务类型的终端对于接入网络的不同质量需求,提出一种基于改进Markov模型的网络选择算法。利用Markov模型的预测能力对即时类业务与非即时类业务终端构建相应的收益函数,应用数学迭代求解法得到长期期望收益最高的网络选择策略。仿真结果表明,该算法能有效提高网络资源利用率,降低网络阻塞率及终端网络切换次数。  相似文献   

10.
赵彦清  朱琦 《计算机应用》2011,31(6):1461-1464
针对异构网络中的多样业务需求,并且为了能够适应网络环境的动态变化,为每一个会话选择一个最合适的网络为其服务同时实现网络负载的均衡,以HSDPA和WiMax构成的异构网络为背景,基于Q学习算法,提出了一种异构网络环境下无线接入网络选择的新算法。该算法在进行网络选择时不仅考虑到网络的负载情况,还充分考虑了发起会话的业务属性、终端的移动性以及终端在网络中所处位置的不同。仿真结果表明该算法降低了系统阻塞率,提高了频谱效用,实现了网络选择的自主性。  相似文献   

11.
该文对异构网络环境下的QoS映射方法进行了介绍,提出了一种基于简单策略的动态映射方法和实施方案。仿真结果表明该方法可以保证业务在异构网络环境下传输时得到有效的服务质量保证,并可在一定情况下提高网络资源利用率。  相似文献   

12.
周桥  伊鹏  门浩崧 《计算机应用》2017,37(4):948-953
针对网络功能虚拟化环境下组成服务功能链的虚拟网络功能故障所引起的网络服务故障问题,提出一种最大化资源效用的虚拟服务功能备份方法来提高网络可靠性。首先,对虚拟服务功能备份问题进行详细分析并建立了可靠性评估模型,提出了改进的备份机制,并证明了该机制与其他机制相比的优势;其次,对全网络设计了全局备份算法和备份选择策略来对相应的虚拟网络功能选取备份直到满足可靠性需求。仿真实验结果表明,与GREP方法、联合备份机制加上随机选择策略(JP+random selection)及双重共享式备份机制加上随机选择策略(DSP+random selection)相比,该方法在可靠性和资源利用率上取得了优异的性能,特别是服务功能链请求接受率提高18.8%~25%,资源效用利用率提高15%~20%。实验结果表明该方法能较为有效地利用资源来提升网络可靠性。  相似文献   

13.
提出一种改进深度强化学习算法(NDQN),解决传统Q-learning算法处理复杂地形中移动机器人路径规划时面临的维数灾难.提出一种将深度学习融于Q-learning框架中,以网络输出代替Q值表的深度强化学习方法.针对深度Q网络存在严重的过估计问题,利用更正函数对深度Q网络中的评价函数进行改进.将改进深度强化学习算法与...  相似文献   

14.
Finding effective ways to collect the usage of network resources in all kinds of applications to ensure a distributed control plane has become a key requirement to improve the controller’s decision making performance. This paper explores an efficient way in combining dynamic NetView sharing of distributed controllers with the behavior of intra-service resource announcements and processing requirements that occur in distributed controllers, and proposes a rapid multipathing distribution mechanism. Firstly, we establish a resource collecting model and prove that the prisoner’s dilemma problem exists in the distributed resource collecting process in the Software-defined Network (SDN). Secondly, we present a bypass path selection algorithm and a diffluence algorithm based on Q-learning to settle the above dilemma. At last, simulation results are given to prove that the proposed approach is competent to improve the resource collecting efficiency by the mechanism of self-adaptive path transmission ratio of our approach, which can ensure high utilization of the total network we set up.  相似文献   

15.
将智能手机设备加入基于非结构化P2P网络的资源共享系统中能够满足人们对资源共享的多样化、便利性、高频性、实时性、高效性等要求,但是该系统网络规模的扩张和网络节点互异性的加大,必将导致系统资源搜索效率的降低、冗余信息的剧增以及网络更加不稳定。为了解决这些问题,文中设计了一种改进的基于节点兴趣和Q-learning的资源搜索机制。首先将节点根据兴趣相似度进行兴趣聚类,划分兴趣集,然后根据兴趣集中节点的能力值构建兴趣树,该结构避免了消息环路的产生,极大地降低了冗余信息;在资源搜索中,兴趣树内采用洪泛算法转发消息,兴趣树之间采用基于Q-learning的消息转发机制,不断强化最可能获取目标资源的路径,查询消息优先在这些路径上传播。另外,针对“热点”资源问题,设计了自适应热点资源索引机制,减少了重复路径搜索,进一步减少了冗余消息量;针对节点失效的问题,给出了根节点冗余机制和捎带检测的策略方法,分别解决了根节点失效和普通节点失效导致的兴趣树的不完整性问题,分析表明该方法能够减少消息冗余量。仿真实验结果表明,与GBI-BI算法和Interest CN算法相比,所提搜索算法能够提高命中率,缩短响应时间,减少冗余信息,具有较好的综合性能,最终解决了由于智能手机设备加入P2P网络导致的资源搜索效率下降、网络流量开销大的问题。  相似文献   

16.
In the next generation wireless networks, different technologies belonging to one or more operators should be integrated to form a heterogeneous environment based on an IP core network infrastructure. This ensures user mobility and service continuity by maintaining connections when switching between various technologies and it introduces new resources and possibilities for applications. In this context, an automatic interface selection based on instantaneous and practical constraints and user preferences (Quality of Service (QoS) parameters, available resources, security, power consumption, etc.) is therefore required. The different network selection and handover schemes proposed in the literature can be classified into three approaches according to who is responsible for making the handover decision: the terminal, the network or by a cooperation between both of them. However, these approaches keep presenting some drawbacks; namely the problem of resources management and network load balancing whenever the selection is controlled by the mobile terminal (MT) and the problem of scalability and unknown operator's management policy whenever the selection is rather controlled by the network.In this article, first we propose a MIH based approach for handover initiation and preparation for heterogeneous wireless network. The proposed framework is based on the principals of IEEE 802.21 for context information gathering and optimized handover decision making. Second, we propose a new architecture and new network selection scheme that explicitly take into account the current resource usage and the user preferences. Furthermore, our solution ensures the selection of the most suitable network for each flow while taking into consideration its expectations in terms of QoS. A feasibility study of implementing a new architecture on a single MT is evaluated by using typical scenarios and using various algorithms. Thanks to the introduced function entities and modules in the proposed architecture, network utilization balancing and user and application expectations, which are successfully assured without operator intervention. Performance analysis shows that the proposed algorithm best meets the common quality requirements.  相似文献   

17.
周勇  刘锋 《微机发展》2008,18(4):63-66
模拟机器人足球比赛(Robot World Cup,RoboCup)作为多Agent系统的一个理想的实验平台,已经成为人工智能的研究热点。传统的Q学习已被有效地应用于处理RoboCup中传球策略问题,但是它仅能简单地离散化连续的状态、动作空间。提出将神经网络应用于Q学习,系统只需学习部分状态-动作的Q值即可获得近似连续的Q值,就可以有效地提高泛化能力。然后将改进的Q学习应用于优化传球策略,最后在RobCup中实现测试了该算法,实验结果表明改进的Q学习在RoboCup传球策略中的应用,可以有效提高传球的成功率。  相似文献   

18.
未知环境下基于有先验知识的滚动Q学习机器人路径规划   总被引:1,自引:0,他引:1  
胡俊  朱庆保 《控制与决策》2010,25(9):1364-1368
提出一种未知环境下基于有先验知识的滚动Q学习机器人路径规划算法.该算法在对Q值初始化时加入对环境的先验知识作为搜索启发信息,以避免学习初期的盲目性,可以提高收敛速度.同时,以滚动学习的方法解决大规模环境下机器人视野域范围有限以及因Q学习的状态空间增大而产生的维数灾难等问题.仿真实验结果表明,应用该算法,机器人可在复杂的未知环境中快速地规划出一条从起点到终点的优化避障路径,效果令人满意.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号