首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对环绕智能中的自然身份认证问题,提出一种基于蓝牙的认证方式.首先结合蓝牙Ad hoc网和以太网的优点组建身份认证网络,再构造能惟一标志用户身份的蓝牙徽标,进而实现一种无须用户配合的身份认证系统.实践证明,本系统实现了一种隐式的交互方式,为构造环绕智能系统提供了基础.  相似文献   

2.
3.
This paper studies evolutionary programming and adopts reinforcement learning theory to learn individual mutation operators. A novel algorithm named RLEP (Evolutionary Programming based on Reinforcement Learning) is proposed. In this algorithm, each individual learns its optimal mutation operator based on the immediate and delayed performance of mutation operators. Mutation operator selection is mapped into a reinforcement learning problem. Reinforcement learning methods are used to learn optimal policies by maximizing the accumulated rewards. According to the calculated Q function value of each candidate mutation operator, an optimal mutation operator can be selected to maximize the learned Q function value. Four different mutation operators have been employed as the basic candidate operators in RLEP and one is selected for each individual in different generations. Our simulation shows the performance of RLEP is the same as or better than the best of the four basic mutation operators.  相似文献   

4.
面对当前电力系统的负荷不确定、新能源并网与双碳目标等现状,在充分考虑供需双方福利前提下,建立了智能电网背景下考虑负荷不确定与碳交易的实时定价模型,并基于强化学习能够处理变量复杂性、非凸非线性问题优点,采用强化学习中Q学习算法对模型进行迭代求解。首先,将用户与供电商实时交互过程转换为强化学习框架对应的马尔可夫决策过程;其次,通过智能体在动态环境中的反复探索表示用户与供电商的信息交互;最后,通过强化学习中的Q学习算法寻找最优值即最大社会福利值。仿真结果表明,所提实时定价策略能够有效提升社会福利,降低碳排放总量,这验证了所提模型和算法的有效性。  相似文献   

5.
增强学习可以帮助协商Agent选择最优行动实现其最终目标。对基于增强学习的协商策略进行优化,在协商过程中充分利用对手的历史信息,加快协商解的收敛和提高协商解的质量。最后通过实验验证了算法的有效性和可用性。  相似文献   

6.
Adaptive immunity based reinforcement learning   总被引:2,自引:2,他引:0  
Recently much attention has been paid to intelligent systems which can adapt themselves to dynamic and/or unknown environments by the use of learning methods. However, traditional learning methods have a disadvantage that learning requires enormously long amounts of time with the degree of complexity of systems and environments to be considered. We thus propose a novel reinforcement learning method based on adaptive immunity. Our proposed method can provide a near-optimal solution with less learning time by self-learning using the concept of adaptive immunity. The validity of our method is demonstrated through some simulations with Sutton’s maze problem. This work was present in part at the 13th International Symposium on Artificial Life and Robotics, Oita, Japan, January 31–February 2, 2008  相似文献   

7.
Cognitive radio network (CRN) enables unlicensed users (or secondary users, SUs) to sense for and opportunistically operate in underutilized licensed channels, which are owned by the licensed users (or primary users, PUs). Cognitive radio network (CRN) has been regarded as the next-generation wireless network centered on the application of artificial intelligence, which helps the SUs to learn about, as well as to adaptively and dynamically reconfigure its operating parameters, including the sensing and transmission channels, for network performance enhancement. This motivates the use of artificial intelligence to enhance security schemes for CRNs. Provisioning security in CRNs is challenging since existing techniques, such as entity authentication, are not feasible in the dynamic environment that CRN presents since they require pre-registration. In addition these techniques cannot prevent an authenticated node from acting maliciously. In this article, we advocate the use of reinforcement learning (RL) to achieve optimal or near-optimal solutions for security enhancement through the detection of various malicious nodes and their attacks in CRNs. RL, which is an artificial intelligence technique, has the ability to learn new attacks and to detect previously learned ones. RL has been perceived as a promising approach to enhance the overall security aspect of CRNs. RL, which has been applied to address the dynamic aspect of security schemes in other wireless networks, such as wireless sensor networks and wireless mesh networks can be leveraged to design security schemes in CRNs. We believe that these RL solutions will complement and enhance existing security solutions applied to CRN To the best of our knowledge, this is the first survey article that focuses on the use of RL-based techniques for security enhancement in CRNs.  相似文献   

8.
金明  李琳琳  张文瑾  刘文 《计算机应用研究》2020,37(11):3456-3460,3466
针对服务功能链映射对网络时延和部署失败率的影响,提出了一种基于深度强化学习的服务功能链映射算法DQN-SFC。首先构建了一个多层次NFV管理编排架构,以满足算法对资源感知和设备配置的需求;然后基于马尔可夫决策过程建模,对SFC映射问题进行形式化描述;最后构建了一个深度强化学习网络,将网络平均时延和部署失败产生的运维开销作为奖惩反馈,经过训练后可根据网络状态决定虚拟网络功能的部署位置。通过仿真实验,对该算法的正确性和性能优势进行了验证。实验表明:与传统算法相比,该算法能有效降低网络平均时延和部署失败率,同时算法运行时间具有一定优势。  相似文献   

9.
集体理性约束的Agent协作强化学习   总被引:1,自引:0,他引:1       下载免费PDF全文
将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集体利益最大化的集体理性原则进行行为选择,从而解决均衡解一致问题,同时使得集体长期回报值最大化,加快了学习速度。在集体理性的基础上通过评价各Agent对整体任务求解的贡献度,解决信度分配问题。追捕问题的仿真实验结果验证了算法的有效性。  相似文献   

10.
针对多智能体系统(multi-agent systems,MAS)中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题,提出了一种名为观测空间关系提取(observation relation extraction,ORE)的方法,该方法使用一个完全图来建模MAS中智能体观测空间不同部分之间的关系,并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上,提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景(StarCraft multi-agent challenge,SMAC)上的实验结果表明,与原始算法相比,带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。  相似文献   

11.
针对知识推理过程中,随着推理路径长度的增加,节点的动作空间急剧增长,使得推理难度不断提升的问题,提出一种分层强化学习的知识推理方法(knowledge reasoning method of hierarchical reinforcement learning, MutiAg-HRL),降低推理过程中的动作空间大小。MutiAg-HRL调用高级智能体对知识图谱中的关系进行粗略推理,通过计算下一步关系及给定查询关系之间的相似度,确定目标实体大致位置,依据高级智能体给出的关系,指导低级智能体进行细致推理,选择下一步动作;模型还构造交互奖励机制,对两个智能体的关系和动作选择及时给予奖励,防止模型出现奖励稀疏问题。为验证该方法的有效性,在FB15K-237和NELL-995数据集上进行实验,将实验结果与TransE、MINERVA、HRL等11种主流方法进行对比分析,MutiAg-HRL方法在链接预测任务上的hits@k平均提升了1.85%,MRR平均提升了2%。  相似文献   

12.
为了解决复杂装配模型的序列规划问题,并使算法对任意初始状态具有较高的适应性,本文提出了一种包含正向装配以及逆向拆解的一体化双向装配序列规划方法BASPW–DQN.针对复杂装配模型,首先进行了一体化装配序列规划的问题描述与形式化表示;在此基础上,引入了课程学习及迁移学习方法,对包含前向装配和逆向错误零件拆卸两部分过程的双...  相似文献   

13.
针对未知环境中无人机(unmanned aerial vehicles, UAV)目标搜索问题进行研究。建立UAV目标搜索模型,将强化学习理论应用于目标搜索问题中。提出一种未知环境中基于Q学习的UAV目标搜索算法,并将其与基于D-S证据理论的UAV搜索方法进行仿真比较。仿真结果显示此算法收敛且UAV快速搜索到了目标,此结果表明,通过对UAV在设定条件下的强化学习训练,可以使其具备一定的环境适应能力,UAV在没有任何目标信息的战场环境中能够有效执行搜索任务。  相似文献   

14.
一种逻辑强化学习的tableau推理方法   总被引:1,自引:0,他引:1  
tableau方法是一种具有较强的通用性和适用性的推理方法,但由于函数符号、等词等的限制,使得自动推理具有不确定性,针对tableau推理中封闭集合构造过程具有盲目性的问题,提出将强化学习用于tableau自动推理的方法,该方法将tableau推理过程中的逻辑公式与强化学习相结合,产生抽象的状态和活动,这样一方面可以通过学习方法控制自动推理的推理顺序,形成合理的封闭分枝,减少推理的盲目性;另一方面复杂的推理可以利用简单的推理结果,提高推理的效率。  相似文献   

15.
为解决大规模强化学习中的"维度灾难"问题,克服以往学习算法的性能高度依赖于先验知识的局限性,本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习.  相似文献   

16.
高度信息化的网格化城市管理可以为出租车运营优化提供新的实时动态乘客需求信息和车辆位置信息。以此为契机,针对城市出租车空驶率高和司乘匹配率低的问题,提出了一种网格化的出租车实时动态调度的增强学习控制方法。通过为出租车提供空驶巡游的动态最佳路线,新的控制方法旨在提高出租车的服务效率,并降低乘客的等待时间。首先,以城市单元网格为基础,明确出租车调度的关键问题;其次,以空驶路线的动态调整为控制手段,建立调度的增强学习模型;最后,给出求解模型的Q学习算法,并通过算例验证新调度方法的有效性。研究表明新方法可以有效提高司乘匹配率、增加总的出租车运营收入、减少乘客平均等车时间和减少总的出租车空驶时间。  相似文献   

17.
针对Ceph云存储的数据分布算法CRUSH存在数据在各存储节点上分布不均衡而影响读写QoS性能问题,提出一种基于强化学习的数据分布方法.从算法本身的数据分布过程分析得出PG在OSD间分布不够均衡是造成数据分布不均的原因;在此基础上建立强化学习模型,训练调整PG在分布过程中的OSD权重,使PG更加均衡分布到各个OSD节点...  相似文献   

18.
基于强化学习的模型参考自适应控制   总被引:3,自引:0,他引:3  
提出了一种基于强化学习的模型参考自适应控制方法,控制器采用自适应启发评价算法,它由两部分组成:自适应评价单元及联想搜索单元.由参考模型给出系统的性能指标,利用系统反馈的强化信号在线更新控制器的参数.仿真结果表明:基于强化学习的模型参考自适应控制方法可以实现对一类复杂的非线性系统的稳定控制和鲁棒控制,该控制方法不仅响应速度快,而且具有较高的学习速率,实时性较强.  相似文献   

19.
城市交通路径规划需要考虑规划的快速性和车辆的安全性,而目前大多数强化学习算法不能兼顾两者.针对这个问题,首先提出采用基于模型的算法和与模型无关的算法相结合的Dyna框架,以提高规划的速度;然后使用经典的Sarsa算法作为选路策略,以提高算法的安全性;最后将两者结合提出了改进的基于Sarsa的Dyna-Sa算法.实验结果...  相似文献   

20.
Intelligent Service Robotics - Advances in reinforcement learning algorithms allow robots to learn complex tasks such as object manipulation. However, most of these tasks have been implemented only...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号