首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
于冬梅  韩晓新  李玎  夏旻 《计算机工程》2012,38(10):277-279
情感本身不能交互,但可以通过它的载体(如人或Agent)进行交互。利用该特点,提出一种基于Q学习算法的情感交互可计算模型。定义情感元的概念,情感元之间的交互实际上是情感Agent之间的交互,采用Q学习算法得到情感元的交互结果,构建齐次Markov链的情感元之间的交互模型,并通过实验结果验证了情感的多变性与复杂性。  相似文献   

2.
近年来,在基于Q学习算法的作业车间动态调度系统中,状态-行动和奖励值靠人为主观设定,导致学习效果不理想,与已知最优解相比,结果偏差较大.为此,基于作业车间调度问题的特质,对Q学习算法的要素进行重新设计,并用标准算例库进行仿真测试.将结果先与已知最优解和混合灰狼优化算法、离散布谷鸟算法和量子鲸鱼群算法在近似程度、最小值方面进行比较分析.实验结果表明,与国内求解作业车间调度问题的Q学习算法相比,该方法在最优解的近似程度上显著提升,与群智能算法相比,在大多数算例中,寻优能力方面有显著提升.  相似文献   

3.
吴小兰 《计算机工程》2009,35(9):217-219
针对在线零售业务系统中用户要进入许多无关页面才能找到所需商品的问题,站点应能根据群体用户购买兴趣动态调整网页分配,即站点自适应。借用PageRank算法对元胞自动机模型进行改进,实现站点的自适应调整。与原模型相比,改进模型的演化规则简单、时间复杂度低、性能更优越。  相似文献   

4.
付鹏  罗杰 《微机发展》2013,(2):123-126
文中以围捕问题作为研究平台,以提高多Agent系统中Q学习算法的学习效率作为研究目标,提出了一种基于改进蚁群算法的Q学习算法。该算法将信息素的概念引入到Q学习中,结合采用动态自适应调整信息素挥发因子的蚁群算法,使Agent在进行行为决策时不再只以Q值作为参考标准,而是考量Q值与信息素的综合效应,加强了Agent彼此间的信息共享,增强了交互性。并且对于复杂变化的周围环境,根据具体环境条件,设立分阶段的多奖惩标准,使算法对于环境和状态有更好的适应性。仿真实验证明了改进后的Q学习算法提高了学习系统的效率,高效地实现了多Agent系统的目标任务。  相似文献   

5.
针对传统回溯搜索优化算法存在收敛速度慢、搜索精度不高等问题,提出了一种基于元胞自动机和正交实验设计的改进算法。首先将正交实验设计方法引入算法的交叉算子中,得出具有代表性的优质子代个体;然后在元胞自动机邻居模型的基础上,对个体展开领域内多父代正交交叉操作,提高算法的开采能力和搜索效率;最后对参与交叉的种群引入动态优秀个体比例权重进行选择更新,并采用新的动态变异方程,平衡算法的全局搜索和局部搜索能力。通过对12个标准测试函数进行仿真实验,并与其他六种表现良好的算法进行比较,结果表明,改进的算法在收敛速度以及寻优精度方面都具有明显优势。  相似文献   

6.
通过分析网络软件的动态演化,提出将元胞自动机理论引入到网络软件演化过程的模拟中,建立元胞模型来预防和监控演化趋势。并针对服务构件替换和连接件替换,提出一系列算法和规则。研究结果表明该模型能较好地模拟网络捧件演化现象,对于web形式的服务监控、替换以及维护重要服务等工作具有指导意义。  相似文献   

7.
针对原有的基于隐语义模型(LFM)的推荐算法中,当训练样本数减少时,训练误差和测试误差都明显增大的问题进行改进研究,提出了一种全新的基于学习自动机的矩阵训练算法。该算法充分利用连续型学习自动机在随机和高噪声环境中优化参数的卓越性能,代替原有的梯度下降算法进行大型稀疏矩阵的奇异值分解计算,使得重构矩阵与原矩阵的之间的误差进一步降低,提高了后续预测算法的精确度。为了检验新算法的寻优性能,本文在大量真实的用户对电影的评分数据集上,进行了新旧两种算法的对比实验。实验结果表明改进后的基于学习自动机的推荐算法在样本数较少和更随机的测试环境中,相比原算法可以实现更精确的预测,有效地弥补了原算法的不足。  相似文献   

8.
9.
基于Q学习和双向ACO算法的云计算任务资源分配模型设计   总被引:1,自引:0,他引:1  
云计算异构环境中由于计算和存储资源物理分布的不一致性,往往容易导致在应用传统的调度算法进行任务资源分配时存在调度效率低和负载不均衡的问题,为此,设计了一种基于Q学习和双向ACO算法的云计算任务资源分配模型;首先,引入了基于主从结构的调度模型,并综合考虑任务计算完成时间、网络带宽和延迟等因素设计了资源分配目标函数,然后,设计了基于Q学习的云计算资源初始分配方法,将其获得的最优策略对应的Q值初始化网络中节点的Q值,最后,设计一种结合前向蚂蚁和后向蚂蚁的双向ACO算法实现任务资源的最终分配,并对算法进行了定义和描述;在CloudSim环境下进行仿真实验,结果证明文中方法能有效实现云计算异构环境下的任务资源分配,且与其它方法相比,负载均衡离差值平均约为0.071 5,是一种适用于云计算异构环境的有效资源分配方法。  相似文献   

10.
从一维有趣的Bug人工生命模型出发,并对该模型进行扩展,让agent(Ant或Particle)运动在一维细胞自动机上,通过设置细胞自动机中细胞的内部状态以及细胞的转换函数,提出了适于求解二元离散优化问题的二元蚁群算法和二元粒子群算法模型,这不仅体现了计算的本质,而且具有较强的实用价值!  相似文献   

11.
基于Q学习的DDoS攻防博弈模型研究   总被引:1,自引:0,他引:1  
史云放  武东英  刘胜利  高翔 《计算机科学》2014,41(11):203-207,226
新形势下的DDoS攻防博弈过程和以往不同,因此利用现有的方法无法有效地评估量化攻防双方的收益以及动态调整博弈策略以实现收益最大化。针对这一问题,设计了一种基于Q学习的DDoS攻防博弈模型,并在此基础上提出了模型算法。首先,通过网络熵评估量化方法计算攻防双方收益;其次,利用矩阵博弈研究单个DDoS攻击阶段的攻防博弈过程;最后,将Q学习引入博弈过程,提出了模型算法,用以根据学习效果动态调整攻防策略从而实现收益最大化。实验结果表明,采用模型算法的防御方能够获得更高的收益,从而证明了算法的可用性和有效性。  相似文献   

12.
Ramtron公司推出的VRS51L3074单片机拥有增强型算术单元,能够实现16位乘除法、乘加和移位等操作。本文分析了该单元的特性及使用要点,并给出利用该单元实现的2个实用算法——32位有符号整数开平方和16位二进制数转BCD码。实践表明.该单元可有效提高VRS51L3074处理复杂算术运算的效率。  相似文献   

13.
多Agent系统是近年来比较热门的一个研究领域,而Q-learning算法是强化学习算法中比较著名的算法,也是应用最广泛的一种强化学习算法。以单Agent强化学习Qlearning算法为基础,提出了一种新的学习协作算法,并根据此算法提出了一种新的多Agent系统体系结构模型,该结构的最大特点是提出了知识共享机制、团队结构思想和引入了服务商概念,最后通过仿真实验说明了该结构体系的优越性。  相似文献   

14.
一种基于Q学习的有限理性博弈模型及其应用   总被引:1,自引:0,他引:1  
传统博弈理论模型建立在人的完全理性基础之上,难以切合实际。有限理性博弈则能够很好地描述实际问题。有限理性的博弈者参与到不完全信息博弈中,对博弈的规则、结构以及对手等博弈信息有一个逐渐适应和了解的过程,因此博弈应是动态进化的模型。针对这一问题,提出了一种基于Q学习算法的不完全信息博弈模型,根据Littman的最大最小原则建立了多指标体系下的策略选择概率分布;构建了Q学习与博弈融合的数学模型,使用Q学习机制来实现博弈模型的动态进化;最后将模型应用于两人追逐的仿真实验,结果表明所提出的模型能够很好地再现追逐情景。  相似文献   

15.
论述了蓝牙协议的体系结构、核心协议、蓝牙传输机制、硬件模块的组成和部分多媒体音频格式。针对基于同步SCO链路的典型蓝牙音频应用模型所存在的一些固有缺陷,提出了一种基于ACL异步链路的新型BRTAAM蓝牙音频应用模型及相应的BRTATP算法,详细地阐述了该算法的同步原理及数据分组格式,最后指出了进一步的研究目标。  相似文献   

16.
视频码率自适应是提高视频服务质量的一种有效方法.现有视频码率自适应算法大多都试图将一套相对固定的模型规则应用于所有用户,无法确保所有用户都拥有良好的QoE.针对上述问题,本文提出一种基于强化学习的自适应视频码率调节方案,可以根据不同的网络条件实时调整视频码率算法的参数.该方案通过强化学习方法,提高了学习收敛速度,限制了次优选择,并且不会因为快速收敛而降低视频码率调节的效率.实验结果表明,基于强化学习的自适应视频码率调节方案与Bola,M PC等传统视频ABR算法相比,总体平均比特率提高了大约8.3%,这得益于本文提出的方案能够更好地在不同的网络状态下对视频码率调节行为进行细粒度定制和优化.  相似文献   

17.
Reinforcement learning (RL) has been applied to many fields and applications, but there are still some dilemmas between exploration and exploitation strategy for action selection policy. The well-known areas of reinforcement learning are the Q-learning and the Sarsa algorithms, but they possess different characteristics. Generally speaking, the Sarsa algorithm has faster convergence characteristics, while the Q-learning algorithm has a better final performance. However, Sarsa algorithm is easily stuck in the local minimum and Q-learning needs longer time to learn. Most literatures investigated the action selection policy. Instead of studying an action selection strategy, this paper focuses on how to combine Q-learning with the Sarsa algorithm, and presents a new method, called backward Q-learning, which can be implemented in the Sarsa algorithm and Q-learning. The backward Q-learning algorithm directly tunes the Q-values, and then the Q-values will indirectly affect the action selection policy. Therefore, the proposed RL algorithms can enhance learning speed and improve final performance. Finally, three experimental results including cliff walk, mountain car, and cart–pole balancing control system are utilized to verify the feasibility and effectiveness of the proposed scheme. All the simulations illustrate that the backward Q-learning based RL algorithm outperforms the well-known Q-learning and the Sarsa algorithm.  相似文献   

18.
强化学习在多Agent系统中面对的最大问题就是随着Agent数量的增加而导致的状态和动作空间的指数增长以及随之而来的缓慢的学习效率。采用了一种局部合作的Q-学习方法,只有在Agent之间有明确协作时才考察联合动作,否则,就只进行简单的个体Agent的Q-学习,从而使的学习时所要考察的状态动作对值大大减少。最后算法在捕食者-猎物的追逐问题和机器人足球仿真2D上的实验结果,与常用的多Agent强化学习技术相比有更好的效能。  相似文献   

19.
神经模糊系统在机器人的智能控制中具有巨大的应用潜力,但已有的系统构造方法几乎都面临着样本资源匮乏这一巨大困难。为克服传统系统构造方法可能因样本获取困难而引起的“维数灾难”等问题,该文在模糊神经网络中引入了Q-学习机制,提出了一种基于Q-学习的模糊神经网络模型,从而赋予神经模糊系统自学习能力。文章最后给出了其在菅野模糊小车控制中的仿真结果。实验表明,在神经模糊系统中融入智能学习机制Q-学习是行之有效的;它可以被用来实现机器人智能行为的自学习。值得一提的是,该文的仿真实验在真实系统上同样是容易实现的,只要系统能提供作为评价信号的传感信息即可。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号