期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

韩泉叶王松党建武《计算机工程与设计》2007,28(3):517-519

以博弈论和纳什均衡理论为基础,介绍了一种基于博弈论的竞争环境下的任务分配方法,提出了竞争环境下任务的分配模型框架,引入了Agent能力的概念,并给出了竞争环境下详细的任务竞争算法和资源竞买算法,最后通过实例获得了满意的结果,同时该实例也表明了本模型的合理性和算法的有效性. 相似文献

2.

一种多智能体系统任务竞争模型及算法研究

王国权徐竞青于海斌《信息与控制》2005,34(4):434-438

致力于解决多智能体系统中的任务分配问题，基于社会生活中的竞争现象提出了一种多智能体竞争模型，同时提出了解决多智能体任务分配的详细算法．文章引入博弈论来研究存在相互外部约束条件下的个体选择问题．为了克服求解纳什均衡点的复杂性，本文采用了一步纳什均衡的方法．仿真结果证明了本模型的合理性和算法的有效性．相似文献

3.

基于量子计算的多Agent协作学习算法 总被引：1，自引：0，他引：1

下载免费PDF全文

谭万禹王建忠孟祥萍《计算机工程与应用》2008,44(26):62-64

针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论的多Agent协作学习算法。新算法借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅表示行为选择概率,并用量子搜索算法来加速多Agent的学习。相应的仿真实验结果显示新算法的有效性。相似文献

4.

无线多跳网络中节点效用的博弈机制研究

陈心瑜许力《小型微型计算机系统》2010,31(10)

无线多跳网络中的节点通常都具有自主性和资源受限的特点,因此开展效用研究具有重要意义.论文提出将声誉机制与价格机制相结合,并应用博弈理论促使发送端同时兼顾所预付的通信价格与转发节点的可信度.根据博弈理论对无线多跳网络中节点行为进行了建模分析.最后,本文给出纳什均衡的存在条件,并且通过仿真实验证实了以誉价比机制作为发送端决策因素的合理性. 相似文献

5.

纯策略纳什均衡的博弈强化学习

下载免费PDF全文

王军曹雷陈希亮陈英赵芷若《计算机工程与应用》2022,58(15):78-86

将博弈理论与多智能体强化学习结合形成博弈强化学习逐渐受到关注,但是也存在算法的计算复杂度高和无法保证纯策略纳什均衡的问题。Meta equilibrium Q-learning算法通过反应函数将原始博弈转换为元博弈,而元博弈推导出的元均衡是纯策略纳什均衡。该算法在保证纯策略纳什均衡的前提下能够使得每个智能体的回报不低于某特定阈值。同时,基于分形的均衡程度评估模型能够通过计算任意状态的分形维数来判断其稳态,并评估任意状态与均衡状态之间的距离,该模型可以检验元均衡的科学性与合理性,上述算法和模型的相关结论在福利博弈和夺控战中都得到具体验证。相似文献

6.

基于博弈论及Q学习的多Agent协作追捕算法

郑延斌樊文鑫韩梦云陶雪丽《计算机应用》2020,40(6):1613-1620

多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题，提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队，并构建协作追捕的博弈模型；其次,通过对逃跑者策略选择的学习，建立逃跑者有限的Step-T累积奖赏的运动轨迹，并把运动轨迹调整到追捕者的策略集中；最后,求解协作追捕博弈得到Nash均衡解，每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题，加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明，所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题，实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。相似文献

7.

改进型帝国竞争模型算法的研究

下载免费PDF全文

陈禹冯翔虞慧群《计算机工程与应用》2018,54(12):206-213

为了改善帝国竞争算法（Imperialist Competitive Algorithm,ICA）易早熟收敛,搜索范围低,精度小,帝国之间信息交互性不强等缺点,提出了两种基于同化模型和竞争模型的改进的ICA算法。针对殖民地在移动过程中由于过于直接的靠近统治者而造成的搜索范围过小以及容易陷入局部最优的情况在同化过程中引入了差异因子来增大搜索范围。针对帝国之间的交互性的缺失,引入了人忠诚度的算子来实现帝国交互以及同化机制的模型改变,较强的帝国统治者会因为忠诚度算子获得更多的支持,从而细致划分了一个帝国中的每个国家,利用纳什均衡和最大最小公平性引导帝国竞争进而使算法向最优解进行搜索。在竞争过程中设置时间节点动态划分迭代阶段,根据迭代的不同阶段特点选择最优竞争系数。对算法进行了理论证明,最后将算法应用于多个函数进行检测并与其他的改进ICA算法进行比较,在搜索精度和范围广度上有了一定的提高。相似文献

8.

混合多Agent环境下动态策略强化学习算法

肖正何青松张世永《小型微型计算机系统》2009,30(7)

机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能适应系统中其他Agent的行为策略和变化,而且能利用过去的行为历史制定更为准确的时间相关的行为策略.基于两个知名零和博弈,验证了该算法的收敛性和理性,在与最佳响应Agent的重复博弈中能获得更高的收益. 相似文献

9.

微网控制系统中多AgentQ学习算法的研究

鲁斌衣楠《软件》2013,(11):80-82

本文首先介绍了微网控制系统的多Agent结构以及各Agent的工作流程,然后提出了应用于微网控制系统的多Agent结构的协作学习算法,该算法在Q学习算法的基础上进行了改进,使之适用于混合环境中。最后将IEEE9节点系统作为微网模拟系统并在其中进行了仿真,结果显示该算法可以在微网功率发生波动时快速地使功率恢复到稳定状态。相似文献

10.

云服务中面向信任的动态访问控制博弈机制

张艺田立勤毋泽南武文星《小型微型计算机系统》2021,(8):1774-1779

针对云计算环境下交互实体间的信任危机以及无法动态控制访问请求的问题,提出了一种基于信任的动态访问控制博弈机制.根据交互时间与交互次数两要素获得推荐信息的可靠性参数进而动态计算用户的信任值,通过信任值对应的信任等级对用户进行角色的激活与授权工作.为了防止恶意用户对云资源的破坏,将信任等级与动态调节因子引入收益函数对云环境... 相似文献

11.

The Rosenblatt Bayesian Algorithm Learning in a Nonstationary Environment

de Oliveira E.A. 《Neural Networks, IEEE Transactions on》2007,18(2):584-588

In this letter, we study online learning in neural networks (NNs) obtained by approximating Bayesian learning. The approach is applied to Gibbs learning with the Rosenblatt potential in a nonstationary environment. The online scheme is obtained by the minimization (maximization) of the Kullback-Leibler divergence (cross entropy) between the true posterior distribution and the parameterized one. The complexity of the learning algorithm is further decreased by projecting the posterior onto a Gaussian distribution and imposing a spherical covariance matrix. We study in detail the particular case of learning linearly separable rules. In the case of a fixed rule, we observe an asymptotic generalization error e_gpropalpha^-1 for both the spherical and the full covariance matrix approximations. However, in the case of drifting rule, only the full covariance matrix algorithm shows a good performance. This good performance is indeed a surprise since the algorithm is obtained by projecting without the benefit of the extra information on drifting 相似文献

12.

设计环境中共享学习机制的研究 总被引：7，自引：1，他引：6

刘弘郑明春冯梅《计算机辅助设计与图形学学报》2001,13(11):1029-1034

设计是一个复杂的问题求解和逐步求精的过程。在计算机辅助设计系统中,从设计范例中学习设计知识可以有效地改善设计系统。文中分析了设计与学习活动之间的关系,提出了一种设计的学习模型及具有归纳学习机制的设计Agent的结构框架,介绍了知识表示和学习算法,及一个支持设计环境中共享学习的多Agnet系统。相似文献

13.

半监督学习机制下的说话人辨认算法

下载免费PDF全文

李燕萍唐振民丁辉张燕《计算机工程》2009,35(14):221-223

针对说话人辨认中训练语音有限时系统泛化能力差的问题,提出一种基于半监督学习的复合高斯混合模型算法。通过复合高斯混合模型对所有说话人的特征分布统一建模,基于半监督学习机制下的EM算法对学习样本进行学习。实验证明,该算法能够充分利用未标记样本对系统进行有效的自适应更新,改善系统的性能,获得比传统高斯混合模型更高的识别率,提高系统的泛化能力。相似文献

14.

一种基于长链竞争机制的传感器网络能量空洞研究算法

赵湘宁《计算机科学》2016,43(7):125-130

在无线传感器网络中,越靠近Sink的节点由于承担更多子孙节点的数据转发,能量消耗越快,极易形成“能量空洞”,大大缩短了网络生命周期。针对能量空洞的问题,提出一种基于长链竞争机制的k-leader算法以延长网络生命周期。k-leader竞争算法将Sink一跳范围内节点的一部分数据量交给距离Sink一跳距离以外两跳范围以内的节点,通过长链直接发送给Sink节点,从而减轻Sink周围节点的负载。同时,k-leader的置换算法又保证了节点能够根据能量损耗的情况轮换担任leader节点和通过长链发送数据的节点,达到能量消耗均衡的目的。分析了leader节点的数量k的优化取值,并通过仿真验证了k-leader算法在网络生命周期、网络能耗均衡等指标上的性能。相似文献

15.

动态学习机制的双种群蚁群算法

袁汪凰游晓明刘升《计算机科学与探索》2019,13(7):1239-1250

针对蚁群算法易陷入局部最优与收敛速度较慢的不足,提出了动态学习机制的双种群蚁群算法。该算法重点引入奖惩模型,奖励算子提高算法的收敛速度,惩罚算子增加种群的多样性。由SA-MMAS(adaptive simulated annealing ant colony algorithm based on max-min ant system)和MMAS(max-min ant system)两个种群合作搜索路径,蚁群间根据不同城市规模动态地进行信息素交流,在种群交流后利用奖惩模型对双种群间的学习合作行为给予动态的反馈,从而平衡算法的多样性与收敛速度。通过17个经典旅行商问题(traveling salesman problem,TSP)实例进行验证,结果表明该算法能以较少的迭代次数取得最优解或接近最优解。对于中大规模的TSP问题效果更好,从而验证了算法的高效性和可行性。相似文献

16.

基于注意力机制的深度学习推荐算法

申晋祥鲍美英《计算机系统应用》2021,30(6):220-225

针对目前基于评论文本的推荐算法存在文本特征和隐含信息提取能力不足的问题, 提出一种基于注意力机制的深度学习推荐算法. 通过分别构建用户和项目的评论文本表示, 利用双向门控循环单元提取文本的上下文依赖关系以获得文本特征表示, 引入注意力机制, 更准确的获取用户兴趣偏好和项目属性特征. 将生成的用户和项目评论数据的两组隐含... 相似文献

17.

一种模糊强化学习算法及其在RoboCup中的应用 总被引：1，自引：0，他引：1

高建清王浩于磊方宝富《计算机工程与应用》2006,42(6):52-54

传统的强化学习算法只能解决离散状态空间和动作空间的学习问题。论文提出一种模糊强化学习算法,通过模糊推理系统将连续的状态空间映射到连续的动作空间,然后通过学习得到一个完整的规则库。这个规则库为Agent的行为选择提供了先验知识,通过这个规则库可以实现动态规划。作者在RoboCup环境中验证了这个算法,实现了踢球策略的优化。相似文献

18.

大数据环境下基于关联规则的多标签学习算法

王青松姜富山李菲《计算机科学》2020,47(5):90-95

传统单标签挖掘技术研究中,每个样本只属于一个标签且标签之间两两互斥。而在多标签学习问题中,一个样本可能对应多个标签,并且各标签之间往往具有关联性。目前,标签间关联性研究逐渐成为多标签学习研究的热门问题。首先为适应大数据环境,对传统关联规则挖掘算法Apriori进行并行化改进,提出基于Hadoop的并行化算法Apriori_ING,实现各节点独立完成候选项集的生成、剪枝与支持数统计,充分发挥并行化的优势;通过Apriori_ING算法得到的频繁项集和关联规则生成标签集合,提出基于推理机的标签集合生成算法IETG。然后,将标签集合应用到多标签学习中,提出多标签学习算法FreLP。FreLP利用关联规则生成标签集合,将原始标签集分解为多个子集,再使用LP算法训练分类器。通过实验将FreLP与现有的多标签学习算法进行对比,结果表明在不同评价指标下所提算法可以取得更好的结果。相似文献

19.

网络学习环境下学习动机的激发策略研究

王琳刘磊李日保《计算机光盘软件与应用》2010,(13)

教师通常采用各种形式的教学方法来解决学习者的学习动机激发问题.但如何更深层次地在网络环境下激发学者的学习动机,本文拟从学习动机的内涵入手,结合网络学习环境的特点,探讨网络学习过程中学习动机的特点及其影响,讨论网络学习中学习动机的激发策略,进一步丰富和发展激发学习动机的技巧. 相似文献

20.

结合LSTM的强化学习动态环境路径规划算法

武曲张义郭坤王玺《小型微型计算机系统》2021,(2):334-339

在路径规划领域已经涌现出了诸多的优秀的经典算法,但这些传统方法往往基于静态环境,对于动态可变环境缺乏处理能力.本文提出一种结合LSTM强化学习动态环境路径规划算法.首先,本文以环境图像作为输入,最大限度了保证了原始的信息来源.而后构建了自动编码器用来对环境图像进行特征降维,降低了整体模型的复杂程度.最后采用深度强化学习... 相似文献