首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
智能博弈对抗一直是人工智能研究的热点。在博弈对抗环境中,通过对对手进行建模,可以推测敌对智能体动作、目标、策略等相关属性,为博弈策略制定提供关键信息。对手建模方法在竞技类游戏和作战仿真推演等领域的应用前景广阔,博弈策略的制定必须以博弈各方的行动策略为前提,因此建立一个准确的对手行为模型对于预测其意图尤其重要。从内涵、方法、应用三个方面,阐述了对手建模的必要性,对现有建模方式进行了分类;对基于强化学习的预测方法、基于心智理论的推理方法和基于贝叶斯的优化方法进行了梳理与总结;以序贯博弈(德州扑克)、即时策略博弈(星际争霸)和元博弈为典型应用场景,分析了智能博弈对抗过程中的对手建模的作用;从有限理性、策略欺骗性和可解释性三个方面进行了对手建模技术发展的展望。  相似文献   

2.
随着无人机智能化水平的提高和集群控制技术的发展,无人机集群对抗智能决策方法将成为未来无人机作战的关键技术.无人机集群对抗学习环境具有维度高、非线性、信息有缺失、动作空间连续等复杂特点.近年来,以深度学习和强化学习为代表的人工智能技术取得了很大突破,深度强化学习在解决复杂环境下智能决策问题方面展现出了不俗能力.本文受多智能体集中式训练–分布式执行框架和最大化策略熵思想的启发,提出一种基于非完全信息的多智能体柔性行动器–评判器(multi-agent soft actor-critic, MASAC)深度强化学习方法,建立基于多智能体深度强化学习的无人机集群对抗博弈模型,构建连续空间多无人机作战环境,对红蓝双方无人机集群的非对称性对抗进行仿真实验,实验结果表明MASAC优于现有流行的多智能体深度强化学习方法,能使博弈双方收敛到收益更高的博弈均衡点.进一步对MASAC的收敛情况进行实验和分析,结果显示MASAC具有良好的收敛性和稳定性,能够保证MASAC在无人机集群对抗智能决策方面的实用性.  相似文献   

3.
目前智能决策系统中的经典算法智能化程度较低,而更为先进的强化学习算法应用于复杂决策任务又会导致存储上的维度灾难问题。针对该问题,提出了一种基于双深度Q网络的智能决策算法,改进了目标Q值计算方法,并将动作选择和策略评估分开进行,从而获得更加稳定有效的策略。智能体对输入状态进行训练,输出一个较优的动作来驱动智能体行为,包括环境感知、动作感知及任务协同等,继而在复杂度较高的决策环境中顺利完成给定任务。基于Unity3D游戏引擎开发了虚拟智能对抗演练的验证系统,对演练实时状态和智能体训练结果进行可视化,验证了双深度Q网络模型的正确性和稳定性,有效解决了强化学习算法存在的灾难问题。该智能决策算法有望在策略游戏、对抗演练、任务方案评估等领域发挥作用。  相似文献   

4.
高倍率单幅人脸图像超分辨率重建是一项具有实用价值但困难的任务.在人脸超分辨率任务中,端到端网络超分辨率图像较模糊,图像真实性和人眼视觉效果较差.针对上述问题,文中提出基于多任务对抗和抗噪对抗学习的人脸超分辨率算法.算法分为端到端网络学习阶段和网络参数微调阶段.为了提高端到端学习效果,设计深度多任务拉普拉斯金字塔网络,并结合多任务对抗学习.主任务为端到端学习,子任务为优化对抗学习惩罚项函数.为了改进通过对抗学习并微调主任务网络参数后的效果,在对抗学习的判别器优化过程中,融入抗噪对抗学习.实验表明,文中算法能使人脸超分辨率图像更具有图像真实性,更符合人眼视觉习惯.  相似文献   

5.
如何借助计算机算法进行音乐的自动或半自动化生成工作一直是人工智能领域的一个研究热点。近年来,随着深度学习技术的深入发展,使用基于神经网络并契合乐理先验知识的方法来生成高质量、多样性智能音乐的任务也引起了研究者的重视。其中,引入生成对抗机制以提升生成效果的工作取得了一定成果,同时也具备极大的提升空间。为了更好地推进后续研究工作,对相关领域的现有成果进行全面而系统的梳理、分析、总结具有比较重要的意义。首先对机器作曲的发展过程进行了回顾,对音乐领域常用的GAN相关重要模型进行了简要归纳介绍,对引入了生成对抗训练机制的音乐生成方法进行了重点分析,最后对该领域的现状进行了总结,并进一步展望了未来的发展方向。  相似文献   

6.
7.
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN (D3QN) 的单交叉口交通信号控制方法。构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题。设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN (DDQN) 提取深层次特征信息的能力。基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试。仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。  相似文献   

8.
代亮  梅洋  钱超  孟芸  汪贵平 《控制与决策》2021,36(12):2937-2945
对大规模路网交通流进行准确预测,能够应用于区域交通协同控制与管理,提高路网运行效率.针对如何高精度地拟合大规模路网交通流时空分布并对其进行准确预测,提出基于梯度惩罚的Wasserstein生成对抗网络(Wasserstein generative adversarial network with gradient penalty,WGAN-GP)的大规模路网交通流预测算法.根据大规模路网交通流数据特点,为了增加模型对时间相关性和远距离空间相关性特征的抽象能力,采用残差U型网络作为生成器来增加网络深度;采用多重判别器分别从时间和空间特征来对生成数据进行判别,从而提高判别器的判别能力.所提算法能够解决判别型深度学习模型仅能针对路网整体误差最小化,而忽略各交通流观测点预测误差最小化原则的问题,能够更好地满足现实交通场景需求.实验结果表明,所提算法能够有效地学习路网交通流数据内部多因素耦合特性,具有更高的预测精度.  相似文献   

9.
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统, 其自主决策能力尤为关键. 由于水面运动环境较为开阔, 传统避障决策算法难以在量化规则下自主规划最优路线, 而一般强化学习方法在大范围复杂环境下难以快速收敛. 针对这些问题, 提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN), 在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息, 并设定经验回放池阈值加速算法的收敛. 通过在不同尺度的栅格环境中进行实验仿真, 实验结果表明, T-DQN算法能快速地收敛到最优路径, 其整体收敛步数相比Q-learning算法和DQN算法, 分别减少69.1%和24.8%, 引入的阈值筛选机制使整体收敛步数降低41.1%. 在Unity 3D强化学习仿真平台, 验证了复杂地图场景下的避障任务完成情况, 实验结果表明, 该算法能实现无人艇的精细化避障和智能安全行驶.  相似文献   

10.
智能博弈对抗是人工智能认知决策领域亟待解决的前沿热点问题。以反事实后悔最小化算法为代表的博弈论方法和以虚拟自博弈算法为代表的强化学习方法,依托大规模算力支撑,在求解智能博弈策略中脱颖而出,但对两种范式之间的关联缺乏深入发掘。文中针对智能博弈对抗问题,定义智能博弈对抗的内涵与外延,梳理智能博弈对抗的发展历程,总结其中的关键挑战。从博弈论和强化学习两种视角出发,介绍智能博弈对抗模型、算法。多角度对比分析博弈理论和强化学习的优势与局限,归纳总结博弈理论与强化学习统一视角下的智能博弈对抗方法和策略求解框架,旨在为两种范式的结合提供方向,推动智能博弈技术前向发展,为迈向通用人工智能蓄力。  相似文献   

11.
针对图像识别领域中的黑盒对抗攻击问题,基于强化学习中DDQN框架和Dueling网络结构提出一种黑盒对抗攻击算法.智能体通过模仿人类调整图像的方式生成对抗样本,与受攻击模型交互获得误分类结果,计算干净样本和对抗样本的结构相似性后获得奖励.攻击过程中仅获得了受攻击模型的标签输出信息.实验结果显示,攻击在CIFAR10和C...  相似文献   

12.
针对逆强化学习算法在训练初期由于专家样本稀疏所导致的学习速率慢的问题,提出一种基于生成对抗网络(Generative Adversarial Networks,GAN)的最大熵逆强化学习算法。在学习过程中,结合专家样本训练优化生成对抗网络,以生成虚拟专家样本,在此基础上利用随机策略生成非专家样本,构建混合样本集,结合最大熵概率模型,对奖赏函数进行建模,并利用梯度下降方法求解最优奖赏函数。基于所求解的最优奖赏函数,利用正向强化学习方法求解最优策略,并在此基础上进一步生成非专家样本,重新构建混合样本集,迭代求解最优奖赏函数。将所提出的算法与MaxEnt IRL算法应用于经典的Object World与Mountain Car问题,实验表明,该算法在专家样本稀疏的情况下可以较好地求解奖赏函数,具有较好的收敛性能。  相似文献   

13.
14.
人体动作识别是视频理解领域的重要课题之一,在视频监控、人机交互、运动分析、视频信息检索等方面有着广泛的应用.根据骨干网络的特点,从2D卷积神经网络、3D卷积神经网络、时空分解网络三个角度介绍了动作识别领域的最新研究成果,并对三类方法的优缺点进行了定性的分析和比较.然后,从场景相关和时间相关两方面,全面归纳了常用的动作视...  相似文献   

15.
深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智能体完成战术机动,实现绕过障碍物抵达优势区域进行射击等战术行为,算法拥有更快的收敛速度和更好的稳定性,可得到更高的回合奖励,达到了提高智能军事决策效率的目的。  相似文献   

16.
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG).该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机...  相似文献   

17.
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。  相似文献   

18.
基于深度学习的图像超分辨率重建算法不能很好地处理现实生活中有多种复杂噪声干扰的低分辨率图片,提出一种双向的生成对抗网络,引入下采样网络及重建网络联合学习的方法.下采样网络模拟生成现实生活中有复杂噪声及受运动干扰的低分辨率图片,重建网络将模拟生成的低分辨率图片恢复为细节清晰的高分辨率图片.实验结果表明,该算法能够重建出视觉效果良好的超分辨率图像,在Set5、DIV2 K等通用测试集上,其客观评价指标(PSNR、SSIM)对比于SRGAN方法分别提高了约0.9 dB,0.25.  相似文献   

19.
针对由于光在水中传播所带来的影响,导致所获得的水下图像不清晰以及颜色失真的问题,提出了一种基于条件生成对抗网络(CGAN)的水下图像增强算法.为了达到更好的增强效果,利用完全配对的水下图像与清晰图像进行模型的训练,通过端到端的方式获取增强图像.在生成网络模型中,采用U-Net网络结构进行网络的信息减负,同时为了捕捉到更...  相似文献   

20.
最近迁移学习的新方法对抗域适应,将生成对抗网络(GAN)的思想添加到深度网络中,能够学习数据的可迁移表示形式进行域适应.虽然通过GAN的思想能够很好地提取出源域数据和目标域数据的共同特征,有效地进行不同域之间的知识迁移,但现有的对抗域适应算法不能有效地保留目标域数据的局部特征,而目标域数据的某些特征可能会对分类精度有显...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号