期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

熊蓉玲段春怡冉华明杨萌冯旸赫《电讯技术》2023,(1):1-6

针对传统深度强化学习算法难以快速解决长时序复杂任务的问题,提出了一种引入历史信息和人类知识的深度强化学习方法,对经典近端策略优化(Proximal Policy Optimization, PPO)强化学习算法进行改进,在状态空间引入历史状态以反映环境的时序变化特征,在策略模型中基于人类认知增加无效动作掩膜,禁止智能体进行无效探索,提高探索效率,从而提升模型的训练性能。仿真结果表明,所提方法能够有效解决长时序复杂任务的智能决策问题,相比传统的深度强化学习算法可显著提高模型收敛效果。相似文献

2.

基于云推理模型的深度强化学习探索策略研究

李晨溪曹雷陈希亮张永亮徐志雄彭辉段理文《电子与信息学报》2018,40(1):244-248

强化学习通过与环境的交互学得任务的决策策略,具有自学习与在线学习的特点。但交互试错的机制也往往导致了算法的运行效率较低、收敛速度较慢。知识包含了人类经验和对事物的认知规律,利用知识引导智能体(agent)的学习,是解决上述问题的一种有效方法。该文尝试将定性规则知识引入到强化学习中,通过云推理模型对定性规则进行表示,将其作为探索策略引导智能体的动作选择,以减少智能体在状态-动作空间探索的盲目性。该文选用OpenAI Gym作为测试环境,通过在自定义的CartPole-v2中的实验,验证了提出的基于云推理模型探索策略的有效性,可以提高强化学习的学习效率,加快收敛速度。相似文献

3.

基于深度强化学习的无人船全覆盖路径规划

宋大雷吕昆岭陈小平干文浩曹江丽《现代电子技术》2022,(22):1-7

无人船使用传统“之”字形算法在不规则岛屿区域执行海上搜索任务时,无法实现全覆盖路径规划。针对该问题,文中提出一种将“之”字形算法和基于深度强化学习的无人船全覆盖路径规划算法框架相结合的混合算法,对大范围无障碍区域使用“之”字形算法,对存在障碍的小范围区域使用深度强化学习算法框架,并引入内在好奇心模块增强该算法框架的收敛速度。该算法框架将搜索区域的地图信息转换成矢量观测值并通过全连接层传递给智能体,从而训练出一个神经网络为无人船做规划决策,在满足规避障碍物的安全约束条件下实现任务区域的全覆盖。试验方面,通过Unity3D仿真平台搭建三维环境模型,验证该混合算法的可行性。结果表明,所提出的无人船全覆盖路径规划算法框架可在岛屿区域达到覆盖率100%,且路径较短。相似文献

4.

基于MATSAC-LSTM的综合能源系统自动发电控制算法研究

李昊荣娜邓棋宸《智能计算机与应用》2023,(10):108-114+120

为提高综合能源系统自动发电控制(Automatic Generation Control, AGC)的控制性能和算法收敛速度,本文提出了一种基于多智能体迁移柔性行动器-批判器与长短时记忆网络(Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memory, MATSAC-LSTM)的AGC控制法。首先,用LSTM网络将采集的区域控制误差等环境状态量进行时序特征提取,并作为MATSAC算法的输入,使智能体能结合历史信息进行快速的有功功率分配决策;其次,采用集中训练分散执行框架,将一个智能体观察的环境状态量以及其他智能体的动作信息作为相应智能体Critic网络的输入,以便训练时能够让多智能体之间共享信息;最后,通过迁移学习将旧任务训练的Critic和Actor网络模型参数转移到新任务相应模型参数中,以提高智能体的训练效率。算例分析在一个修改的IEEE标准两区域负荷频率控制系统模型和一个五区域综合能源系统模型展开,仿真结果表明,与比例积分微分、Q学习、双延迟深度确定性策略梯度、基于动态策略的赢或快速学习爬坡策略、柔性行动器... 相似文献

5.

基于时序注意力机制的红外弱小目标智能检测识别算法框架

张蒙张新朝《信息技术与信息化》2023,(12):114-117

针对资源受限、高动态复杂场景下的红外弱小目标检测识别问题,基于时序注意力机制提出了一种轻量化的智能检测识别通用算法框架,使其具备自动提取和学习目标时序变化信息的能力。所提出的算法框架主要在基于卷积神经网络模型的单帧检测识别算法基础上,结合了基于循环神经网络相关模型构造的时序注意力模块,从而使对应算法模型具有自动关联多帧之间目标特征信息变化的功能。在相关红外弱小目标图像数据集上,通过对算法框架与其他方法进行对比,结果表明所提出算法框架显著提升了对红外弱小目标的检测识别准确率。相似文献

6.

智能电网中基于多智能体强化学习的频谱分配算法

燕锋林晓薇李正浩徐霞夏玮玮沈连丰《通信学报》2023,(9):12-24

针对智能电网中利用5G网络承载多样化电力终端的业务需求,提出了一种基于多智能体强化学习的频谱分配算法。首先,基于智能电网中部署的集成接入回程系统,考虑智能电网中轻量化和非轻量化终端业务的不同通信需求,将频谱分配问题建模为最大化系统总能效的非凸混合整数规划。其次,将前述问题构建为一个部分可观测的马尔可夫决策过程并转换为完全协作的多智能体问题,进而提出了一种集中训练分布执行框架下基于多智能体近端策略优化的频谱分配算法。最后,通过仿真验证了所提算法的性能。仿真结果表明,所提算法具有更快的收敛速度,通过有效减少层内与层间干扰、平衡接入与回程链路速率,可以将系统总速率提高25.2%。相似文献

7.

基于图注意力机制的车辆路径问题研究

王骊翁慧颖孙小江《信息技术与信息化》2024,(2):122-125

车辆路径问题是组合优化中的经典问题,近年来,基于强化学习的深度学习框架已经成为车辆路径问题的主流深度学习框架。提出一种启发式神经网络算法,通过破坏算子产生节点子集,再依据最小成本原则重构序列修复算子。在网络中,编码器由带有注意力机制的图神经网络组成,解码器由带有指针网络的GRU组成,所提出的网络由actor-critic框架来进行训练。实验结果表明,所提出的模型性能优于经典启发式算法。相似文献

8.

一种新的基于值函数迁移的快速Sarsa算法

下载免费PDF全文

傅启明刘全尤树华黄蔚章晓芳《电子学报》2014,42(11):2157-2161

知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度.基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法--VFT-Sarsa.该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习.将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度. 相似文献

9.

基于注意力机制的交通信号控制技术

黄思萌王梅杨晨《信息技术与信息化》2023,(3):93-96

多年来深度强化学习算法与智能交通系统结合的方法在交通信号控制领域取得了突出成效。然而,仅依靠深度强化学习算法仍然无法弥补卷积神经网络提取特征的缺陷,从而影响智能体的整体策略输出。针对现存的特征提取问题,在深度双Q网络（double deep Q network, double DQN）模型基础上提出了一种基于注意力机制的深度强化学习模型进行交通信号控制。将压缩激活网络（squeeze and excitation networks, SENet）注意力机制添加到三维卷积神经网络中,通过建模特征图通道间的相互依赖来增强卷积神经网络的表征质量,从而输出最优的交通信号控制动作。实验结果表明,算法表现出了良好的交通信号控制效果,且具有显著的稳定性。相似文献

10.

基于移动互联网的人车协同感知系统

王婷婷李雅红李嘉兴张云飞《智能计算机与应用》2017,7(4)

在车路协同基础上,本文提出了基于移动互联网的人车协同感知系统.系统除了针对行进车辆与交通道路外,将非机动车辆和行人也纳入系统中,较大改善了车辆道路的行车安全.本文对系统的功能设计、结构框架设计、技术路线与关键问题进行了深入的研究.在功能设计方面,对如何感知车辆、环境和道路信息,交通数据的传输、处理和智能决策以及交通状态显示、交通异常预警或报警的功能进行了设计;在结构设计方面,构建了车载感知子系统、数据传输子系统、数据处理和预警子系统和信息发布子系统,形成了一套完整的结构框架. 相似文献

11.

基于强化学习的无人机电磁干扰感知与抗干扰传输方法

李博扬刘洋万诺天许魁夏晓晨张月月张咪《电讯技术》2023,63(12):1855-1861

无人机对于无线信道的依赖性和无线传播环境的开放性,导致其通信易受到恶意的电磁干扰。针对其中恶意的信道跟随干扰,在感知干扰信道信息的基础上,将无人机的发射功率和信道选择策略建模为马尔科夫决策过程(Markov Decision Process, MDP),利用强化学习算法对该通信系统的抗干扰方法进行智能优化,提出了基于赢或快学习策略爬山算法(Win or Learn Fast Policy Hill-climbing, WoLF-PHC)的抗干扰算法。仿真结果证明,所提算法能够将用户干信比降低至0.1以下,将用户可达速率在初始值基础上提升14%,与Q学习算法和PHC算法相比具有更好的抗干扰传输性能。相似文献

12.

基于协同学习的频谱智能感知方法

下载免费PDF全文

潘成胜蔡韧石怀峰施建锋王钰玥《电讯技术》2023,63(12):1839-1846

目前无线通信网络频谱环境时空分布复杂多变，现有多用户协同感知方法数据预处理繁琐，感知效率低下。为此，在由用户感知层和边缘融合层构成的系统架构下，提出了一种基于协同学习的频谱智能感知算法。用户感知层采用多分支卷积循环门控神经网络，利用原始归一化能量信号的底层结构信息，实现本地感知。边缘融合层基于自注意力机制进行消息传播，融合用户感知层中各个非授权用户的感知结果得出最终决策。实验表明，在信噪比为-20 dB以及5个用户协同感知的情况下，该方法能在虚警概率为1.91%时达到18.3%的检测概率，相比对比模型提升了6.1%,且不需要对原始数据额外预处理，降低了算法的复杂度。相似文献

13.

一种基于统计的多智能体Q学习算法

谭天晓赵辉赵宗涛《微电子学与计算机》2008,25(1):17-19,24

针对非确定马尔可夫环境下的多智能体系统,提出了一种新的基于统计的多智能体Q学习算法,该算法将统计学习与增强学习有机结合,有效地解决了智能体环境部分感知、信息不确定以及其他智能体行为策略学习的问题,经RoboCup仿真实验证明该算法具有较强的自适应能力和学习效率。相似文献

14.

基于多智能体强化学习的无人机集群攻防对抗策略研究

轩书哲柯良军《无线电工程》2021,(5):360-366

针对大规模无人机集群攻防对抗问题,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)的改进多智能体(Multi-agent Proximal Policy Optimization,M-PPO)算法.该算法采用了Actor-Critic框架,但与PPO不同,为实现智能体之间的... 相似文献

15.

基于SARSA学习的跳频系统智能抗干扰决策算法

陈一波赵知劲《现代电子技术》2023,(1):31-35

为了提高在干扰多变电磁环境下跳频通信系统的抗干扰性能,提出一种基于改进SARSA学习的智能抗干扰决策算法。试错是强化学习最重要的特征,它可以影响算法的长期总收益,而试错的优劣由算法探索和利用的表现决定,故文中将基于置信度上界的动作选择策略和优先遍历思想应用于SARSA学习,以平衡智能体对状态-动作空间的探索和利用。另外,针对多种干扰并存的电磁环境以及跳频通信系统的跳速、信道划分间隔和跳频序列等可调节参数,设计了相应的系统模型、决策目标、状态-动作空间和奖赏函数。在不同干扰环境下所提算法都优于三种对比算法,表明基于置信度上界的动作选择策略和优先遍历思想的加入较好地协调了探索与利用的矛盾,提升了收敛速度和稳态性能,加强了SARSA学习对干扰环境的适应性。相似文献

16.

基于改进YOLOv4的红外行人车辆检测算法

郭志坚李江勇祁海军赵金博《激光与红外》2023,53(4):607-614

智能设备对行人和车辆的目标检测对于建设智慧城市有着重要的意义。随着红外技术的发展和普及,红外成像科技具有强抗干扰和全天候的特性,被越来越多地用于解决可见光受限环境带来的问题。论文提出了一种改进YOLOv4深度学习算法对红外图像下的行人车辆进行检测。改进的YOLOv4算法加入了CA注意力机制模块,将位置信息嵌入到通道注意中,增强了对感兴趣区域的表示。此外还设计了CSP2-DBL模块,替换了原本简单的卷积模块叠加,对高分辨率特征性信息的做出了弥补。为了进一步提高网络计算速度,减少计算量,针对红外图像特性,对Head部分进行了裁剪。实验结果表明改进后的模型在FLIR红外数据集上较YOLOv4模型在mAP上提高了0.85个百分点,检测速度提升了2 f/s。相似文献

17.

基于注意力机制的实时车辆点云检测算法

赖坤城赵津刘畅刘子豪王玺乔《激光与红外》2021,51(3):285-291

针对现有激光点云目标检测效果、实时性差的问题,提出了一种基于注意力机制的实时车辆点云检测算法。本文所提出的检测算法将注意力机制算法与YOLOv3相结合,利用注意力机制对点云鸟瞰图的特征进行权重分配,以学习不同通道和空间下特征的相关性,并通过CIOU loss和Focal loss来改进检测器的损失函数。实验结果表明基于注意力机制的车辆点云检测算法检测速度可达30帧/秒,车辆目标的平均检测精度达到了92.5%。并且在实车数据测试中,该算法能快速准确的对一定范围内车辆进行准确识别,并且达到实时检测效果。相似文献

18.

面向动态拓扑网络的深度强化学习路由技术

伍元胜《电讯技术》2021,61(6):659-665

针对现有智能路由技术无法适用于动态拓扑的不足,提出了一种面向动态拓扑的深度强化学习智能路由技术,通过使用图神经网络近似PPO(Proximal Policy Optimization)强化学习算法中的策略函数与值函数、策略函数输出所有链路的权值、基于链路权值计算最小成本路径的方法,实现了路由智能体对不同网络拓扑的泛化.仿真结果表明,所提方法可适应动态拓扑的变化并具有比传统的最短路由算法更高的网络吞吐量. 相似文献

19.

复杂行车环境下的前方车辆检测算法研究

王艳丽沈文超徐建闽《电子设计工程》2013,21(18):149-152

针对复杂行车环境下的智能车辆行车安全问题,提出了一种基于特征的多目标前方车辆检测算法。算法首先利用车辆底部阴影特征、车辆轮廓特征的先验知识,探测前方感兴趣区域,然后利用车辆边界特征、对称性特征对感兴趣区域进行判别。该算法针对复杂路况下的车辆分布特征进行了适应性设计。能够快速、准确的检测到具有潜在安全威胁的前方行驶车辆。相似文献

20.

云雾混合网络下基于多智能体架构的资源分配及卸载决策研究

陈前斌谭颀贺兰钦唐伦《电子与信息学报》2022,43(9):2654-2662

针对D2D辅助的云雾混合架构下资源分配及任务卸载决策优化问题,该文提出一种基于多智能体架构深度强化学习的资源分配及卸载决策算法.首先,该算法考虑激励约束、能量约束以及网络资源约束,联合优化无线资源分配、计算资源分配以及卸载决策,建立了最大化系统总用户体验质量(QoE)的随机优化模型,并进一步将其转化为MDP问题.其次,该算法将原MDP问题进行因式分解,并建立马尔可夫博弈模型.然后,基于行动者-评判家(AC)算法提出一种集中式训练、分布式执行机制.在集中式训练过程中,多智能体通过协作获取全局信息,实现资源分配及任务卸载决策策略优化,在训练过程结束后,各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载.最后,仿真结果表明,该算法可以有效提升用户QoE,并降低了时延及能耗. 相似文献