首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
为了提高卷积神经网络模型中二维矩阵卷积的计算效率,基于FT2000多核向量处理器研究二维矩阵卷积的并行实现方法.通过使用广播指令将卷积核元素广播至向量寄存器,使用向量LOAD指令加载卷积矩阵行元素,并通过混洗操作将不易并行化的矩阵卷积操作变成可以向量化的乘加操作,实现了通过减少访存、充分复用已取数据的方式来提高算法的执行效率.设计卷积矩阵规模变化、卷积核规模不变和卷积矩阵规模不变、卷积核规模变化2种常用矩阵卷积计算方式,并对比分析不同计算方式对算法执行效率的影响.基于服务器级多核CPU和TI6678进行实验对比,实验结果显示,FT2000比多核CPU及TI6678具有更好的计算优势,相比多核CPU最高可加速11 974倍,相比TI6678可加速21倍.  相似文献   

2.
为了提高嵌入式浏览器在多核处理器上的显示速度,提出了一种针对多核平台的嵌入式浏览器多线程划分并行设计方法. 该方法将嵌入式浏览器内核划分为多个线程,以用户界面作为主线程,资源加载、解析、排版布局、图形绘制模块划分为子线程,使嵌入式浏览器以多线程方式在多核处理器上并行执行. 该方法打破了传统浏览器的串行过程,克服了传统浏览器的用户响应效果差、多核处理器的CPU利用率低等问题. 经实验测试,验证了该方法的可行性,并且在内存不超过64MB的情况下,网页显示速度提高了18%~40%.  相似文献   

3.
由于单核处理器的处理能力已经逼近物理极限,为了继续提高处理能力,人们将目光投向了多核处理器体系结构。在处理器体系结构的设计中,通过体系结构软件仿真技术测试新方案,修改弊端,优化设计。针对一种多核处理器,以模拟实现任务分配为着手点进行软仿真。软件模拟出一个9核处理器,并模拟出主存,忽略一些不必要的细节,达到能够运行汇编代码的目的,并且通过可视化编程,可以在仿真处理器工作时,随时查看各个核内部的工作状态,对多核处理器的工作原理有一个清晰的了解。从处理器的运行过程中,体现出多核处理器相对于单核处理器的优势。从软件仿真在短时间内就可以得出针对性的结论,体现出软件仿真在缩短多核处理器的设计周期、降低设计的硬件成本与时间成本方面的优势.  相似文献   

4.
一种SOC微处理器IP核的优化设计   总被引:1,自引:0,他引:1  
该文提出了多种改善微处理器设计的优化方法.在系统结构上,采用四级流水结构,改善了微处理器的执行效率;为了解决数据相关问题,采用了bypass技术,并进一步提高了流水线的效率.在CPU结构上,采用纯组合逻辑电路和改进的ALU算法,来提高处理器的速度.最后,对该CPU核完成了仿真和综合,并在FPGA上成功地实现.实验结果表明设计的SOC处理器在指令上与通用的PIC16C57的处理器兼容,而执行效率为其4倍,系统时钟可达到40MHz以上.  相似文献   

5.
基于数据流模型和硬件可重构技术,提出了一种面向图像处理应用的可重构的多模式众核处理器结构.处理器采用了可扩展的层次化阵列结构,分布式共享存储和带硬件握手的近邻互连,可以分区并发实现多种并行模式,并克服了传统处理器实现数据流计算的低效性;基于VC++开发了集成仿真平台,用于对结构性能和指令性能的仿真验证,并在现场可编程门阵列上实现了包含64个处理单元的所提结构.仿真结果表明,所提结构实现了超过图形处理单元的性能以及接近专用集成电路的数据吞吐量.  相似文献   

6.
一种嵌入式网络硬盘录像机的硬件设计和实现   总被引:1,自引:0,他引:1  
对一种基于ARM处理器的嵌入式网络硬盘录像机的硬件设计及其实现方法进行了介绍.该设备的主要任务是对模拟的视频和音频信号进行MPEG4数字化压缩和文件存储,并对视频文件进行检索、管理、回放和网络传输.其硬件结构是以S3C2510(ARM940T)为主的CPU,以CPU内置的PCI主桥连接多个TMSDDVI602GDK600 多媒体处理器,构成一个多处理器嵌入式系统.MPEG4格式的视频和音频压缩和解压缩在TMSDDVI602GDK600中完成,压缩后的数据流经主CPU整理成文件并存储到硬盘录像机的硬盘库中.在本系统中,利用CPLD对PCI设备的中断逻辑进行了优化,提高了CPU的数据采集和存储效率.该设备经用户实际使用,在功能和性能上均得到了用户的好评.  相似文献   

7.
周荣 《浙江工业大学学报》2006,34(5):550-553,588
目前,基于FPGA的嵌入式CPU核的设计已成为SOC设计的重要部分.提出一种嵌入式CPU核的VHDL行为建模方法,与传统的基于电路结构建模的CPU核的设计方法不同,新的VHDL建摸方法是基于指令对数据流流通控制行为的描述.使用这种方法可以快速建创建兼容已有指令集的CPU核的VHDL模型,易于修改,提高设计效率.同时介绍了兼容8051单片机指令的CPU的VHDL设计例子,并给出使用ISE7.1工具在Xilinx的Sparten 3器件上进行综合实现CPU核设计的结果和使用Modesim6.0工具进行指令操作仿真的结果.仿真的结果显示该建模方法是可行的,设计的CPU核可以运行在125MHz时钟工作频率,指令执行速度超过40MIPS.  相似文献   

8.
CMC(Core Memory Core)总线是为多核处理器或众核处理器的内部通信设计的一种高效解决方案。目前多核处理器以其性能优势取代了单核处理器,多核处理器的体系结构仍有很多的关键技术亟待解决,包括核间通信问题。讨论了目前多核处理器中使用的核间通讯技术,分析了优缺点,在此基础上提出了CMC总线。CMC总线的设计目标为只需一根握手信号线,简单的硬件逻辑,并为软件提供必要的控制接口。最后利用Modelsim SE仿真软件对CMC总线的读写进行仿真,验证了该总线作为一种高效的多核处理器核间通信方案的可行性。  相似文献   

9.
采用SOPC技术手段在Altera公司的CycloneⅡ系列芯片EP2C5Q208中植入NiosⅡ嵌入式处理器,作为核心控制CPU,控制硬件TCP/IP协议栈W5100实现以太网接口.为防止尾随进入和仪器被盗,系统在已具有指纹识别的基础上引入重量识别的方法,构造智能化、网络化的门禁系统.  相似文献   

10.
AMD LX处理器是低功耗高性能的嵌入式处理器,架构上是将CPU和北桥集成在一起,单颗芯片集成了CPU、显示控制器、DDR控制器以及PCI控制器.CS5536A是传统意义上的南桥,它集成了USB2.0、IDE、UART等功能.最新的Windows终端平台采用以LX处理器为核心,搭配CS5536A的方案,实现了Windows终端的图形和网络应用功能,设计上达到了一体化和超低功耗的要求.  相似文献   

11.
A fast algorithm based on direction in intra frame downsizing in H.264 is proposed, which used modes information of macroblocks before transcoding and the direction relation of modes between decoding and re-encoding in transcoding. This algorithm also made use of statistics between decoded modes and re-encoded modes, which came from a lot of sequences data experiments. Without full modes encoding, it can improve the speed of reducing intra-prediction frame resolution obviously. Comparing to traditional transcoding, it only needs to compute one of thirteen modes in re-encoding. The experiments show that this algorithm can significantly speed up 92 percent transcoding time in intra-prediction frame of H.264 with slight PSNR degradation. It also can support an improvement in real-time for transcoding and ability of bandwidths changing.  相似文献   

12.
在国家"核高基"专项支持下,国产基础软硬件(HW&SW)(包括CPU、操作系统、数据库、中间件、办公套件)的研制取得了重要进展。但在国产安全可靠基础软硬件的推广应用中,国产基础软硬件暴露出了严重的集成适配与性能问题。重点阐述面向飞腾平台集成应用技术攻关中所采用的3项并行优化技术:JPEG解码并行优化、H.264解码并行优化和Java虚拟机的垃圾回收并行优化。通过采取这些优化技术,使得飞腾平台图像解码、H.264视频解码以及Java虚拟机的性能得到了大幅提升。  相似文献   

13.
设计了一种面向大规模嵌入式设备固件的自动化分析方法,该方法能够对固件进行自动化分析,提取其文件系统、操作系统、中央处理器指令架构等关键信息.针对固件解码成功的自动化判定难题,提出了一种基于分类回归树的固件解码状态检测算法,并选取收集的6 160个固件和固件自动化解码后得到的1 823个可反汇编二进制文件作为样本进行实验.实验结果表明,该算法相对其他分类器具有更好的分类效果,其分类准确率、召回率均在96%以上.  相似文献   

14.
提出一种H.264/AVC中基于上下文的自适应二进制算术编码(CABAC)解码器的硬件设计方法.在采用并行结构的基础上.给出了一种高效的VLS1实现方案.采用两级有限状态机结构控制宏块解码过程,共通过对残差系数存储器的定时清零解决了数据存储耗时的问题,大大降低了解码控制的复杂度.从而提高解码速度.达到每1至2个时钟解出1比特.仿真结果表明,该方案能满足H.264/AVC main profile CIF 30fps实时解码的要求.  相似文献   

15.
任务调度是影响动态可重构系统性能的关键因素之一。针对目前相关研究中没有充分考虑CPU核和FPGA的并行执行特性,以及FPGA配置开销等问题,提出了一种面向可重构多核系统的混合任务调度算法。算法充分利用CPU核与FPGA进行并行工作,并通过配置预取和任务重用以隐藏硬件任务的配置开销。实验结果表明,该方法能够有效减少应用程序的执行时间。  相似文献   

16.
当前市场上应用的无线遥控系统的控制功能较少(1-4路),且多为硬件解码,如果要进行更多种控制的话,就要对硬件进行扩充,电路从而变得复杂,成本也会提高很多.文章针对这一点,设计一种基于单片机解码的无线多路寻呼系统,可以实现1到16路控制.该系统采用无线编解码芯片,单片机程序解码并显示路数和声音提示,使得解码和输出控制灵活.电路稍加修改即可实现64路和128路寻呼,而成本几乎没有增加.  相似文献   

17.
提出了一种联合比特面译码(JBPD)算法用于分布式视频编码。该方法利用量化系数已解码比特平面的结果作为先验信息,对其它比特平面进行解码,避免了独立比特面解码时存在的信源间相关性弱化,更充分利用了Wyner-Ziv帧与关键帧之间的相关性,可在不增加解码复杂度的情况下提升分布式视频编码的率失真性能。仿真结果表明,在其它环节相同时采用联合比特面译码算法的分布式视频编码系统比采用独立比特面译码的系统最多可节省比特率16.5%,并且随着量化级数的增多,性能提升更为明显。  相似文献   

18.
提出了一种Rice信道中利于译码检测的多网格编码调制(MTCM)设计方法及其译码算法--状态-符号序列译码. 利用通常的Viterbi算法对MTCM符号序列进行最大似然译码非常复杂. 基于MTCM符号序列设计上的特点,将译码过程分为状态序列检测和符号序列译码两步. 符号序列的译码输出不必等到所有符号接收完毕,译码时延小;对于经过衰落信道后的MTCM符号序列,译码性能可以通过改变设计参数值来逼近最大似然算法,理论分析和仿真结果说明了这一特点.  相似文献   

19.
提出了一种基于三维射线弹跳法的并行电磁波传播预测算法。三维射线弹跳法中每条射线跟踪、每个绕射源都具备可并行性,其并行计算可分为射线并行、绕射源并行2个阶段先后处理。每个阶段都使用管理者/工作者并行模式,管理节点依据各个工作节点的任务量动态分配任务,并收集计算结果,工作节点并行完成射线跟踪或绕射源处理任务。测试结果表明:该算法的加速比趋干线性,可扩展性好,利用128个CPU核求解大规模问题时加速比可达116,并行效率约为90%。  相似文献   

20.
为实现绿色可靠通信,提出了基于无线信息与能量同传(SWIPT)技术的乘积极化( Polar)编码协作系统。 首先,建立基于 SWIPT 的乘积 Polar 编码协作系统模型;其次,将 Polar 码作为乘积码的分量码构建乘积 Polar 码,分别在信源节点和中继节点对其行编码和列编码;最后,在目的节点提出一种低译码时延的两步译码算法,第一步对接收到乘积 Polar 码的码字矩阵分别进行串行相消(SC)译码与列 SC 译码,若第一步译码失败,则执行第二步译码,即将乘积 Polar 码的码字矩阵变换为单行 Polar 码,再 SC 译码。 理论分析与仿真表明,相比点对点系统,基于 SWIPT的乘积 Polar 编码协作大大降低了译码时延;与采用置信度传播译码算法的乘积低密度奇偶校验编码协作系统相比,所提系统误码性能更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号