首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对物联网智能终端的低功耗需求,提出了一种基于内存控制器扩展的低功耗混合内存系统.使用动态随机存储器和相变存储器构成混合内存结构,通过在内存控制器中添加迁移控制模块对混合内存进行管理.设计了一种改进的双队列算法,筛选出相变存储器中写请求较多的内存页面,并通过地址映射模块和迁移控制模块将写请求较多的页面从相变存储器迁移到动态随机存储器中,规避相变存储器写操作的缺陷,从而实现对低功耗混合内存系统的性能优化.仿真结果表明,与动态随机存储器构成的内存系统相比,混合内存系统的功耗延时积平均降低了43.9%,在面向边缘计算的应用场景中具有一定的可行性.  相似文献   

2.
介绍了Samsung公司生产的64M*8位闪烁存储器K9F1208UOM的结构、功能和基本工作原理,研究了其与低功耗单片机MSP430的接口技术,给出了硬件接口原理图和软件编程实现方法.  相似文献   

3.
介绍了工业上温度、压力数据采集的低功耗系统设计.温度信号转换采用AD7416温度传感器,压力信号转换采用16位的A/D转换器AD7705;采集的数据可以存储在存储器内,系统采集数据的时间间隔可以设置,在数据采集间隔期间系统进入极低功耗状态.最后探讨了PIC单片机低功耗系统的设计方法.  相似文献   

4.
中国科学院微电子研究所在面向应用的阻变存储器研究方面取得了新进展。 阻变存储器(RRAM)是非挥发性存储器的重要替代方案之一,具有工艺及器件结构简单、微缩性好、存取速度快、低功耗、可嵌入功能强等特点。研究人员在前期建立新材料、新结构及与产业化CMOS集成的验证平台的研究基础上,在实用化所需的高性能、高可靠性器件方面取得了重要进展。  相似文献   

5.
介绍了Samsung公司生产的64M*8位闪烁存储器K9F1208U0M的结构、功能和基本工作原理,研究了其与低功耗单片机MSP430的接口技术,给出了硬件接口原理图和软件编程实现方法.  相似文献   

6.
卷积神经网络算法存在着算法结构多样和数据交换计算量大的问题.为此,提出了一种基于传输触发体系架构的可编程卷积神经网络处理器.系统采用多通道直接存储器访问通道、多端口存储器和专用池化数据通道组成数据传输网络解决了数据交换问题.实验表明,该系统在实现卷积神经网络的加速计算方面,虽然吞吐速率比并行流水线方案慢11%,但与之相比具备可编程、适应不同神经网络的特性,节省了46.5%硬件乘法器资源,比其他非流水线实现方案吞吐速率至少快40%.该方案具有系统并行度大、可编程、可在线配置和处理速度较高的特点.  相似文献   

7.
为了降低静态随机存储器在处理声音和视频数据时的功耗,提出一款新型的非预充单元.相比常规6管和8管单元,其读操作消除了预充机制,抑制了无效的翻转,因此功耗得到显著优化.本单元通过多阈值技术,在保证低电压区域读噪声容限的同时也加强了数据读出的能力.而且通过引入切断反馈环的机制,有效地提升了单元写能力.此外,在存储阵列中应用半斯密特反相器,大幅地提升了静态随机存储器读操作的性能.基于SMIC 130nm工艺,分别实现容量为6kbit的非预充和常规8管静态随机存储器测试芯片.测试和仿真数据表明,这种新型存储器相比常规8管存储器在功耗的抑制上具有显著优势,可以作为低功耗应用的良好选择.  相似文献   

8.
提出了一种新的低功耗非冗余排序总线编码方法.通过对改进的偏移地址线的动态重排以降低具有高负载的地址总线的功耗.该编码方法根据偏移地址的值域对地址总线的低位进行优化重排,通过高位地址总线传送排序矢量至存储器的地址接收端.相对于传统的地址总线编码方法,具有更低的总线跳变率.实验结果表明。采用所提出的非冗余排序总线编码.地址总线的跳变率降低了88.2%,功耗减少了76.1%.有效降低了地址总线的功耗.  相似文献   

9.
一种适用于小尺寸工艺的SRAM单元设计   总被引:1,自引:0,他引:1  
最近研究表明,静态存储器(SRAM)功耗是整个芯片功耗的重要组成部分,功耗问题在SRAM单元设计中成为一个日益重要的问题。提出了一种新的纳米级的高稳定性和低功耗应用技术,采用该技术的SRAM单元采用分开的读写机制。65nm CMOS工艺的仿真结果表明,此新型的SRAM单元结构在保证正确的读写操作下,在写0操作时功耗比传统的SRAM单元降低22.45%。同时,此新型SRAM在空闲模式下利用漏电流和正反馈存值,极大地提高了SRAM单元的稳定性,改善了纳米尺度下SRAM单元的功耗问题。  相似文献   

10.
针对嵌入式处理器中旁路转换缓冲(TLB)功耗和面积显著的问题,提出一种共享高速缓存硬件资源的低功耗TLB设计方法,消除了传统方法中TLB存储器的硬件资源及静态功耗.该方法通过设立两级TLB低功耗架构和缓存地址映射表,有效减少TLB的访问次数,降低了功耗;利用高速缓存的结构特性动态扩展TLB表项,扩大对物理内存的映射范围,提升TLB命中率.进一步提出了一种复用缓存替换策略的TLB表项的编码加锁方法,减少页面抖动,缓和TLB表项与指令、数据的资源冲突.实验结果表明:与传统的TLB设计相比,应用本方法的嵌入式处理器的功耗下降28.11%,面积减少21.58%.  相似文献   

11.
为了应对大数据应用中数据移动对系统性能和能耗造成的负面影响,基于3D存储器集成存储与逻辑电路的特点和MapReduce模型的并发特性,提出一种基于动态任务迁移的近数据处理(NDP)方法. 对MapReduce应用的工作流解耦以获取核心计算任务,提供迁移机制将计算任务动态迁移到NDP单元中;采用原子操作优化数据访问,从而大幅度减少数据移动. 实验结果表明,对于MapReduce应用,提出的近数据处理方法将75%的数据移动约束在存储单元内部,有效减少了主处理单元与存储单元之间的数据移动. 与目前最先进的工作相比,所提方法在系统性能和系统能效上分别有70%和44%的提升.  相似文献   

12.
Batch Normalization (BN) can effectively speed up deep neural network training, while its complex data dependence leads to the serious "memory wall" bottleneck. Aiming at the "memory wall" bottleneck for the training of the convolutional neural network(CNN) with BN layers, an effective memory access optimization method is proposed through BN reconstruction and fused-layers computation. First, through detailed analysis of BN’s data dependence and memory access features during training, some key factors for large amounts of memory access are identified. Second, the “Convolution + BN + ReLU (Rectified Linear Unit)” block is fused as a computational block to reduce memory access with re-computing strategy in training. Besides, the BN layer is split into two sub-layers which are respectively fused with its adjacent layers, and this approach further reduces memory access during training and effectively improves the accelerator’s computational efficiency. Experimental results show that the amount of memory access is decreased by 33%, 22% and 31% respectively, and the actual computing efficiency of the V100 is improved by 20.5%, 18.5% and 18.1% respectively when the ResNet-50, Inception V3 and DenseNet are trained on the NVIDIA TELSA V100 GPU with the optimization method. The proposed method exploits the characteristics of memory access during training, and can be used in conjunction with other optimization methods to further reduce the amount of memory access during training.  相似文献   

13.
Developing parallel applications on heterogeneous processors is facing the challenges of ‘memory wall’, due to limited capacity of local storage, limited bandwidth and long latency for memory access. Aiming at this problem, a parallelization approach was proposed with six memory optimization schemes for CG, four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20, the parallelization approach can reach up to 21 and 133 times speedups with size A and B, respectively, compared with single power processor element. Finally, the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV, simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores.  相似文献   

14.
使用通用记忆多项式模型来精确地建立射频功率放大器的非线性动态行为模型,模型系数使用多通道IQRD-RLS算法进行提取。IQRD-RLS算法可以直接求解时间递归最小二乘权值向量,避免了在以前直接QR分解方法中所必须的后向迭代过程。且该算法使用Givens旋转操作更新递归的模型系数,比较适合使用脉动阵列实时实现快速的收敛性和良好的数值性能。用ADS仿真数据进行验证,结果表明本模型能够满意地描述宽带射频功率放大器的非线性动态特性。  相似文献   

15.
针对采用最大后验概率算法的Turbo译码器,提出了一种新颖的前向、后向度量计算和存储器管理的策略.通过在前向状态度量计算时对部分度量值等间隔抽取存储,然后在对数似然比计算时经过内插还原出未存储的状态度量值,极大地减少了状态度量存储单元,从而降低了功耗和实现面积.与传统的实现方法比较,当滑窗为128时,可以节省80%的状态度量存储单元.在65nm的工艺下,约束工作电压为1.18V和时钟频率为350MHz时,该方法实现的HSDPA Turbo译码器可以达到21.4Mbit/s的吞吐量和29.3mW的功耗,且每次迭代的能量效率仅为0.171nJ/bit.  相似文献   

16.
The data-intensive applications of Big Data era are eager to boost system performance through large capacity of memory. However, the use of the large DRAM is restricted by its high power consumption and price per bit. Flash as an existing technology of Non-Volatile Memory, it has some advantages of large capacity, low price and low power consumption. Therefore, we propose an extended memory architecture which expands the RAM with the SSD. The large extended memory is managed at an application object granularity to boost the efficiency of accessing data on the SSD. To reduce the waste of physical memory because of the object granularity, it provides a flexible memory partition and multi-mapping strategy to manage the physical memory by micro-pages. We implement a runtime library to provide several interfaces for applications to access the large memory transparently. Experimental results with several data-intensive workloads show that this method can provide up to 3.3 times performance improvement over the one that uses the SSD as the system swap device which works at the page level.  相似文献   

17.
为了解决超临界小火焰燃烧模型数据库过于庞大,导致计算机内存不足和取值性能下降的问题,提出使用人工神经网络(ANN)进行建库的超临界小火焰/过程变量模型FPV-ANN. 在先验性分析及在超临界水热火焰的大涡模拟计算中发现,FPV-ANN方法在温度、组分和其他目标变量的分布与传统FPV方法得到的结果吻合,说明FPV-ANN方法的准确性与传统FPV方法一致. 由于人工神经网络小火焰库大小只有传统库的1%,FPV-ANN方法在大规模并行计算中消耗更少的计算机内存. FPV-ANN方法的计算速度比传统FPV方法提升了30%. 可以看出,提出的FPV-ANN方法具有更好的计算性能.  相似文献   

18.
本文阐明了双轴励磁同步发电机(d.w.r)的动态稳定性的分析方法和所得到的结论。与常规绕制转子(c.w.r)汽轮发电机的特性相比较,d.w.r发电机能够不改变转子磁通相对于气隙磁通的位置,满意地控制有功和无功输出。在超前功率因数运行时,从空载到满载都能达到额定定子电流,并允许电压调节器增益在较大范围内变化,从而显著地提高了动态稳定极限。因此,采用d.w.r发电机可供系统需要的发电设备和并联电抗器数目最少,带来明显的经济效益,具有极大的研究和应用价值。  相似文献   

19.
在高性能的片上系统设计中,功耗已经成为制约片上网络发展的重要约束。首先用混合插入方法计算了全局芯片网络中各条路径的延时和功耗。相比起用最优中继驱动器插入方法,这种情况下互连线的延时和功耗分别降低了24.36%和11.81%。在混合插入方法的基础上进行优化后,相比起用混合插入方法,互连线功耗降低了21.75%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号