首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
以RSA算法为例,探讨公钥密码处理芯片的设计与优化。首先提出公钥密码芯片实现中的核心问题,即大整数模幂运算算法和大整数模乘运算算法的实现;然后针对RSA算法,提出Montgomery模乘算法的CIOS方法的一种新的快速硬件并行实现方法,其中采用加法与乘法并行运算以及多级流水线技术以提高性能,较大地减少乘法运算时间,显著提高模乘器的运算性能。  相似文献   

2.
RSA算法的CUDA高效实现技术   总被引:1,自引:1,他引:0       下载免费PDF全文
CUDA(Compute Unified Device Architecture)作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。  相似文献   

3.
当前RSA密码算法无法实现RSA加解密阶段大数模乘运算,因此提出基于余数系统蒙哥马利模乘器的RSA密码算法。依据余数系统模计算性能优势,构建二进制数值表示形式与运算法则表达式。采用Xilinx Virtex-Ⅱ平台与双模式乘法器,创建余数系统蒙哥马利模乘器硬件部分,通过四状态调度控制器控制模乘器。基于模乘器算术逻辑单元,完成算法中的乘法与乘累加运算。根据蒙哥马利模乘去除取模阶段的除法运算形式,运用模乘因子界定基转换算法,并采取一种近似方法将除法运算替换为移位操作,依据数据依赖关系对算法性能与芯片面进行折中处理,通过改变特殊基完成RSA密码算法构建。仿真结果表明,研究算法素数采集速率与加密速率高,算法执行时间短,加密效果更好。  相似文献   

4.
文章提出了一种基于Montgomery算法的模幂乘硬件流水线实现算法,该算法的核心是把模N乘上一个系数,使倍增后的模之低若干位(二进制)全为1,然后用倍增后的模进行Montgomery算法模幂乘运算。采用该算法,可以设计出用于实现RSA的高频流水线运算部件。  相似文献   

5.
RSA快速硬件实现研究   总被引:6,自引:0,他引:6  
RSA加脱密可归结为对 memod N的运算 ,这种大数模幂乘运算可以用字长为 w( 2 w N)的乘法器以迭代的方式来实现 ,对于给定字长的乘法器 ,提高其吞吐速度的有效措施之一是采用流水线技术 .用传统的平行四边形乘法器实现大数模幂乘 ,存在两次迭代之间的数据相关问题 .降低数据相关所引起的时耗代价 ,对于提高时钟频率 ,从而提高乘法器的速度至关重要 .根据矩形乘法器原理设计的 RSA专用部件较好地解决了这一问题 ,HDL 模型的仿真验证了所做设计的正确性 .  相似文献   

6.
针对R-L模幂算法并行硬件实现成本高的问题,提出一种流水线形式的模幂运算结构.采用流水线技术对模幂算法中Montgomery模乘运算进行硬件设计,并由此构建模幂运算结构,实现并行模幂运算,降低硬件成本.同时对模幂算法中预处理和后处理步骤进行优化,以减少迭代次数.Virtex-2系列现场可编程门阵列原型的实现结果表明,在保证并行模幂运算速度的前提下,该结构的硬件实现成本近似为传统并行结构的1/2,且数据吞吐率更高,可达14 Mb/s.  相似文献   

7.
RSA高速模乘单元的设计   总被引:1,自引:0,他引:1  
论文分析了Montgomery算法,利用迭代加法之间的并行性提出了一种流水并行工作的硬件模乘结构。该结构具有时钟频率高,模幂运算时间短的优点,适合于RSA的模幂运算,可以极大提高RSA加密运算的效率,同时其体系结构适合于高阶Montgomery算法的实现。FPGA实现的结果表明,512位的高速模乘单元工作频率74.27MHZ;1024位的高速模乘单元工作频率73.94MHZ。模乘单元的面积与位宽成正比,而工作频率基本不变。基于此结构,512位的RSA运算时间为1.78ms,1024位的RSA运算时间为7.08ms。  相似文献   

8.
为了解决RSA在模频繁变化情况下性能不足的问题,在已有蒙哥马利模乘器的基础上采用层次化架构设计复用硬件资源,实现了基于改进扩展欧几里德算法的偶数模逆器和[R2modM]运算器。实验结果显示,在14%的额外硬件资源开销下RSA加速器性能在模频繁变化应用下比原来提高2倍。其中,模逆器性能较其他设计提高了3倍,[R2modM]运算器性能比复用模幂电路的实现方法提高了一个数量级。  相似文献   

9.
提出了一种基于改进的Montgomery算法和中国剩余定理(CRT)的RSA签名芯片的VLSI实现.由于采用了新颖的调度算法,实现了用576b的模乘单元来完成1152b的RSA模幂运算,从而大大降低了芯片面积;此外,CRT的引入使得整个系统的数据吞吐率与传统的1024bRSA系统相当.实验结果显示:芯片完成一次1024b的模幂运算需要约1.2M个时钟周期,而芯片规模在54K个等效门以下;如果系统时钟频率选取40MHz,系统签名速率可以达到30Kbps.  相似文献   

10.
为解决提高RSA算法的加密速度保证加密的安全性,提出了在FPGA上实现RSA算法.通过分析RSA算法将该算法分解成模乘运算,模乘的求解采用改进的蒙哥马利算法实现,并通过脉动阵列的方式消除蒙哥马利算法中的长整数进位,有效降低了延迟提高加密速度.同时为了降低FPGA的资源占用,RSA算法采用流水线方式实现脉动阵列,并通过软硬件的协同合作完成算法中素数的判定生成算法参数.在FPGA上下载验证1024位的RSA算法,实验结果表明,采用上述方式实现的RSA算法能占用较少的资源并达到较快的加密速度.  相似文献   

11.
基于基为4的Montgomery模乘算法和改进的流水线组织结构,文章提出了一种结构优化的可扩展模乘运算器结构。设计中采用了按字运算的模乘算法,使本设计具有很好的可扩展性,它可以完成任意位数的模乘运算。同时,因为模乘运算器的运算数据通路采用多级处理单元的流水线结构,所以设计时可以很方便进行配置,以达到模乘运算器硬件成本和运算性能的折衷。分析结果显示,文章提出的模乘运算器结构具有很高的效率和很好的可扩展性。  相似文献   

12.
13.
一种新型操作数长度可伸缩的模乘器VLSI设计   总被引:1,自引:0,他引:1       下载免费PDF全文
在改进基于字的Montgomery模乘算法的基础上,通过优化流水线结构缩短关键路径,实现了一种结构优化的模乘器。设计中采用了按字运算的高基Montgomery模乘算法,使该设计具有良好的可扩展性,可以完成任意位数的模乘运算。改进了模乘器的流水线结构,提高了模乘器的工作效率。该设计可以应用于各种高性能且低成本的RSA密码协处理器设计。  相似文献   

14.
Zhang  Yonghua  Jiang  Hongxu  Liu  Xiaojian  Cao  Haiheng  Du  Yu 《The Journal of supercomputing》2022,78(3):3205-3225

The convolutional neural networks (CNNs) are widely used in modern AI systems for their superior accuracy but at the cost of high computational complexity, which involve enormous communication bandwidth and storage resources requirement. The computation requirement can be addressed effectively to achieve high throughput by highly parallel compute paradigms of current CNNs accelerators. But the energy consumption still remains high as communication can be more expensive than computation, especially for low power embedded platform. To address this problem, this paper proposes a CNNs accelerator based on a novel storage and dataflow on multi-processor system on chip (MPSoC) platform. By minimizing data access and movement and maximizing data reuse, it can achieve the energy efficient CNNs inference acceleration. The optimization strategies mainly involve four aspects. Firstly, an external memory sharing architecture adopting two-dimensional array storage mode for CPU-FPGA collaborative processing is proposed to achieve high data throughput and low bandwidth requirement for off-chip data transmission. Secondly, the minimized data access and movement on chip are realized by designing a multi-level hierarchical storage architecture. Thirdly, a cyclic data shifting method is proposed to achieve maximized data reuse based on both spatial and temporal. In addition, a bit fusion method based on the 8-bit dynamic fixed-point quantization is adopted to achieve double throughput and computational efficiency of a single DSP. The accelerator proposed in this paper is implemented on Zynq UltraScale?+?MPSoC ZCU102 evaluation board. By running the benchmark network of VGG16 and Tiny-YOLO on the accelerator, the throughput and the energy efficiency are evaluated. Compared with the current typical accelerators, the proposed accelerator can increase system throughput by up to 41x, single DSP throughput by up to 7.63x, and system energy efficiency by up to 6.3x.

  相似文献   

15.
This paper proposes a systematic design of a digit-serial-in-serial-out systolic multiplier for the efficient implementation of the Montgomery algorithm in an RSA cryptosystem. For processing speed, the proposed multiplier can also accommodate bit-level pipelining, thereby achieving sample speeds comparable to bit-parallel multipliers with a lower area. If the appropriate digit-size is chosen, the proposed architecture can meet the throughput requirement of a specific application with minimum hardware. The new digit-serial systolic multiplier is highly regular, nearest-neighbor connected, and thus well suited for VLSI implementation.  相似文献   

16.
提出了一种基于嵌入式系统的高速、可配置RSA密码协处理器的ASIC设计方案,可实现256bit到2048bit的RSA加密运算。为了提高运算速度,采用改进的高基模乘算法和流水线结构;为了消除协处理器与内存之间的通信速度瓶颈,使用DMA直接访问方式;同时,数据输入输出都使用双口存储体,形成加解密数据流,本文将该加解密协处理器简称为SPU(Streaming Processing Unit)。  相似文献   

17.
This paper presents a new scalable hardware implementing modular multiplication. A high radix Montgomery multiplication algorithm without final subtraction is used to perform this operation. An alternative proof for the final Montgomery multiplication by 1, removing the condition on the modulus, is given. This hardware fits in any chip area and is able to work with any size of modulus. Unlike other scalable designs only one cell is used. This cell contains standard and well optimized digit multiplier and adder. Time–area trade-offs are also available before hardware synthesis for differents sizes of internal data path. The pipeline architecture of the multiplier component increases the clock frequency and the throughput. Time–area trade-offs are analyzed in order to make the best choice for given time and area constraints. This architecture seems to provide a better time–area compromise than previous scalable hardware.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号