共查询到20条相似文献,搜索用时 46 毫秒
1.
基于归一化互相关的图像匹配在导航制导和模式识别中应用广泛,由于计算量大,应用中通常采用硬件实现.对级联乘累加和并发自累加两种典型结构电路的计算时间性能和资源利用率作了对比分析,从而明确了如何根据具体的匹配尺寸择优选取一种电路完成计算,以获得更好的实时性能和更好的资源利用率,最后从数据复用的角度对存储模型作了说明,并给出了计算核的带宽计算方法. 相似文献
2.
3.
4.
5.
设计了一个16位的高性能乘法累加单元,该电路能在单周期同时完成有符号与无符号整数的乘加、乘减运算,并且具有饱和运算功能.乘加单元采用改进的Booth编码乘法;把补码取反后加1的运算作为一个部分积,把累加数作为一个部分积,符号扩展位缩减后得到的补偿值为常数;部分积累加部分采用4-2压缩器;进位传递加法采用Brent-Kung加法,使结构对称紧凑.乘法累加单元采用hhnec 0.25 μm工艺实现,关键路径延时为4 ns. 相似文献
6.
本文提出一种高性能通用DSP扩展寄存器的设计及实现方法,该方法是我国自主研发的高性能通用DSP中实现寄存器堆扩展的一种新方法,其优点是在不影响现有指令集及指令机器码位宽的前提下,实现对处理器内部寄存器堆的成比例扩展。通过在我国自主研制DSP上的实际应用,证明了该扩展方法的有效性和实用性。 相似文献
7.
针对DSP在应用中大量的使用不同精度的小数运算,对数据运算单元进行详细设计.通过对Q15格式小数计算特点的分析,增加多精度累加型数据格式,满足乘累加过程中对于精度的要求.同时,对执行部件的时延进行分析评估后,合理的划分流水线,在满足DSP计算功能的同时,还能够达到较高的工作频率.通过典型的数字信号处理算法核心,对本设计性能进行量化分析.在TSMC 65nm的工艺条件下,其时钟频率达到500MHz. 相似文献
8.
9.
乘累加单元是任何数字信号处理器(DSP)数据通路中的一个关键部分.多年来,硬件工程师们一直倾注于其优化与改进.本文描述了一种速度优化的乘累加单元的设计与实现.本文的乘累加单元是为一种高速VLIW结构的DSP核设计,能够进行16×16 40的无符号和带符号的二进制补码操作.在关键路径延迟上,本文的乘累加单元比其他任何使用相同或不同算数技术实现的乘累加单元都更优.本文的乘累加单元已成功使用于synopsys的工具,并与synopsys的Design Ware库中相同位宽的乘累加单元比较.比较结果表明,本文的乘累加单元比Design Ware库中的任何其他实现都要快,适合于在需要高吞吐率的DSP核中使用.注意:比较是在Design compiler中使用相同属性和开关下进行的. 相似文献
10.
在由高性能数字信号处理器构建的系统中,供电模块的设计是很重要的一个部分。以ADSP-TS101为例,对应用电源芯片TPS54312和TPS54616设计出符合要求的供电模块进行了详细介绍。首先对3种供电方式进行了对比和原理上的介绍,然后介绍了这两款芯片的性能,并详细介绍了如何利用这两款芯片进行原理图的设计以满足功耗、上电次序等设计要求,同时利用TI电源设计辅助软件swift designer进行分析和仿真。经实验,设计完全符合系统供电要求。 相似文献
11.
在实际的高性能定点数字信号处理器(DSP)设计过程中,往往需要设计一个功能复杂的乘累加器。也就是说,乘累加器不光是要同时完成通常所见的带符号数和无符号数的乘加及乘减运算,而且还需要同时完成整数乘加和小数乘加运算,无偏差的舍入运算,饱和等功能。另外,为了解决DSP中数据相关的问题,往往要求乘累加器在单拍完成所有的这些运算,因此很难找到一个高速度低成本的实现方案。文章首先给出了通常的高性能定点DSP中乘累加器所需要完成的功能需求,然后提出并实现了一个16位高性能乘累加器,将其所需要完成的上述各种功能巧妙地整合起来在单拍内完成,而完成所有上述功能只需要3级4:2压缩和一次超前进位的加法运算。该乘累加器采用0.35μm工艺实现,已经嵌入到数字信号处理器中并已经成功应用于实际的工程项目。 相似文献
12.
一种分布式运算实现DCT的新方法 总被引:2,自引:0,他引:2
文章论述了用分布式运算实现DCT的几种设计方法,以及其各自的优缺点。将ROM分解技术应用于基于偏移二进制编码技术的分布式DCT实现,得出了一种分布式运算实现DCT变换的新方法。 相似文献
13.
为了提高高分辨率图像的质量,实现快速的图像增强算法,提出在离散余弦变换(DCT)的对比度测度下,通过DCT矩阵中不同频率的系数关系对DCT系数块进行分类,对不同类型的系数块做不同强度的自适应增强算法,并在FPGA上得到实现。提出的方法在不影响原始图像压缩性能的情况下有效地增强了图像明亮或黑暗区域的细节,同时减少了因图像增强而带来的压缩图像块效应。给出算法原理及在FPGA上的具体实现方法,并给出了实验结果。结果表明,该算法在改善图像主、客观质量方面和运算效率上都能够达到较好的效果。 相似文献
14.
基于NEDA算法的二维DCT硬件加速器的设计实现 总被引:1,自引:1,他引:0
应用二维DCT的图像压缩系统,DCT的运算量较大,为了突破该瓶颈,设计了基于NEDA算法的DCT硬件加速器,该设计方案采用移位相加代替乘法运算,并用RAM代替ROM,有效地节省了硬件资源.给出了Verilog仿真结果,结果表明该加速器可以在使用资源非常少的情况下,正确地实现二维DCT运算,适合于各种视频图像压缩方面的应用. 相似文献
15.
二维DCT算法及其精简的VLSI设计 总被引:1,自引:1,他引:0
采用了快速算法,并通过矩阵的变化,得到了一维离散余弦变换(Discrete Cosine Transform,DCT)的一种快速实现,并由此提出一种精简的超大规模集成电路(Very-large-scale integration,VLSI)设计架构.使用了一维DCT的复用技术,带符号数的乘法器设计等技术,实现了二维DCT算法的精简的VLSI设计.实验结果表明,所设计的二维DCT设计有效,并能够获得非常精简的电路设计. 相似文献
16.
根据AVC/H.264标准中提出的整数离散余弦变换(DCT)及其反变换(iDCT)算法,旨在给出一种能够同时实现4×4,8×8 DCT/IdCT和Hadamard变换的设计方法.设计中充分利用DCT和iDCT的相似性和算法对称性,用高度并行结构来加快处理速度.采用一维DCT/iDCT单元复用的方式实现二维DCT/iDCT运算,同时提出实现设计的全定制实现方法,对全定制实现此设计进行初步布局规划. 相似文献
17.
18.
一种用于实时视频处理的高速二维DCT的电路设计和实现 总被引:2,自引:0,他引:2
绝大多数的国际图像和视频压缩标准都采用DCT(离散余弦变换)进行传输编码。本文介绍了一种基于矩阵分解算法的高速实时二维DCT处理器。为了满足视频处理的实时性,整个电路设计中广泛采用了流水线技术,文中详细介绍了二维DCT处理器的电路结构,最后给出了它的FPGA实现。 相似文献
19.