排序方式: 共有2条查询结果,搜索用时 15 毫秒
1
1.
卷积运算是现代卷积神经网络中必不可少的组成部分,同时也是最耗时的.为了解决卷积算子的性能问题,包括快速傅里叶变换(Fast Fourier Transform,FFT)和Winograd在内的快速卷积算法被提出. Winograd卷积可被用于提高小卷积核的推理性能,是目前卷积神经网络中的主流实现方法 .然而,Winograd卷积在许多高度优化的深度神经网络库和深度学习编译器中的实现比较低效.由于Winograd卷积的四个阶段的复杂数据依赖关系,面向GPU对其进行优化非常具有挑战性.本文针对现代GPU体系结构优化了Winograd卷积算子的性能.本文提出了Winograd计算阶段的等价变化及其利用Tensor Core进行计算的无同步实现,并进一步提出了利用不同GPU内存层级的部分计算核融合方法 PKF(Partial Kernel Fusion).基于张量虚拟机(Tensor Virtual Machine,TVM)和代码重构器PKF-Reconstructor(Partial Kernel Fusion Reconstructor),实现了高性能的Winograd卷积.对真实应用中卷... 相似文献
2.
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用.卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分.近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法.其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选.但目前相关工... 相似文献
1