排序方式: 共有17条查询结果,搜索用时 15 毫秒
1.
推测多线程(speculative multithreading,简称SpMT)技术是一种实现非规则程序自动并行化的有效途径.然而,基于控制流图和分支预测技术的线程划分方法,不可避免地会受到划分路径上所存在的控制依赖和数据依赖的制约.目前,在传统的线程划分算法中存在的一个重要问题是,在对划分路径进行选取时只考虑了控制依赖影响却不能有效地综合考虑数据依赖的影响,进而导致不能选取最佳的划分路径.因此,针对传统方法中这种依赖评估方法效率低下的问题,设计并实现了一种基于路径优化的线程划分算法.该算法通过引入基于程序切片技术的预计算方法,建立一种路径评估方法来评估程序间的控制和数据依赖.同时,引入控制线程体大小的启发式规则,以便有效地解决负载不平衡的问题.基于Olden测试集的测试结果表明,所提出的算法可以有效地对非规则程序进行划分,其平均加速比可以达到1.83. 相似文献
2.
图计算中数据的压缩格式是图算法访存效率和性能的关键影响因素之一.基于此,针对中心性算法如何根据性能需求选择合适的压缩格式来提升图计算系统性能的问题,采用Skylake Xeon(R)Platinum 8164处理器上的硬件性能计数器对不同数据集的坐标表示、压缩稀疏列、压缩稀疏行、双压缩稀疏列和独立稀疏列压缩的5种压缩格... 相似文献
3.
在对程序进行并行化时,为了保证结果的正确性,并行编译器只能采取一种保守的策略,也就是,如果它不能确定两段代码在并行执行时是否会发生冲突,它就不允许这两段代码并行执行.虽然这种做法保证了正确性,但同时也限制了对并行性的开发.在这种背景下,许多推测多线程方法被提了出来,这些方法通过允许可能冲突的代码段并行执行来把握更多的并行机会,同时,通过从冲突中恢复来保证结果的正确性.然而,传统推测多线程方法所使用的“沿控制流将串行程序划分为多个线程”的做法并不适合不同数据结构上的操作在控制流中相互交错的情况,因为如果沿控制流将程序线性地划分为多个线程,则同一个数据结构上的操作将被分到不同的线程中,从而非常容易发生冲突.为了有效地对这些程序进行并行化,提出了一种基于数据结构的线程划分方法与执行模型.在这种方法中,程序中的对象被划分成多个组,同一组中对象上的操作被分派到同一个线程中去执行,从而降低了在同一个数据结构上发生冲突的可能性. 相似文献
4.
针对传统农产品价格预测模型在大数据场景下无法快速准确对苹果市场价格进行预测的问题,提出一种基于分布式神经网络的苹果价格预测方法。首先,研究影响苹果市场价格的相关因素,选取苹果历史价格、替代品历史价格、居民消费水平和原油价格四个特征作为神经网络模型的输入;然后,构建蕴含价格波动规律的分布式神经网络模型,实现对苹果市场价格的短期预测。实验结果显示,基于分布式神经网络的苹果市场价格短期预测模型具有较高的预测精度,平均相对误差仅为0.50%,满足苹果市场价格预测的要求。实验结果表明,分布式神经网络模型能够通过自学习特性揭示出苹果市场价格的波动规律和发展趋势,所提方法能为稳定苹果市场秩序和市场价格宏观调控提供科学依据,有助于降低价格波动带来的危害,帮助果农规避市场风险。 相似文献
5.
6.
针对H.266/VVC视频编码标准下的上下文自适应二进制算术编码器编码速度慢、资源开销大的问题,面向可重构结构依据算法的内在并行特性优化了编码架构,并基于动态可重构阵列处理器设计实现了CABAC编码器常规编码模式下的并行映射方法,阵列结构能够根据编码输入对优化后的算法进行动态重构,在避免专用硬件编码器较高的资源开销情况下利用软件重构的方法实现熵编码过程,保证编码准确性的同时提高了视频数据流编码效率,为此类运算密集型算法的硬件实现提供了更为灵活高效的参考途径。仿真结果表明,映射实现的编码过程中每个编码周期完成5个二进制序列的编码,平均编码效率达到384.13Mbin/s。基于FPGA的测试结果表明,软件重构方法与专用硬件实现的编码器相比,资源开销降低且编码效率提升5.47%,与同类型可重构视频编码结构相比,编码效率提升7.03%。 相似文献
7.
如何才能创造出一个成功的设计方案,赢得客户的满意,最终使设计方案在当前激烈的市场竞争中脱颖而出,这是每个从事装饰设计工作的人员必须面临的问题,笔者近几年从事室内装饰设计,总结了一些经验供读者参考。 相似文献
8.
针对卷积神经网络(CNN)在异构平台执行推理时存在硬件资源利用率低、延迟高等问题,提出一种CNN推理模型自适应划分和调度方法。首先,通过遍历计算图提取CNN的关键算子完成模型的自适应划分,增强调度策略灵活性;然后,基于性能实测与关键路径-贪婪搜索算法,在CPU-GPU异构平台上根据子模型运行特征选取最优运行负载,提高子模型推理速度;最后利用张量虚拟机(TVM)中跨设备调度机制,配置子模型的依赖关系与运行负载,实现模型推理的自适应调度,降低设备间通信延迟。实验结果表明,与TVM算子优化方法在GPU和CPU上的推理速度相比,所提方法在模型推理准确度无损前提下,推理速度提升了5.88%~19.05%和45.45%~311.46%。 相似文献
9.
忆阻器(Memristor)或者阻变存储器(ReRAM)是一种具有存储和计算功能的新型非易失性存储器(NVM),可以用作存算一体(PIM)的非冯·诺依曼计算机体系架构的基础器件。针对可重构阵列处理器数据计算速度和存储速度不匹配的问题,该文采用电压阈值自适应忆阻器(VTEAM)模型,经过凌力尔特通用模拟电路仿真器(LTSPICE)仿真验证,可以实现布尔逻辑完备集。在此基础上,设计了一种1T1M忆阻器交叉阵列,具有结构简单、可重构性和高并行性的特点,利用蒙特卡罗(MC)法进行容差分析,计算精度达到0.998。该阵列与现有的先进阵列相比,能有效提升芯片的性能,降低处理延迟与能耗,可以与可重构阵列处理器结合以应对“存储墙”问题。 相似文献
10.