首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
具有高通量特征的大数据应用已成为目前数据中心的主流应用,这些应用在传统处理器平台上的运行效率不高,原因之一是任务调度的低效。针对高通量应用的一些典型特征以及现有任务窃取算法的不足,该文提出一种程序行为和环境感知的任务调度机制,通过软硬件结合实现了处理器核的分区管理和任务的分级调度,减小了不同应用之间因争用共享资源对性能产生的不利影响,同时利用线程相似度高的特点提高指令缓存的命中率,从而提升系统的整体吞吐率。初步的模拟评估表明:该算法在混合负载情况下性能明显优于现有算法的,在测试的混合负载中平均优于现有算法20%。  相似文献   

2.
针对传统的并行哈希划分算法不能高效地利用多核处理器的并行资源,且不能较好处理有倾斜的输入数据的问题,提出了一种在多核处理器中基于MapReduce的哈希划分算法,并且提出了存储结构优化、多步划分优化、数据倾斜优化3种优化策略。该算法将输入数据分成若干块后提交给各个线程并行处理,并选择合适的策略避免写冲突,使其能够高效地利用多核处理器的并行资源。文中提出的哈希表能够提高cache效率,从而提升算法的整体性能。引入MapReduce模型可使多步哈希划分在Map过程和Reduce过程中分别进行;数据倾斜优化策略能使算法适应有倾斜的输入数据,且具有较好的效果。实验结果表明:在多核处理器中,文中提出的算法能够适应各种分布的输入数据,并且使哈希划分的整体性能得到提升。  相似文献   

3.
在网络处理器中存在的不同类型的处理引擎构成了一个异构计算环境.本文分析了如何将应用程序分解成不同的任务,以及如何将这些任务分配给不同的计算资源来处理的问题,这是网络处理器领域中最重要、最基本的问题.  相似文献   

4.
针对传统任务模型包含有效信息少,任务调度算法效率低、效果差的问题,设计了新的任务模型,提出了一种改进的粒子群算法(optimized particle swarm optimization,oPSO)。新模型增加了对任务类型及任务间迁移成本、计算单元类型及其运行成本等特性的描述。通过分析任务调度问题的需求,制定了oPSO算法的编解码方案,设定了算法各个关键部分参数及计算方法,并解决了粒子群算法(PSO)在任务调度前期收敛速度过快、后期易陷入局部最优的问题。在不同任务规模下分别对遗传算法(GA)、PSO以及oPSO算法进行调度仿真对比,当IP核数目为100左右时,oPSO算法较GA算法和PSO算法运行时间至少缩短10%,系统功耗至少降低15%,实验结果表明:oPSO算法调度效果明显优于其他算法,且各节点上功耗更为均衡,适用于解决任务调度问题。  相似文献   

5.
基于片上网络(Network-on-Chip,NoC)技术的众核处理器正成为当前高性能处理器的设计焦点.传统的调试系统结构不能很好地应用于众核处理器体系结构,众核处理器中踪迹数据传输、调试事件传播、时间戳同步等方面均面临重大挑战.为解决上述问题,提出一种具有高带宽、低资源消耗的独立调试系统设计方法.该方法通过减少长互连线,提高了调试通道工作频率,以较少的互连线即可实现高带宽传输通道;同时调试组件采用分布式的对称结构,具有良好的可扩展性.在踪迹数据传输结构中,提出了一种带宽平衡的非侵入式踪迹数据导出方法,该方法通过软硬协同方式来配置踪迹通道仲裁的权重值,降低硬件复杂度.在调试事件的传播上,构建了与片上网络拓扑一致的事件传播网络,该网络在易于物理实现的同时具有事件传播延迟低的特点.在时间戳的同步方法上,提出了一种通过软硬件协同的时间同步方式,以很小的硬件代价实现了较精确的时间戳同步.  相似文献   

6.
张戈  胡伟武  黄琨  曾洪博  王君 《自然科学进展》2009,19(12):1398-1409
功耗是导致片上多核处理器出现故障的重要诱因,也是片上多核处理器设计的重要制约因素.如何降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间.文中主要从体系结构设计者的角度,并结合电路实现,研究并总结纳米级工艺下片上多核处理器的功耗建模与评估方法,及其不同构件的低功耗优化技术.通过提出创新高效的多核处理器结构级功耗评估方法及其模拟平台,提高多核结构功耗模拟的准确性与灵活性,并以此为依托,开展处理器核、片上网络、片上存储及其一致性协议的各方面优化,寻求提高多核处理器功耗有效性的微体系结构,为国产多核处理器的低功耗设计提供一定借鉴与参考.  相似文献   

7.
针对云渲染系统中由于渲染节点与任务不匹配调度而带来的能耗浪费问题,提出一种通过任务调度方式来优化系统能耗的策略。为了形式化描述系统的整体能耗,综合考虑节点空闲能耗和任务运行能耗,建立渲染任务能耗模型;以降低系统总体能耗为优化目标,根据渲染任务之间无依赖性的特点,将任务调度序列拆分成子序列,利用模拟退火思想,通过优化子序列任务调度提高节点利用率、减少节点空闲能耗,以此降低系统全局任务的能耗;采用矩阵存储子序列任务的能耗,以空间换时间的方式降低策略的时间复杂度。实验结果表明:该策略在多渲染作业环境中能耗优化效果比先进先出算法提升了43.4%,比能耗感知的调度算法提升了6.7%,能够有效降低云渲染系统的总体能耗,同时具有良好的扩展性,使云渲染系统的能耗效率和整体性能得到提升。  相似文献   

8.
提出了一种用于片上核间互连的新型互连网络--基三分层互连网络. 该网络具有明显的层次性和对称性以及良好的扩展性. 与2-D Mesh相比,在网络规模不大时,基三分层互连网络更适用于构建片上核间的通信网络. 仿真结果表明,该网络具有较低的平均通信延迟和较高的平均吞吐率.  相似文献   

9.
在推测多线程并行执行时,各线程中借助共享栈来实现函数调用的过程存在互斥访问问题,为此提出了一种采用片上多处理器(CMP)的推测多线程机制下的独立栈函数调用模型,核栈采用一对一方式,栈之间的有机配合支持推测多线程中的函数调用.通过在模拟器端添加两条指令实现栈空间的管理,从而消除了共享栈模型中的加锁问题.为了保证程序正常运行,编译器对生成的代码作相应的调整,模拟器方面则增添了get和update两条指令,以便管理相应的栈空间.因为独立栈函数调用方法消除了共享栈模型中的栈加锁问题,使得成功线程发起的数目有不同程度的提高,从而提高了程序的并行加速比.Olden基准程序的测试表明,独立栈模型相对于共享栈模型使程序的平均并行加速比提高了3.85%.但是,由于影响程序推测并行加速比的因素复杂,某些测试程序也出现了独立栈的加速比低于共享栈的情况.  相似文献   

10.
摘要:
针对当前工艺条件下多核处理器存在程序并行性不足的问题,设计了一种采用数据驱动机制、支持函数语言风格编程的多核处理器,包括通用处理器核、数据驱动模块和片内路由器.其中:通用处理器核用于执行常规程序;数据驱动模块用于检测数据的完备性;片内路由器则可提供处理器核之间及簇之间的通信.实验结果表明,所设计的多核处理器能够支持C语言“函数式语言”风格的编程模板.每个C代码段执行纯函数的操作,消除了函数间的共享变量,使得并行编程的复杂度有所降低.同时,所采用的数据驱动机制没有执行顺序的严格限制,充分挖掘了算法潜在的并行性.经测试,数据驱动多核处理器的加速比随着计算资源的增加而增大,从而验证了数据流计算机的加速倍数随处理器数目增加而线性增长的结论.
关键词:
数据驱动; 并行编程模型; 数据流机; 多核处理器
中图分类号: TP 338
文献标志码: A  相似文献   

11.
提出了3种高主频多核处理器CSP芯片的功耗优化技术,即电源域间隔关断技术、流量感知的动态频率调节技术和层次式门控时钟技术.结果表明,3种优化技术对降低芯片功耗的作用均非常有效,能够不同程度地降低芯片的总功耗.其中,电源域间隔关断技术能够解决静态漏流功耗,流量感知的动态频率调节技术和层次式门控时钟技术能够控制动态功耗.  相似文献   

12.
众核芯片系统存在吞吐量低、加速比不能与其片内处理核数的增长成线性比例等问题,无法发挥出相应的计算能力,目前的众核微体系结构并不匹配MapReduce运行时. 针对上述问题,为实现高性能众核芯片系统巨大计算和处理能力目标,文中分析了众核MapReduce的执行模型,基于DOT模型构建了众核存储体系,对其中的片上网络、通信模式、访存流程及基于此的MapReduce存储模式进行了设计. 实验数据表明,和Tile结构相比,基于该三维存储体系的众核系统的吞吐量能提高1.2倍,加速比和片内处理核数接近线性关系.   相似文献   

13.
基于高效能大任务和多任务计算需求以及芯片技术的高速发展,多核处理器进入片上众核处理器时代,但如何将这种硬件能力转变成计算性能的提升,充分利用MPSo C的并行计算能力是该领域亟待解决的问题.文中研究设计了面向片上众核处理器的物理核到虚拟核分配算法(VPD),该算法通过识别任务执行时的阶段状态特征,动态重组物理核并配置成与任务计算需求相适应的虚拟核,在满足任务的计算资源需求的条件下,实现虚拟核最优分配.最后通过实验将VPD算法与不同的多核/众核处理器环境下的主流调度算法进行比较,结果表明:该算法可适用于多种环境,且效能比其他同类算法平均高5%~10%.  相似文献   

14.
李燕 《科技信息》2012,(34):454-454
文章从计算机相关技术发展的角度分析了多核处理器的发展历程,根据现今人们对计算机性能、系统优化方面的高要求,分析提出了多核处理器发展的必然趋势。  相似文献   

15.
编译器的性能受机器平台的影响,只有编译器与机器平台相适应配套,才能发挥出极致性能.因此,编译器优化工作显得尤为重要.在传统的编译器优化工作中,常采用的是迭代测试分析方法,但编译器优化Pass繁多,使用此方法致使测试任务量大、分析数据量多、优化工作难.因此,提出一种正确性粗细粒度差异化分析技术,从正确性性能摸索、粗粒度迭代测试以及细粒度核心差异化分析三方面解决编译器优化工作中的困难.最后,通过SPEC CPU2017实验测试,验证了该方法的实用性,为GCC优化提供了正确的优化方向.  相似文献   

16.
以形式化的方法论述了程序数据流分析的基本原理,给出了数据流表达式的概念。并在此概念的基础上,给出了一个找出程序数据流异常的数据流分析算法。本算法通用性强,运用本算法不难开发出相应的程序测试辅助工具,具有一定的实用价值  相似文献   

17.
18.
针对Aurora数据流管理系统中最小代价(MC)和最小延迟(ML)操作符调度算法的不足,提出一种新的综合算法(MCL),运用运筹学多目标思想,通过调整策略转折时机使总体执行代价和平均元组通过延迟达到综合最优,具有更好的服务质量,尤其在后续处理速度慢时,控制两项指标可以节省资源配合后续处理,进而提高整体性能.通过仿真新算法的有效性得到证明.  相似文献   

19.
信息中心网络是下一代网络研究的一个重要组成部分,而缓存作为信息中心网络的核心组成部分在减少网络负载方面得到广泛应用,但现阶段的研究集中于单个自治域内的性能优化,多自治域间的管理与协作方面的研究还不成熟。提出基于域间商业关系的 ICN(information centric networking)缓存策略的设计方案,描述了面向多自治域环境的基于内容提供商、商业关系和二者结合的域间缓存策略及相应的域内缓存决策与替换策略,并进行了形式化表示。  相似文献   

20.
研究并提出了一种基于二维访问机制的数据缓存结构(2D Cache)及其更新管理策略.该缓存结构可以在控制硬件存储开销的同时,有效提升可重构系统的数据访存效率.实验结果表明,仅需4 KB的数据缓存开销,可重构系统的访存性能提升了29.16%~35.65%,并且对于不同标准的媒体处理算法都能获得较好的优化效果,具有很好的适应性.芯片实测结果表明,采用所述数据缓存设计方案的可重构系统可以在200 MHz下满足1080p@30fps的实时解码需求,与国际同类架构相比,性能提高了1.8倍以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号