首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
MapReduce框架下并行知识约简算法模型研究   总被引:5,自引:0,他引:5  
面向大规模数据进行知识约简是近年来粗糙集理论研究热点。经典的知识约简算法是一次性将小数据集装入单机主存中进行约简,无法处理海量数据。深入剖析了知识约简算法中的可并行性;设计并实现了数据和任务同时并行的Map和Reduce函数,用于计算不同候选属性集导出的等价类和属性重要性;构建了一种MapReduce框架下并行知识约简算法模型,用于计算基于正区域、基于差别矩阵或基于信息熵的知识约简算法的一个约简。在Hadoop平台上进行了相关实验,实验结果表明,该并行知识约简算法模型可以高效地处理海量数据集。  相似文献   

2.
随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等.深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略.在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘.  相似文献   

3.
基于粒计算的决策树并行算法的应用   总被引:1,自引:0,他引:1  
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。  相似文献   

4.
张钧波  李天瑞  潘毅  罗川  滕飞 《软件学报》2015,26(5):1064-1078
日益复杂和动态变化的海量数据处理,是当前人们普遍关注的问题,其核心内容之一是研究如何利用已有的信息实现快速的知识更新.粒计算是近年来新兴的一个研究领域,是信息处理的一种新的概念和计算范式,主要用于描述和处理不确定的、模糊的、不完整的和海量的信息,以及提供一种基于粒与粒间关系的问题求解方法.作为粒计算理论中的一个重要组成部分,粗糙集是一种处理不确定性和不精确性问题的有效数学工具.根据云计算中的并行模型MapReduce,给出了并行计算粗糙集中等价类、决策类和两者之间相关性的算法;然后,设计了用于处理大规模数据的并行粗糙近似集求解算法.为应对动态变化的海量数据,结合MapReduce模型和增量更新方法,根据不同的增量策略,设计了两种并行增量更新粗糙近似集的算法.实验结果表明,该算法可以有效地快速更新知识;而且数据量越大,效果越明显.  相似文献   

5.
随着遥感技术和摄影测绘的发展,遥感影像的分辨率不断提高,数据量日益增长,这对快速、高效地处理海量遥感影像数据提出了更高的要求,如何有效、智能地存储和处理海量遥感数据成为研究的热点。在分析现有金字塔模型的并行构建的基础上,设计一种面向Spark计算框架的影像金字塔模型。模型给出了影像金字塔构建算法及影像数据的分布式存储组织结构,实现了海量遥感影像数据在Spark中的并行处理,为Spark增加了计算处理空间数据格式的能力。实验结果表明,利用该方法能够在Spark云平台上实现快速、高效的解决海量遥感影像金字塔的并行构建,特别是在面对海量遥感影像数据时,无论从金字塔构建性能上还是遥感影像的计算效率上,Spark都更具优势。  相似文献   

6.
一种基于Rough Set的海量数据分割算法   总被引:2,自引:0,他引:2  
处理海量数据一直是数据挖掘要解决的一个重要问题.目前已有许多并行或串行的算法来处理海量数据,然而这些算法通常都不能很好地解决速度和正确率之间的矛盾.分布式运算在处理数据上具有明显优势,因此本文考虑将一个原始的海量数据集分割成许多个独立的小数据集进行分布式处理.本文首先根据Rough Set的特点提出最佳分割的定义,然后提出一种海量数据分割算法来寻找最佳分割.通过实验测试证明结合本文提出的数据分割算法的分布式处理方案能够快速处理海量数据,而且与处理整个数据集的算法相比,正确性较高.  相似文献   

7.
基于云计算平台Hadoop的并行k-means聚类算法设计研究   总被引:2,自引:0,他引:2  
随着数据库技术的发展和Intcrnct的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临 许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算 法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、 扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。  相似文献   

8.
邹裕 《计算机系统应用》2016,25(11):216-220
针对从海量数据中分析与提取知识计算时间高的问题,提出一种基于Hadoop的知识提取算法.本文结合Hadoop的并行处理能力与分布式存储特点,设计了一种知识提取框架,可兼容不同的原型约简方法.基于MapReduce编程方法将约简方法并行化处理,并且设计了分类准确率高、计算速度快的原型约简组合规则.最终基于真实UCI大数据集进行实验,本框架将最近邻分类器的分类时间提高两个数量级.  相似文献   

9.
随着地球空间信息技术的发展,建立具有海量空间数据的大规模虚拟地形场景越来越重要. 然而,面对海量的地形数据,如何简化地形,提升绘制与渲染效率,是地形渲染的关键. 本文对LOD地形渲染技术、大规模数据集的分析与处理、并行计算等相关技术进行了研究,提出了基于LOD的海量地形数据并行渲染技术. 该技术首先使用LOD四叉树简化地形,其次结合多核CPU并行计算的方法提升效率,最后结合大规模数据调度策略,实现了海量地形数据的并行渲染,并分析对比了非并行和并行情况下的实验结果. 本文所取得的理论与技术方面的成果可为大规模场景渲染提供新的技术思路.  相似文献   

10.
决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的ID3决策树算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典ID3决策树生成算法的可并行性进行了深入分析和研究,利用云计算的MapReduce编程技术,提出并实现面向海量数据的ID3决策树并行分类算法。实验结果表明该算法是有效可行的。  相似文献   

11.
Multiple-support seismic analysis of large structures   总被引:14,自引:0,他引:14  
P. L  ger  I. M. Id    P. Paultre 《Computers & Structures》1990,36(6):1153-1158
The effect of the spatial variation of earthquake ground motion on the dynamic response of multiple-support structures may be important. The relative performance of two simple analytical methods to model multiple-support seismic analysis of large structures is investigated. These are the relative motion method (RMM), which divides the structural response into a dynamic response component and a pseudo-static response component, and the large mass method (LMM), which attributes fictitious large mass values at each driven nodal degree of freedom (DOF) to obtain the total response of the structure. The seismic response of a four-span bridge using the traveling wave assumption is used to illustrate the practical application of the methods. It is found that the LMM is able to yield results that are almost identical to those of the RMM using large mass values equal to approximately 107 times the total mass of the bridge. Parametric analyses where the travel wave speed is systematically varied show that the structural response tends to increase as the wave velocity decreases and can become significantly larger than the response obtained from synchronous excitation.  相似文献   

12.
属性约简(特征选择)作为数据预处理的重要环节,大多以属性依赖作为筛选属性子集的标准。设计了一种快速依赖计算方法FDC,通过直接寻找基于相对正域的对象来计算依赖度,而不需要预先求出相对正域,相比传统方法在速度上有明显的性能提升。另外,改进鲸鱼优化算法(WOA)使其能够有效应用于粗糙集属性约简。结合上述两个方法,提出一种基于Spark的分布式粗糙集属性约简算法SP-WOFRST,并在两组人工合成的大数据集上与另一种基于Spark的粗糙集属性约简算法SP-RST进行对比实验。实验结果表明所提出的SP-WOFRST算法在精度和速度上均优于SP-RST。  相似文献   

13.
为了对地震属性原始剖面中的细微构造特征或岩性界面进行较好的分辨和验证,一种改进的希尔伯特黄变换算法被采用.该方法首先对信号进行经验模态分解,对分解分量进行希尔伯特频谱分析.采用了最新的图形处理器(graphical processing unit,GPU)技术,将数据转换到GPU上进行并行处理,极大地提高了处理速度.实验结果表明,与基于CPU的方法相比,该方法计算速度提高了4倍左右.  相似文献   

14.
网格技术可以充分利用广域网中异构的、广泛分布的、时刻变化的动态资源,以达到完全共享和各种资源之间良好的协同工作。通常这样的整合在没有较高的硬件计算性能的前提下,也能利用数量较多、成本较低的单机来实现超级计算机对巨量数据的迅捷计算。利用网格组件将办公室的单机资源充分整合,同时以绘制Mandelbrot集这个可以易并行的实例对网格计算和单机计算的速度进行对比。实验证明,网格计算在解决计算密集型问题比单机更有优势。  相似文献   

15.
逆时偏移(RTM)成像波场逆推具有计算量大和运算速度慢的问题。为此,根据叠前深度RTM算法的特点,运用稳定条件、边界条件、成像条件3个要件并基于消息传递接口,提出全波波动方程叠前深度RTM成像并行算法。与传统柯西霍夫叠前深度偏移算法进行对比的结果表明,该算法能够较好地对地震数据进行偏移成像,成像效果优于传统算法并且并行速度较快。  相似文献   

16.
Urban trunk road system undertakes the main traffic trip, and congestion occurs frequently in rush hours. In order to clearly describe the propagation process of traffic waves in signalized intersections, and then optimize phase difference. This article proposes a kinematic model for the traffic wave based on the physical mechanism of car-following and the kinematic characteristics of the traffic wave propagation. The actual road traffic monitoring data was extracted from the vehicle-infrastructure cooperative system and vehicle internal communication system. Then we obtained the values of the stop-and-start wave velocity. Compared with the measured data, the results showed that the calculation of the wave velocity of the traffic wave model had a relative error of up to 5% vs the measured data, confirming the validity of the model. Through the analysis of the model, we obtained the difference in the effects on traffic wave velocity of the vehicle speed and the space headway. Our findings provide a theoretical basis for coordinated control and management of urban trunk road traffic and phase difference optimization of signalized intersections. Meanwhile, the research results also provide a theoretical basis for alleviating traffic congestion during the rush hour.  相似文献   

17.

With the rapid growth of massive data in the Internet of Multimedia Things, there are some problems of insufficient storage space and unbalanced load in the current methods. For the problem of massive real-time data storage, a distributed cluster storage optimization method is proposed. Considering the impact of replica cost and the generation of intermediate data on the replica layout, a replica generation and storage strategy is given with consideration of cost and storage space. In the data center, the data sensitivity and data access frequency is used as migration factors to achieve massive data migration. The improved collaborative evolution method is used to code the task scheduling particle swarm in massive data storage to obtain the optimal solution, and achieve massive real-time data distributed cluster storage for the Internet of things. The experimental results showed that the cost of data management by this method was only between 10 and 15, which showed that this method can effectively improve data access speed, reduce storage space, lower cost and better load balancing.

  相似文献   

18.
随着下一代测序技术的到来,单机版Last比对软件已经不能满足海量数据的处理需求。使用Hadoop Streaming技术将Last比对软件快速部署到云计算环境中,解决当前单机版Last比对软件处理大数据能力差的问题。通过自定义的基于NFS 文件系统的数据集切分方法和基于Partitioner的任务分配方式能够实现均衡高效的数据切分,并保证并行化粒度可控。实验结果表明,在保证与单机运行结果一致的情况下,这种方法能有效缩减软件运行时间,具有较高的加速比。  相似文献   

19.
针对DTC-150防爆地质超前探测仪在工程应用中存在的解释成果误差较大的问题,提出了研制一种新型矿井多波多分量地震反射法观测系统的必要性;分析了煤岩有效地震波频率特性,提出新型矿井多波多分量地震反射法观测系统的有效布设方式为震源置于掘进面远端,采用一炮多收制;介绍了该系统中高速高精度多通道数据采集模块的电路设计;给出了该系统为消除掘进面绕射回波干扰和放炮形成的巷道声波干扰的处理方法。该系统已研制成功,实验结果表明,其本底噪声小,且具有较高的可靠性和稳定性。  相似文献   

20.
Qualitative aspects of parametric excitation due to the non-constant traveling velocity of a viscoelastic string are investigated. The problem considered is an initially stressed viscoelastic string subjected to steady-state and harmonic variation of axially traveling motion. The string material is considered as a Violet element in series with a spring (three-parameter model). The partial differential equation of motion is derived first, and then is reduced to be a set of third-order nonlinear ordinary differential equations by applying Galerkin's method. Finally, the effects of elastic and viscoelastic parameters, constant and non-uniform transport speed, wave propagation speed ratio, and nonlinear terms on the transient amplitudes are investigated numerically.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号