首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 97 毫秒
1.
<正>本文设计了一种对K-means初始化改进的Canopy+Kmeans++聚类方法,提高上轨迹聚类算法的效率,为进一步提升轨迹大数据聚类的迭代计算效率,本文利用Spark计算架构的可伸缩性和分布式等特,实现Canopy+Kmeans++轨迹聚类算法的并行化,并通过对比实验来证明该并行化聚类方案的有效性。  相似文献   

2.
针对微博数据文本内容短小、特征词稀疏以及规模庞大的特点,提出了一种基于MapReduce编程模型的发现微博热点话题的方法。该方法首先利用隐主题分析技术解决了微博内容短小、特征词稀疏的问题,然后利用CURE算法缓解了Kmeans算法对初始点敏感的问题,最后采用基于MapReduce编程模型Kmeans聚类算法,对海量微博短文本数据进行快速聚类。实验结果表明该方法可以有效提高微博热点话题发现的效率。  相似文献   

3.
设计并实现了一个基于MapReduce的网络舆情分析系统。系统采用HDFS和HBase双存储机制存储数据。通过实验分析与效果比对,选用MMSeg4j为系统进行中文分词。改进了Canopy—Kmeans算法实现文本自动聚类,提高了系统的聚类准确度及效率。目前,该系统已应用于某部队舆情分析系统中,能够实时发现热点话题、准确把握舆情趋势,为应对舆论危机、制定舆论政策提供了科学系统的信息支持。  相似文献   

4.
文中提出以云计算为基础的交通状态识别方法,将经典的聚类算法通过MapReduce编程模式并行化以后,通过Hadoop平台强大的并行任务执行效果,实时监测道路的交通状态。并且改进了K-means聚类算法与模糊C均值聚类算法,用Canopy算法产生初始聚类中心,有效解决了K均值聚类和模糊C均值聚类两种算法会随机产生初始聚类中心的盲目性缺点。然后对比分析了两种改进后的聚类算法应用于交通状态识别中,选择具有更高准确率的识别方法作为最佳选择。  相似文献   

5.
《信息技术》2016,(11):201-205
针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。  相似文献   

6.
针对K-medoids算法中初始聚类中心的结点的选取的随机性导致影响聚类结果质量的问题,采用标签共现原则对该算法进行改进.根据标签共现频率和相似度先对标签进行聚类,根据标签聚类结果,选取K个由其代表的资源作为聚类初始中心结点.通过聚类中心的优化设置,降低了抽样选取的随机性.最后采用MapReduce框架对其进行并行化,以豆瓣图书的标签数据为应用背景进行实验,验证了算法的实用性.  相似文献   

7.
传统的减法聚类算法时间复杂度高,算法不具有分布式特性,不满足大数据处理的要求.提出一种基于Hadoop的改进减法聚类算法,利用MapReduce模型改进减法聚类执行过程,实现求解邻域半径、初始化密度指标、更新密度指标和划分数据记录等过程的并行化.实验结果表明,同传统的串行算法相比,提出的算法能够对大数据进行快速聚类,同时表现出良好的稳定性与扩展性.  相似文献   

8.
李洪成  吴晓平  严博 《通信学报》2015,36(11):167-173
针对移动自组网(MANET,mobile ad hoc networks)入侵检测过程中的攻击类型多样性和监测数据海量性问题,提出了一种基于改进k-means算法的MANET异常检测方法。通过引入划分贡献度的概念,可合理地计算各维特征在检测中占有的权重,并将遗传算法与快速聚类检测算法k-means相结合,解决了聚类检测结果容易陷入局部最优的问题,进而,提出了以上检测算法在MapReduce框架下的设计方案,利用种群迁移策略在分布式处理器上实现了并行聚类检测。实验结果证明了该方法的检测准确率和运行效率均优于传统聚类检测方法。  相似文献   

9.
杨志立  张东 《半导体光电》2022,43(3):585-591
超像素分割作为目标分割的预处理环节,能够极大地减少后续处理的数据量,对图像分割起着至关重要的作用。在大部分超像素生成算法中,初始种子点的选取都是以规则网格或随机确定,这容易导致欠分割。为了得到良好的初始种子点分布,减少种子点选取引起的欠分割,提出了一种基于Kmeans++的自适应确定超像素种子点方法,并由此改进了简单非迭代聚类算法(Simple Non-Iterative Clustering,SNIC)。实验结果表明,在不耗费大量计算成本的前提下,改进的SNIC算法相比传统算法能够得到更高的边界召回率和更低的欠分割错误率。  相似文献   

10.
《现代电子技术》2018,(5):56-60
为了提高传统数据聚类算法在大数据挖掘应用中的性能,借助云计算的相关技术,并结合非负矩阵分解方法设计并实现了一种并行的数据层次聚类算法。该算法采用Map Reduce编程平台,利用Hadoop的HDFS存储大容量的电信运营商数据;描述了Map Reduce的数据分级聚类并行处理的工作机制与流程;通过Map和Reduce这种主-从编程模式很方便地使数据分级聚类的子任务在Hadoop的PC集群上运行。实验结果表明,该方法比传统用于数据聚类的非负矩阵方法具有更好的运行时间与加速比,能够在可以接受的时间范围内完成电信运营商的大数据处理。  相似文献   

11.
MapReduce模型的调度及容错机制研究   总被引:1,自引:0,他引:1  
MapReduce是一种并行编程模型,可以用来处理和生成大量数据集。它的调度以及容错机制是模型的重要一部分。通过对MapReduce模型的执行过程进行分析,提取得到其上面的调度以及容错模型。并将P2P模型中常用的调度思想使用于MapReduce调度模型上,对原来的调度机制和容错机制做一定的修改。  相似文献   

12.
MapReduce是由并行编程模型及相关支撑系统组成的数据处理框架,通过定义接口和运行时支持库,通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,通过隐藏底层实现细节,降低实现并行编程的难度,Hadoop是目前MapReduce框架最流行的开源实现.文章首先介绍了MapReduce并行编程模型及其hadoop的运行原理、运行机制,深入研究了MapReduce计算任务在Hadoop系统中的运行过程.  相似文献   

13.
综合分析了数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率.分析结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法.  相似文献   

14.
MapReduce并行编程模型研究综述   总被引:40,自引:0,他引:40       下载免费PDF全文
李建江  崔健  王聃  严林  黄义双 《电子学报》2011,39(11):2635-2642
 MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成果的特点和不足,重点对MapReduce涉及的关键技术(包括:模型改进、模型针对不同平台的实现、任务调度、负载均衡和容错)的研究现状进行了深入的分析.本文最后还对MapReduce未来的发展趋势进行了展望.  相似文献   

15.
The ability of accurate and scalable mobile device recognition is critically important for mobile network operators and ISPs to understand their customers’ behaviours and enhance their user experience. In this paper, we propose a novel method for mobile device model recognition by using statistical infor-mation derived from large amounts of mobile network traffic data. Specifically, we create a Jaccard-based coefficient measure method to identify a proper keyword representing each mobile device model from massive unstruc-tured textual HTTP access logs. To handle the large amount of traffic data generated from large mobile networks, this method is designed as a set of parallel algorithms, and is imple-mented through the MapReduce framework which is a distributed parallel programming model with proven low-cost and high-efficiency features. Evaluations using real data sets show that our method can accurately recognise mobile client models while meeting the scalability and pro-ducer-independency requirements of large mobile network operators. Results show that a 91.5% accuracy rate is achieved for rec-ognising mobile client models from 2 billion records, which is dramatically higher than existing solutions.  相似文献   

16.
基于FDATool和CCS实现滤波器设计的教学   总被引:2,自引:0,他引:2  
本文探讨了一种采用FDATool设计滤波器,调用TI公司标准数字信号处理算法库函数DSPLIB完成滤波器的DSP实现的教学方法。该方法既有助于学生掌握滤波器的设计技术,又能克服采用传统汇编程序或标准C/C++程序直接编程实现滤波器的不足,还适用于DSP系统工程设计。使用该设计方法能显著提高编程效率,有效缩短DSP开发周期。  相似文献   

17.
MapReduce is a programming framework for distributed systems that is used to automatically parallelize and schedule the tasks to distributed resources. MapReduce is widely used in data centers to process enterprise databases and Big Data. This paper presents a novel MapReduce accelerator platform based on FPGAs that can be used to speedup the processing of the MapReduce data. The proposed platform consists of specialized hardware accelerators for the Map tasks and a shared configurable accelerator for the Reduce tasks. The hardware accelerators for the Map tasks are developed using a modified source-to-source High-level Synthesis (HLS) tool while the Reduce accelerator is based on a novel hashing scheme. The proposed scheme is implemented, mapped and evaluated to a Virtex 7 FGPA. The performance evaluation is based on a benchmark suite that represent typical MapReduce applications and it shows that the proposed scheme can achieve up to 2 orders of magnitude energy reduction compared to General Purpose Processors (GPPs).  相似文献   

18.
以实际算法为例评估MapReduce在石油勘探中的应用   总被引:1,自引:0,他引:1  
石油勘探领域需要处理海量的地震数据,以获取地下构造用以发现和定位油藏。为评估云计算编程模型MapReduce对于石油勘探领域应用算法的适用性,设计并实现了基于MapReduce的三维Fresnel层析成像算法,实验发现MapReduce版本的性能比MPI版本慢3倍,而且对MapReduce作业调优的难度相当大。为了拓展MapReduce在石油勘探领域高性能计算领域的应用,需要在支持线程级并行、灵活性和提升I/O可扩展性3个方面进行改进,并提出了研究方法和技术路线。  相似文献   

19.
白浩泉  姚立红  陆松年 《信息技术》2011,35(4):85-88,92
随着网络攻击以及网络流量的飞速增长,分析入侵检测系统产生的海量报警信息越来越困难。MapReduce是由Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算,提出了一种基于MapReduce并行计算模型的报警聚合算法,用于执行高效的报警归并。最后使用DARPA 2000数据集,验证了本算法可以高效地聚合报警信息,大量减少冗余报警数量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号