共查询到20条相似文献,搜索用时 15 毫秒
1.
文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法.其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和.通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性. 相似文献
2.
传统的K-means算法虽然具有很多优点,但聚类准则函数对簇密度不均的数据集分类效果较差.文中在加权标准差准则函数的基础之上,增加了收敛性判定,并在Hadoop平台上提出了一种基于MapReduce编程思想设计与优化的K-means并行算法.与传统的K-means算法相比,设计的并行算法在聚类结果的准确性、加速比、扩展性、收敛性等方面都有显著的提高,降低了因簇密度不均引起误分的概率,提高了算法的聚类精度,并且数据规模越大、节点越多,优化的效果就越明显. 相似文献
3.
针对当前数据规模不断增大,单机的数据挖掘运行效率低下的问题,本文采用Hadoop 平台对聚类K-means 算法进行研究以解决此类问题。首先对Hadoop 平台的架构和搭建进行了详细描述;其次详细分析了K-means 算法;最后给出了算法实现,并对算法进行了实验分析。 相似文献
4.
为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。 相似文献
5.
Hadoop平台上Apriori算法并行化研究与实现 总被引:1,自引:0,他引:1
分析传统串行关联规则Apriori算法的计算过程以及存在的一些缺点,针对串行算法执行效率低,时间复杂度高以及传统并行计算模式不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop平台实现并行关联规则算法的设计方法,对传统关联规则Apriori算法进行了改进,并给出改进算法在Hadoop平台的MapReduce编程模型上的执行流程;在Hadoop平台上对改进后的算法进行单机测试和集群测试,实验结果证明,改进后的算法具有较高的执行效率,良好的加速比和可移植性。 相似文献
6.
基于云计算的并行K-means聚类算法研究 总被引:2,自引:0,他引:2
目前数据呈爆炸式增长,海量存储状态,给聚类研究带来了诸如计算复杂性和计算能力不足都很多问题;而云计算平台通过负载均衡,动态配置大量的虚拟计算资源,有效地突破了耗时耗能的瓶颈,在海量数据挖掘中体现出了其独特的优势;文章深入研究了基于云计算平台Hadoop的并行K-means算法,并结合MapReduce分布式计算模型,给出了算法设计的方法和策略,包括MapReduce处理的map、shuffle和Reduce 3个过程,仿真结果表明K-means并行算法的效率较高。 相似文献
7.
樊超 《电子制作.电脑维护与应用》2013,(13):56
Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序。文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引。在hadoop环境中构建文本索引,能够为搜索引擎和文档全文索引提供支持,并且同时兼顾了分布式系统的优点。在Hadoop环境中构建本索引的主要价值有:在分布式平台Hadoop建立倒排索引可以提高建立索引的速度,能够方便的存储大数据量,有着良好的扩展性以便实现在大规模系统中等优点。 相似文献
8.
9.
随着计算机技术的不断发展,云计算这种商业计算模型慢慢地形成,也开始逐步地运用到日常生活、工作以及消费中。云计算的应用降低了计算机技术的运用成本,扩展性强的特性使得云计算可以渗入到各行各业,但是随之产生的数据安全、个人隐私等问题也越来越引发消费者的担忧。研究发现通过选种和筛选系统与Apache Hadoop项目结合搭建的无加密模式的云计算平台可以很好地解决这些问题,文中把这种平台所采用的编程模型叫做Chaffing and WinnowingModel,简称C-W-M,C-W-M通过将数据分类筛选,分布式归档存储备份,可以保证数据的相对安全性。相信通过这种编程模型构建的云计算平台必定会成为云计算的一种主流,也能够更好地为行业服务,被行业所接受。 相似文献
10.
11.
12.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。 相似文献
13.
14.
对教学反思内容的准确评估是教师基于教学反思过程提升其专业能力的重要保障。基于改进的K-Means算法对相同主题的教学反思文本进行聚类,通过给定初始聚类中心K的取值范围使其可以在给定范围内自动增加,在聚类过程中加入相似度阈值以限定文本间相似度的取值范围,实现对教学反思文本的分类和对自我反思文本的定位。实验结果表明改进的K-Means算法在反思文本聚类的准确率和稳定性方面比传统算法有所提高,且能根据教学反思内容准确地进行自动分类。 相似文献
15.
以2006-2011年我国A股10331个观察样本为研究对象,分别从盈利能力、偿债能力、成长能力和运营能力4个方面反映企业绩效,采用数据挖掘技术构建上市公司绩效评价模型。在对我国上市公司绩效的发展现状分析时发现,我国上市公司绩效呈现了N型的趋势。本研究丰富了上市公司绩效评价方法,拓展了上市公司绩效研究的外延,分析了我国上市公司绩效的现状,希望能对后续研究有所启示。 相似文献
16.
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。 相似文献
17.
18.
为了提高对医院监护中心历史数据的管理水平,为监护人员提供有力的决策支持,提出了一种针对该系统的改进Apriori算法。该算法引入了属性值度的概念,减少了找出频繁项集所需要的时间,也减少了扫描数据库的次数。为了验证改进Apriori算法的正确性、有效性和快速性,本文将改进的Apriori算法与传统的Apriori算法分别应用到医院监护中心系统中去,并对两种算法的效率进行了比较,结果表明,改进Apriori算法能够得到所需要的强关联规则,并在效率上有显著的提高,为监护人员更好控制患者的病情提供了很好地决策支持。 相似文献
19.