首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法.其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和.通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性.  相似文献   

2.
传统的K-means算法虽然具有很多优点,但聚类准则函数对簇密度不均的数据集分类效果较差.文中在加权标准差准则函数的基础之上,增加了收敛性判定,并在Hadoop平台上提出了一种基于MapReduce编程思想设计与优化的K-means并行算法.与传统的K-means算法相比,设计的并行算法在聚类结果的准确性、加速比、扩展性、收敛性等方面都有显著的提高,降低了因簇密度不均引起误分的概率,提高了算法的聚类精度,并且数据规模越大、节点越多,优化的效果就越明显.  相似文献   

3.
针对当前数据规模不断增大,单机的数据挖掘运行效率低下的问题,本文采用Hadoop 平台对聚类K-means 算法进行研究以解决此类问题。首先对Hadoop 平台的架构和搭建进行了详细描述;其次详细分析了K-means 算法;最后给出了算法实现,并对算法进行了实验分析。  相似文献   

4.
李四海  满自斌 《微机发展》2013,(6):98-101,105
为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。  相似文献   

5.
Hadoop平台上Apriori算法并行化研究与实现   总被引:1,自引:0,他引:1  
分析传统串行关联规则Apriori算法的计算过程以及存在的一些缺点,针对串行算法执行效率低,时间复杂度高以及传统并行计算模式不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop平台实现并行关联规则算法的设计方法,对传统关联规则Apriori算法进行了改进,并给出改进算法在Hadoop平台的MapReduce编程模型上的执行流程;在Hadoop平台上对改进后的算法进行单机测试和集群测试,实验结果证明,改进后的算法具有较高的执行效率,良好的加速比和可移植性。  相似文献   

6.
基于云计算的并行K-means聚类算法研究   总被引:2,自引:0,他引:2  
目前数据呈爆炸式增长,海量存储状态,给聚类研究带来了诸如计算复杂性和计算能力不足都很多问题;而云计算平台通过负载均衡,动态配置大量的虚拟计算资源,有效地突破了耗时耗能的瓶颈,在海量数据挖掘中体现出了其独特的优势;文章深入研究了基于云计算平台Hadoop的并行K-means算法,并结合MapReduce分布式计算模型,给出了算法设计的方法和策略,包括MapReduce处理的map、shuffle和Reduce 3个过程,仿真结果表明K-means并行算法的效率较高。  相似文献   

7.
Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序。文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引。在hadoop环境中构建文本索引,能够为搜索引擎和文档全文索引提供支持,并且同时兼顾了分布式系统的优点。在Hadoop环境中构建本索引的主要价值有:在分布式平台Hadoop建立倒排索引可以提高建立索引的速度,能够方便的存储大数据量,有着良好的扩展性以便实现在大规模系统中等优点。  相似文献   

8.
在云计算环境中,MapReduce集群已成为强大的大规模数据集处理平台。针对其在任务调度过程中存在用户QoS、集群资源利用率等方面的缺陷,提出了一种基于蚁群优化算法的调度策略(ACO-SS)。该调度策略同时考虑了优先级计算模型和任务调度过程,能有效地满足用户QoS,平衡集群节点负载,使分布在节点上的任务利用资源更加合理,提高了系统的调度性能。最后,通过CloudSim仿真实验表明,该调度策略在作业完成总体时间﹑资源利用率等重要指标上都具有明显优势。  相似文献   

9.
随着计算机技术的不断发展,云计算这种商业计算模型慢慢地形成,也开始逐步地运用到日常生活、工作以及消费中。云计算的应用降低了计算机技术的运用成本,扩展性强的特性使得云计算可以渗入到各行各业,但是随之产生的数据安全、个人隐私等问题也越来越引发消费者的担忧。研究发现通过选种和筛选系统与Apache Hadoop项目结合搭建的无加密模式的云计算平台可以很好地解决这些问题,文中把这种平台所采用的编程模型叫做Chaffing and WinnowingModel,简称C-W-M,C-W-M通过将数据分类筛选,分布式归档存储备份,可以保证数据的相对安全性。相信通过这种编程模型构建的云计算平台必定会成为云计算的一种主流,也能够更好地为行业服务,被行业所接受。  相似文献   

10.
K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一.该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响.针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率.通过实验进行了测试,表明...  相似文献   

11.
案例聚类是按照案例库中案例的相似度进行归类,目的是减少案例推理系统搜索相似案例的时间、提高案例推理系统的性能和降低案例库维护的复杂度。该问题的难度在于案例库的案例规模比较大和不同的聚类算法的选择对于聚类结果的影响。本文在粒子群算法与细菌觅食算法基础上,将两者结合起来,综合两个算法的优点,并将其应用在k-prototypes方法上对案例库中案例进行聚类。与流行的聚类算法进行比较,实验结果显示本文的算法具有更高的效率并且性能相对而言更加优秀。  相似文献   

12.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

13.
随着数据挖掘技术的兴起,为了提高数据挖掘的准确性,提出了很多数据挖掘算法。神经网络与粗糙集理论结合的数据挖掘算法一直是基于粗糙集理论数据挖掘研究的热点之一。文中提出利用RBF神经网络收敛速度快、泛化能力强等优势先对数据进行训练,优化数据后传递给粗糙集进行数据挖掘的新思路。并通过对比与未经过RBF神经网络训练的数据挖掘结果,发现RBF神经网络与粗糙集结合算法挖掘的精度有明显的提高,证明了RBF神经网络与粗糙集理论结合的数据挖掘算法是有效的、可行的。  相似文献   

14.
对教学反思内容的准确评估是教师基于教学反思过程提升其专业能力的重要保障。基于改进的K-Means算法对相同主题的教学反思文本进行聚类,通过给定初始聚类中心K的取值范围使其可以在给定范围内自动增加,在聚类过程中加入相似度阈值以限定文本间相似度的取值范围,实现对教学反思文本的分类和对自我反思文本的定位。实验结果表明改进的K-Means算法在反思文本聚类的准确率和稳定性方面比传统算法有所提高,且能根据教学反思内容准确地进行自动分类。  相似文献   

15.
以2006-2011年我国A股10331个观察样本为研究对象,分别从盈利能力、偿债能力、成长能力和运营能力4个方面反映企业绩效,采用数据挖掘技术构建上市公司绩效评价模型。在对我国上市公司绩效的发展现状分析时发现,我国上市公司绩效呈现了N型的趋势。本研究丰富了上市公司绩效评价方法,拓展了上市公司绩效研究的外延,分析了我国上市公司绩效的现状,希望能对后续研究有所启示。  相似文献   

16.
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。  相似文献   

17.
K调和均值算法(KHM)用数据点与所有聚类中心的距离的调和平均值替代了数据点与聚类中心的最小距离,是一种对初始值不敏感、收敛速度快的有效聚类算法,但它容易陷入局部最小值。而遗传算法具有良好的全局优化能力。文中结合了KHM和遗传算法各自的优点,采用KHM计算每一代种群的聚类中心,并构造适应度函数,通过遗传算法进行一系列择优操作,成功地解决了KHM容易陷入局部最小值的问题。实验结果表明,所提出的算法不仅优化了聚类中心,而且还改善了聚类质量。  相似文献   

18.
为了提高对医院监护中心历史数据的管理水平,为监护人员提供有力的决策支持,提出了一种针对该系统的改进Apriori算法。该算法引入了属性值度的概念,减少了找出频繁项集所需要的时间,也减少了扫描数据库的次数。为了验证改进Apriori算法的正确性、有效性和快速性,本文将改进的Apriori算法与传统的Apriori算法分别应用到医院监护中心系统中去,并对两种算法的效率进行了比较,结果表明,改进Apriori算法能够得到所需要的强关联规则,并在效率上有显著的提高,为监护人员更好控制患者的病情提供了很好地决策支持。  相似文献   

19.
生物免疫系统是一个复杂、并行、鲁棒的自适应系统,以其智能的信息处理能力而逐渐备受关注。为使研究人员能全面了解人工免疫常用算法原理及其应用和免疫系统与其他智能系统的交叉融合研究,以及由此建立的人工免疫系统模型、算法。在简述免疫系统生物学原理的基础上,概括了不同的免疫算法和各自的特性,总结了当前人工免疫系统与人工神经网络、进化算法、模糊系统的集成情况及工程应用现状。最后讨论了人工免疫系统面临的问题及未来发展趋势。  相似文献   

20.
导航图为人群模拟提供了对应的环境信息,为智能体的移动提供了导航基础。其准确与否对模拟结果的正确性至关重要,是反应智能体自主特征与智能行为的关键技术之一。而目前工作主要针对平坦的地面进行导航图的创建,对实际应用有很大的局限性。本文利用种子填充算法蔓延特性和碰撞检测技术,并根据场景的几何属性自动生成复杂地形的三维导航图,解决了起伏地形、复杂场景导航图自动生成困难的问题。所得结果可以利用到实际人群三维模拟或三维游戏开发中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号