首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大加快了聚类速度.实验表明该算法在MapReduce框架下有良好的集群加速性能,适合处理大规模的数据集.  相似文献   

2.
为解决现有的分布式聚类算法效率低下和不能保护数据隐私的问题,在K-Dmeans算法的基础上,提出一种新的分布式聚类算法.该算法利用数据对象间的密度函数值来优化站点初始聚类中心,从而大大降低了聚类的迭代次数;同时各从站点只需向主站点传送其聚簇的特征信息,有效降低分布式聚类过程中的通信量,保护了各个站点的独立性,实验结果表...  相似文献   

3.
为了提高网络行为聚类的准确性和有效性,提出了一种用于分析网络行为的改进K均值算法.算法首先计算K类中心的轮廓系数,以及各类数据与类中心的距离,然后自动选取优秀样本,最后求均值作为优化后的初始聚类中心重新进行聚类.在UCI数据集上的实验表明,该算法聚类时间短,提高了聚类的准确性.  相似文献   

4.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.  相似文献   

5.
6.
传统K-means聚类算法的性能依赖于初始聚类中心的选择。本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的个节点作为聚类的初始聚类中心,然后进行聚类迭代过程。实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量。  相似文献   

7.
线损率是反映线损管理的重要依据,由于其理论计算的复杂性,一直倍受电力工作者的广泛关注.基于国内外线损管理研究现状以及相关理论计算方法,提出一种基于K-means聚类算法的多元线性回归模型预测台区线损率方法.首先,利用K-means聚类算法对台区样本数据聚类分析,根据聚类结果建立线性回归预测模型计算台区线损率.然后,通过预测线损率与实际线损率比较分析,对线损估计误差较大的台区重点关注.最后,以贵州部分地区的台区样本数据为依据,验证所提方法的准确性与快速性,为贵州地区的线损管理提供理论依据.  相似文献   

8.
面对海量的刷卡交易数据,普通的聚类算法和自然语言处理无法完成数据挖掘任务。本研究将MapReduce与K-means、FCM及HanLP算法相结合,不仅提高了海量数据聚类和语句分析的效率,而且可以挖掘出海量用户的刷卡行为特点,丰富和完善了客户画像。经过实验测试,基于MapReduce的聚类和自然语言分析算法运行在Hadoop集群下,不仅快速地实现了客户画像,帮助企业实现精准推销,而且为大数据环境下实现数据挖掘及自然语言分析算法的分布式并行运算提供了重要的参考和应用价值。  相似文献   

9.
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了 k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中.实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性.  相似文献   

10.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

11.
在基于高斯混合模型(GMM)的声纹识别算法中,K-means聚类算法是GMM模型参数初始化常用的方法之一。传统K-means算法在聚类过程中采用几何距离进行分类,忽略了类中各矢量的分布不同对聚类结果的影响,常常得不到令人满意的识别结果。文中对传统K-means算法进行了改进,并将改进后的K-means算法与GMM结合应用到声纹识别系统中。实验结果表明,改进的K-means算法与传统的算法相比具有更好的识别效果。  相似文献   

12.
13.
针对传统K-means算法聚类结果受初始值影响、迭代次数多和易出现局部最优解的弊端,研究改变初始值的选择,并采用三角形三边关系定律减少迭代次数对算法作进一步改善.通过数据对比了传统算法与改进算法,结果表明改进算法有较高的准确率.最后,通过实例为电厂的煤种选择提供了参考.  相似文献   

14.
Anomaly detection and recognition are of prime importance in process industries. Faults are usually rare, and, therefore, predicting them is difficult. In this paper, a new greedy initialization method for the K-means algorithm is proposed to improve traditional K-means clustering techniques. The new initialization method tries to choose suitable initial points, which are well separated and have the potential to form high-quality clusters. Based on the clustering result of historical disqualification product data in manufacturing process which generated by the Improved-K-means algorithm, a prediction model which is used to detect and recognize the abnormal trend of the quality problems is constructed. This simple and robust alarm-system architecture for predicting incoming faults realizes the transition of quality problems from diagnosis afterward to prevention beforehand indeed. In the end, the alarm model was applied for prediction and avoidance of gear-wheel assembly faults at a gear-plant.  相似文献   

15.
Anomaly detection and recognition are of prime importance in process industries.Faults are usually rare,and, therefore,predicting them is difficult.In this paper,a new greedy initialization method for the K-means algorithm is proposed to improve traditional K-means clustering techniques.The new initialization method tries to choose suitable initial points,which are well separated and have the potential to form high-quality clusters.Based on the clustering result of historical disqualification product data in manufacturing process which generated by the Improved-K-means algorithm,a prediction model which is used to detect and recognize the abnormal trend of the quality problems is constructed.This simple and robust alarm-system architecture for predicting incoming faults realizes the transition of quality problems from diagnosis afterward to prevention beforehand indeed.In the end,the alarm model was applied for prediction and avoidance of gear-wheel assembly faults at a gear-plant.  相似文献   

16.
本文提出一种改进的Gabor小波变换方法——Sobel-Gabor人脸识别算法.人脸图片经过裁剪、对齐等预处理之后,先利用Sobel算子提取其梯度图,然后做Gabor小波变换得到表征人脸分类信息的特征矢量.利用卡方距离来计算矢量之间的不相似性,并采用最近邻分类器进行最终的分类判决.实验结果表明,同基于Gabor小波变换...  相似文献   

17.
移动互联网时代,网络信息的优化处理需求突出。论述了酒店信息特点及其预处理方法。在正常状态以及屏幕滑动2种情况下,构建了基于改进的 K-means酒店信息聚类算法。实验结果表明,改进的K-means聚类算法能够优化移动平台下酒店预订信息处理过程,其数据运算效率和用户体验有显著提升。  相似文献   

18.
针对学术期刊运行与管理中对审稿专家缺乏准确评价依据的问题,结合评价分析的需求和K-means聚类算法特点,提出了一种基于改进的K-means聚类算法的审稿专家分类评价方法,该方法通过研究初始聚类中心的选择和评价标准的量化、聚类维度的选择和分类值大小的合理选择等问题,较为准确地解决了审稿专家的分类问题。经实例分析验证,该方法得到的结果是合理的,并具有很强的可操作性,为建立科学的审稿专家库和准确高质量地送审提供了科学的依据。  相似文献   

19.
基于K-means聚类算法的分析及应用   总被引:7,自引:0,他引:7  
聚类分析能作为一个独立的工具来获得数据分布的情况,观察每一个簇的特点,集中对特定的某些簇作进一步的分析;本文主要介绍了传统聚类算法及其局限性,然后对直接K-means算法进行分析改进,着重分析了该算法的思想体系以及它的优缺点,针对它的缺点之一提出了一种基于距离的改进策略,并将该改进策略应用到对学生成绩的分析中,实验目的是应用该算法将学生划分为合理的簇(或类)以及对聚类结果进行分析,总之实验表明了该算法的灵活性以及在此应用中的适用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号