首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对日益严峻的大数据处理时间长、执行速率低等问题,通过深入分析,提出了一种提高大规模数据聚类效率的方法。以K-均值聚类算法为原型,利用Map Reduce模型在大规模数据处理方面的优势,对原有算法进行并行化改进,设计出一种基于Hadoop分布式云平台的K-均值聚类Map Reduce模型。应用此模型,对淘宝用户仿真数据进行聚类试验,试验结果表明,对K-均值聚类算法的Map Reduce模型实现后,性能优于原算法性能,缩短了聚类时间,提高了聚类效率,特别适于对海量数据进行聚类处理。  相似文献   

2.
针对协同过滤推荐系统存在的数据稀疏性和扩展性差问题,提出了初始聚类中心优化的K-均值项目聚类推荐算法。该算法首先采用SlopeOne方法对评分矩阵预测填充来缓解数据稀疏性,然后采用初始聚类中心优化的K-均值算法对项目进行聚类,将相似度高的项目聚到同一个类中,最后根据目标项目所在的聚类搜索其最近邻并产生推荐。实验结果表明,该算法有效改善了数据的稀疏性和扩展性,提高了推荐质量。  相似文献   

3.
随着互联网的发展,推荐系统在大数据信息处理(如电子商务)中发挥着越来越重要的作用。为了处理推荐系统中的大数据,提出了一种基于云平台k-medoids聚类的协同过滤算法,有效解决了数据的稀疏性问题,提高时间效率的同时也提高了召回率和推荐评分。考虑到聚类会造成准确率的下降,引入关联多叉树模型来关联用户信息与邻居用户信息,从而计算用户-项目扩展评分,充分利用了云平台用户数据间的相关性。在此基础上提出的基于云平台关联聚类的协同过滤算法在保证推荐效果和时间效率的同时,有效提高推荐准确率。采用阿里数据集在Hadoop云平台上进行实验,结果显示基于云平台关联聚类的协同过滤算法在大数据信息推荐方面有更好的推荐效果和推荐效率。  相似文献   

4.
基于特征加权理论的数据聚类算法   总被引:1,自引:0,他引:1  
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值.  相似文献   

5.
针对传统聚类算法难以处理大规模数据和对噪声数据敏感等问题,基于模糊C有序均值聚类算法(FCOM),结合single-pass和online增量架构,分别提出了single-pass模糊C有序均值聚类算法(SPFCOM)和online模糊C有序均值聚类算法(OFCOM).SPFCOM和OFCOM算法首先对FCOM算法加权,然后以数据块为单位对数据集合进行增量式处理.实验结果表明,相较于对比算法,SPFCOM和OFCOM算法在聚类准确率方面得到了提高,还具有更强的鲁棒性.  相似文献   

6.
通过对模糊C-均值聚类算法的研究,用遗传算法的相关知识对其进行优化与改进.并使用著名的IRIS数据集分别对传统的模糊C-均值聚类算法和用遗传算法改进后的模糊C-均值聚类算法进行测试、比较.实验结果表明,用遗传算法改进后的模糊C-均值聚类算法比传统的模糊C-均值聚类算法更加准确、高效.这将为以后的聚类分析研究工作提供一定的帮助.  相似文献   

7.
基于不确定性理论与方法,采用模糊c均值(FCM)聚类算法对历史风速数据进行聚类分析.在此基础上,利用云模型理论将由聚类产生的一系列定量数据集合转化为由3个云模型数字特征值表示的定性概念,建立风速云模型.将历史风速时间序列中的分钟级变化规律以及日变化规律应用到云模型规则发生器中,建立风速预测的组合云模型.误差概率统计发现,该模型24h风速预测绝对误差小于2m/s的概率为97.94%,预测曲线的均方根误差为0.98m/s.将云模型预测值的期望与RBF神经网络预测值对比,预测精度有所提高,预测曲线基本反映出了风速的变化规律,表明基于云模型的预测方法在风速预测方面的可行性.  相似文献   

8.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷, 提出基于进化思想的聚类算法及其类簇融合算法, 该算法将K均值聚类算法嵌入进化聚类算法框架中, 通过调整距离倍参, 将数据逐渐划分, 在此过程中自动确定类簇数目, 提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法, 将相似度大的类簇进行融合, 使得k值逐渐趋向真实值. 实验表明, 该方法具有良好的实用性.  相似文献   

9.
在各种聚类算法中,基于目标函数的K-均值聚类算法应用最为广泛,然而,K-均值算法对初始聚类中心特别敏感,聚类结果易收敛于局部最优。为此,提出基于加权处罚的K-均值优化算法。每次迭代过程中,根据簇的平均误差的大小为簇分配权值,构造加权准则函数,把样本分给加权距离最小的簇中。限制簇集中出现平均误差较大的簇,提高聚类准确率。实验结果表明,该算法与K-均值算法、优化初始聚类中心的K-均值算法相比,在含有噪音的数据集中,表现出更好的抗噪性能,聚类效果更好。  相似文献   

10.
一类基于贝叶斯信息准则的k均值聚类算法   总被引:1,自引:0,他引:1  
典型k-均值算法中的聚类数k必须是事先给定的确定值,然而,实际应用中k很难被精确地确定。同时该算法对初始聚类中心的依赖性而导致聚类结果可能陷入局部极小,使得该算法对一些实际问题无效。采用基于密度聚类算法(DBSCAN),在筛选局部代表点时结合贝叶斯信息准则(BIC),得到少量精准反映局部数据分布的BIC核心点。然后,以BIC核心点为初始聚类中心,BIC核心点数量为类别数,对全局数据进行k-均值聚类。实验结果表明,优化的k-均值算法是一种有效可行的聚类算法。  相似文献   

11.
针对现有的云计算集群资源调度算法具有的负载不均衡和在线动态适应能力不强的缺点,提出了一种基于模糊聚类的云计算动态集群资源调度算法。首先,构建了云计算环境下的资源调度模型。然后采用模糊聚类对云计算集群资源进行聚类,根据节点与所有聚类中心的距离判断是否需要增减聚类数量。当新任务到来时,自动计算其到各个聚类中心的距离,将具有最小聚类距离的聚类中心分配给该任务。在Cloudsim环境下进行仿真试验,结果表明该方法能有效地实现云计算集群资源的动态调度,且较其它方法相比,具有反应实时和负载均衡的优点,是一种适合云计算环境的可行任务调度方法。  相似文献   

12.
次最优概率和集中式MSJPDA算法   总被引:2,自引:0,他引:2  
针对集中式多传感器联合概率数据互联(MSJPDA)并行算法经常出现滤波发散的现象,以及集中式MSJPDA算法实现复杂且运算量大的问题,对并行结构的MSJPDA算法进行了合理的修正,修正后的算法在滤波时运用概率数据互联的思想对各传感器的修正量进行概率加权,将次最优联合概率数据互联算法引入到集中式MSJPDA算法,简化后算法在性能接近的情况下有效地减少了运算量.仿真比较与分析结果表明,本文算法的综合性能更优越.  相似文献   

13.
针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。  相似文献   

14.
WSN中基于FCM算法的多目标跟踪数据融合   总被引:2,自引:0,他引:2  
基于LEACH(低功耗自适应聚类路由算法)路由协议, 研究了多目标跟踪的数据融合方法. 在基于模糊聚类(FCM)算法进行数据融合设计时,发 现算法存在错误跟踪、丢失新目标和重复跟踪的问题. 针对这些问题产生的原因进行了详细 的分析,并提出了改进,使FCM算法更好地应用于传感器网络.  相似文献   

15.
研究了分布式不确定性系统的状态估计。以两部雷达构成的分布式系统为对象,考虑杂波环境、量测噪声和目标不确定性机动下的多目标跟踪。针对其中的两类不确定性问题,提出了机动目标自回归统计模型,并将它与联合概率数据关联相结合,给出了一种新的分布式多目标跟踪算法。仿真结果证明了其快速性和自适应性。  相似文献   

16.
Optimal data association is the main task of multi-target tracking due to the similarity of the tracker’s filtering parts.Traditional Multi-target tracking methods pick up the optimal data association from all possible associations that account for the complexity exponentially increasing with the number of targets and limiting the maximum number of targets which can be stably tracked.This paper proposes an efficient and accurate method where the measurement points raised by targets and clutter are modeled as the Poisson point process and the expectation maximisation algorithm is utilized to estimate the target states recursively.Independent data association and mixing probability decrease the computational complexity.Furthermore,Doppler information refers to the fact that the target feature has been used in association and filtering stage to improve tracking performance without adding complexity.The experiment with simulation data show that the performance of the proposed method is better than that of the traditional method with a shorter operation time.  相似文献   

17.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

18.
针对目前云数据中心的负载均衡调度方案没有研究将不同工作负载的应用程序进行整合的问题,提出了基于异构工作负载的静态和动态负载均衡调度算法。当放置新的虚拟机的时候,通过静态负载均衡调度算法,将虚拟机分配给物理机。云数据中心运行过程中,采用动态负载均衡调度算法将负载高的物理机上的虚拟机迁移到负载低的物理机上。仿真实验结果表明,新的调度方案不仅能够降低云数据中心的不均衡率,而且使节点内的多维度资源得到了合理地利用。  相似文献   

19.
In order to effectively solve the problem that boundary points are deleted directly from unbalanced data and effectively maintain the information on most kinds of data,a clustering-based weighted boundary point integration undersampling algorithm is proposed.First,the algorithm extracts the number of minority class sets as the initial number of clustering centers of majority class sets to cluster.Then,the variation coefficient is introduced to identify the boundary points,and the identified boundary points are weighted so that the weighted boundary points can be added to the unbalanced data processing.Then,the cluster density is used to divide majority class sets into the high-density cluster and low-density cluster,delete the low-density cluster,and finally obtain the reduced majority of the sample sets.Then,the reduced majority of class samples is combined with the minority of class samples to form a balanced data set,which is trained with the Ada boost to get the final classification model.This method can be used to reduce the dataset and improve the efficiency of execution.The results show that the proposed method can effectively handle the problem of unbalanced data,and improve the execution efficiency and accuracy of the under-sampling algorithm for unbalanced data weighted boundary point integration.  相似文献   

20.
模糊C均值(FCM)算法广泛地应用于模式识别、图像分割等领域。根据FCM算法存在对初始解敏感且迭代过程中计算量大的问题,本文提出了一种改进的算法:先通过精简数据集,减少算法迭代的时间;再使用密度函数法得到FCM算法的初始聚类中心,以减少FCM算法收敛所需的迭代次数。实验结果表明,改进后的算法较好地解决了类中心的初值化问题,提高了算法的收敛速度和运行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号