首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
陆林花 《计算机仿真》2009,26(7):122-125,158
为了在聚类数不明确的情况下实现聚类分析,提出一种新的结合最近邻聚类和遗传算法的动态聚类算法.新算法包括两个阶段:第一阶段用最近邻聚类算法根据最近邻方法把最相似的实例分到同一个簇中并根据一些相似性或相异性度量过滤掉噪声数据从而得到初始聚类集,第二阶段是遗传优化阶段,利用动态聚类评估函数,动态地合并初始聚类集,从而获得接近最优的解.最后对算法进行了实验仿真,实验结果表明方法在事先不知道聚类数的情况下能够有效地进行聚类.  相似文献   

2.
《计算机工程》2018,(4):35-40
针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法。通过引入MapReduce并行框架,利用Canopy粗聚类优化计算过程,并对聚簇交叉部分的处理进行改进。采用3组大小不同的数据集进行实验,结果表明,与K-means算法和最近邻优先吸收聚类算法相比,改进算法在保证聚类质量的基础上具有较快的运行速度,并适用于海量数据的聚类分析。  相似文献   

3.
图像聚类通过表征学习对图像数据降维并提取有效特征而后进行聚类分析。当图像数据存在超多类别时,数据分布的复杂性和类簇的密集性严重影响了现有方法的实用性。为此,提出了基于对比学习的超多类深度图像聚类模型,主要分为3个阶段:首先,改进对比学习方法训练特征模型以使类簇分布均匀;其次,基于语义相似性原则多视角挖掘实例语义最近邻信息;最后,将实例及其最近邻作为自监督信息训练聚类模型。根据实验类型的不同,设计了消融实验和对比实验。在消融实验中,证明了所提方法使类簇均匀分布在映射空间,并可靠挖掘语义最近邻信息。在对比实验中,将其与先进算法在7个基准数据集上进行了比较,在ImageNet-200类数据集上,其准确率比目前先进方法提升了10.6%;在ImageNet-1000类数据集上,其准确率比目前先进算法提升了9.2%。  相似文献   

4.
侯海霞  原民民  刘春霞 《计算机应用》2012,32(12):3274-3277
针对谱聚类存在计算瓶颈的问题,提出了一种快速的集成算法,称为间接谱聚类。它首先运用K-Means算法对数据集进行过分聚类,然后把每个过分簇看成一个基本对象,最后在过分簇的级别上利用标准谱聚类来完成总体的聚类。将该思想应用于大文本数据集的聚类问题后,过分簇中心之间的相似性度度量方法可以采用常用的余弦距离法。在20-Newgroups文本数据上的实验结果表明:间接谱聚类算法在聚类准确性上比K-Means算法平均高出14.72%;比规范割谱聚类仅低0.88%,但算法所需的计算时间平均不到规范割谱聚类的1/16,且随着数据集的增大当规范割谱聚类遭遇计算瓶颈时,提出的算法却能快速地给出次优解。  相似文献   

5.
聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。  相似文献   

6.
针对现有聚类算法普遍存在聚类质量低、参数依赖性大、孤立点难识别等问题,提出一种基于数据场的聚类算法。该算法通过计算每个数据对象点的势值,根据类簇中心的势值比周围邻居的势值大,且与其他类簇中心有相对较大距离的特点,确定类簇中心;根据孤立点的势值等于零的特点,选出孤立点;最后将其他数据对象点划分到比自身势值大且最近邻的类簇中,从而实现聚类。仿真实验表明,该算法在不需要人为调参的情况下准确找出类簇中心和孤立点,聚类效果优良,且与数据集的形状无关。  相似文献   

7.
利用客户交易数据聚类分析,可得到更优异的客户细分效果,有助于企业更详实地了解消费者,制定精准的营销策略。PurTreeClust是一种新型的客户交易数据聚类算法,定义了一种新型的度量方式PurTree距离,可以很好地分析处理具有层次树结构的交易数据,但未考虑近邻点的影响,仅将交易树分配到距离最近的聚类中心所属类簇,容易出现错误的交易树分配。该文利用交易树之间的共享最近邻信息,提出一种客户交易数据聚类算法。该算法在聚类分配时,充分利用共享最近邻,首先分配类簇的从属交易树,然后分配类簇的可能从属交易树,实现聚类分配,可发现更加紧凑清晰的类簇,并避免了交易树错误分配,改善了客户细分效果。最后采用6个真实客户交易数据集进行实验,验证了该算法的有效性。  相似文献   

8.
为解决传统密度峰聚类算法容易忽略低密度簇中心以及难以自动选择聚类中心的问题,提出罚处共享最近邻密度峰聚类算法.设计罚处系数,减少高密度簇中非中心点的共享最近邻局部密度值,降低低密度簇中心点被忽视的机率;采用迭代阈值法实现簇中心点的自动选择.在人工数据集、UCI真实数据集以及图像数据集上进行仿真实验,其结果表明,该算法能找到数据集的簇中心和簇数目,聚类精度优于相比较的其它算法,该算法是可行的、有效的.  相似文献   

9.
针对快速K-medoids聚类算法和方差优化初始中心的K-medoids聚类算法存在需要人为给定类簇数,初始聚类中心可能位于同一类簇,或无法完全确定数据集初始类簇中心等缺陷,受密度峰值聚类算法启发,提出了两种自适应确定类簇数的K-medoids算法。算法采用样本x i的t最近邻距离之和倒数度量其局部密度ρi,并定义样本x i的新距离δi,构造样本距离相对于样本密度的决策图。局部密度较高且相距较远的样本位于决策图的右上角区域,且远离数据集的大部分样本。选择这些样本作为初始聚类中心,使得初始聚类中心位于不同类簇,并自动得到数据集类簇数。为进一步优化聚类结果,提出采用类内距离与类间距离之比作为聚类准则函数。在UCI数据集和人工模拟数据集上进行了实验测试,并对初始聚类中心、迭代次数、聚类时间、Rand指数、Jaccard系数、Adjusted Rand index和聚类准确率等经典聚类有效性评价指标进行了比较,结果表明提出的K-medoids算法能有效识别数据集的真实类簇数和合理初始类簇中心,减少聚类迭代次数,缩短聚类时间,提高聚类准确率,并对噪音数据具有很好的鲁棒性。  相似文献   

10.
微阵列技术是后基因组时代功能基因组研究的主要工具。基因表达谱数据的聚类分析对于研究基因功能和基因调控机制有重要意义。针对聚类算法要求事先确定簇的个数、对噪声敏感和可伸缩性差的问题,基于密度聚类算法DBSCAN和共享近邻SharedNearestNeighbors(SNN)的不同的特点,提出了一种新的最近邻先吸收的聚类算法,将其应用于一个公开的酵母细胞同期数据集,并用评价方法FOM将聚类结果与K-means聚类方法的结果进行了比较。结果表明,该文的聚类算法优于其他聚类算法,聚类结果具有明显的生物学意义,并能对数据的类别数作出较好的预测和评估。  相似文献   

11.
聚类作为一种无监督的学习,能根据数据间的相似程度自动地进行分类。提出的基于交集的聚类组合新方法,借鉴了选举投票的思想。给定同一数据集的不同聚类结果,此算法先求出不同聚类结果中每个簇的对应关系,然后计算这几个聚类结果对应簇的交集,对剩余的有争议对象进行投票,最后把投票之后仍未确定归属的对象分配给最近对象所在的簇,或者不经过投票直接将有争议的对象分配给最近对象所在的簇。实验表明,两种方法都能明显改善聚类质量,投票后得到的结果要略优于不投票的结果。  相似文献   

12.
为解决密度聚类算法在处理高维和多密度数据集时聚类结果不精确的问题,提出一种基于共享近邻亲和度(SNNA)的聚类算法。该算法引入[k]近邻和共享近邻,定义共享近邻亲和度作为对象的局部密度度量。算法首先根据亲和度来提取核心点,然后利用广度优先搜索算法对核心点进行聚类,最后对非核心点进行指派即完成整个数据集的聚类。实验结果表明,该算法能够发现任意形状、大小、密度的聚类;与同类算法相比,SNNA算法在处理高维数据时具有较高的聚类准确率。  相似文献   

13.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

14.
张亚萍  胡学钢 《微机发展》2007,17(11):33-35
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

15.
传统的聚类算法是一种无监督的学习过程,聚类的精度受到相似性度量方式以及数据集中孤立点的影响,并且算法也没有很好的利用先验知识,无法体现用户的需求。因此提出了基于共享最近邻的孤立点检测及半监督聚类算法。该算法采用共享最近邻为相似度,根据数据点的最近邻居数目来判断是否为孤立点,并在删除孤立点的数据集上进行半监督聚类。在半监督聚类过程中加入了经过扩展的先验知识,同时根据图形分割原理对数据集进行聚类。文中使用真实的数据集进行仿真,其仿真结果表明,本文所提出的算法能有效的检测出孤立点,并具有很好的聚类效果。  相似文献   

16.
基于K-means的朴素贝叶斯分类算法的研究   总被引:1,自引:0,他引:1  
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

17.
针对基于网格的聚类算法存在簇边缘网格中包含噪声点、利用网格相对密度差进行网格合并时不能区分密度均匀变化的网格等问题。提出一种利用区域划分的多密度快速聚类算法MFCBR。算法把数据空间划分成密度不同的网格,利用网格索引表和网格中心密度差合并网格形成簇,然后分别计算每个簇的边界网格质心、边界网格和最近簇网格中心位置,利用三者之间的关系来排除簇边界网格数据中包含的噪声点。实验表明,该算法在降低噪声数据对聚类干扰的同时,且对密度均匀变化的多密度数据集也有较优的处理效果。  相似文献   

18.
基于Tri-Training和数据剪辑的半监督聚类算法   总被引:3,自引:1,他引:2  
邓超  郭茂祖 《软件学报》2008,19(3):663-673
提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号