首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 72 毫秒
1.
为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题,提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数,并结合欧氏距离来确定这两个点之间的共享相似度;将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度,再通过共享密度选取聚类中心。通过实验证明,该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确,并且能更好地处理密度不均衡问题,同时也提高了高维数据的聚类精度。  相似文献   

2.
密度峰值聚类(DPC)将数据样本点的局部密度和相对距离进行结合,能对任意形状数据集进行聚类处理,但密度峰值聚类算法存在主观选择截断距离、简单分配策略和较高时间复杂度等问题。为此,提出了一种基于网格近邻优化的密度峰值聚类算法(KG-DPC算法)。首先对数据空间进行网格化,减少了样本数据点之间距离的计算量;在计算局部密度时不仅考虑了网格自身的密度值,而且考虑了周围k个近邻的网格密度值,降低了主观选择截断距离对聚类结果的影响,提高了聚类准确率,设定网格密度阈值,保证了聚类结果的稳定性。通过实验结果表明,KG-DPC算法比DBSCAN、DPC和SDPC算法在聚类准确率上有很大提升,在聚类平均消耗时间上DPC、SNN-DPC和DPC-NN算法分别降低38%、44%和44%。在保证基本聚类准确率的基础上,KG-DPC算法在聚类效率上有特定优势。  相似文献   

3.
宋艳  殷俊 《计算机应用》2005,40(11):3211-3216
为了解决谱聚类算法中相似矩阵的构造不能满足簇内数据点高度相似的问题,给出一种基于共享近邻的多视角谱聚类算法(MV-SNN)。首先,算法通过提高共享近邻个数多的两个数据点的相似度,使同簇的数据之间的相似度更高;然后,将改进后的多个视角的相似矩阵进行相加从而整合得到全局相似矩阵;最后,为了解决一般谱聚类算法在后期仍需要通过k均值聚类算法进行数据点划分的问题,给出拉普拉斯矩阵秩约束的方法,从而直接通过全局相似矩阵得到最终的类簇结构。实验结果表明,对比其他几种多视角谱聚类算法,MV-SNN算法在三个聚类衡量标准:准确度、纯度和归一化互信息上的性能提高了1%~20%,在聚类时间上减少了50%左右,可见MV-SNN算法的聚类性能更好,用时更短。  相似文献   

4.
密度峰聚类是一种基于密度的高效聚类方法,但存在对全局参数dc敏感和需要人工干预决策图进行聚类中心选择的缺陷。针对上述问题,提出了一种基于共享近邻相似度的密度峰聚类算法。首先,该算法结合欧氏距离和共享近邻相似度进行样本局部密度的定义,避免了原始密度峰聚类算法中参数dc的设置;其次,优化聚类中心的选择过程,能够自适应地进行聚类中心的选择;最后,将样本分配至距其最近并拥有较高密度的样本所在的簇中。实验结果表明,在UCI数据集和模拟数据集上,该算法与原始的密度峰聚类算法相比,准确率、标准化互信息(NMI)和F-Measure指标分别平均提高约22.3%、35.7%和16.6%。该算法能有效地提高聚类的准确性和聚类结果的质量。  相似文献   

5.
宋艳  殷俊 《计算机应用》2020,40(11):3211-3216
为了解决谱聚类算法中相似矩阵的构造不能满足簇内数据点高度相似的问题,给出一种基于共享近邻的多视角谱聚类算法(MV-SNN)。首先,算法通过提高共享近邻个数多的两个数据点的相似度,使同簇的数据之间的相似度更高;然后,将改进后的多个视角的相似矩阵进行相加从而整合得到全局相似矩阵;最后,为了解决一般谱聚类算法在后期仍需要通过k均值聚类算法进行数据点划分的问题,给出拉普拉斯矩阵秩约束的方法,从而直接通过全局相似矩阵得到最终的类簇结构。实验结果表明,对比其他几种多视角谱聚类算法,MV-SNN算法在三个聚类衡量标准:准确度、纯度和归一化互信息上的性能提高了1%~20%,在聚类时间上减少了50%左右,可见MV-SNN算法的聚类性能更好,用时更短。  相似文献   

6.
谱聚类算法是基于谱图划分理论的一种机器学习算法,它能在任意形状的样本空间上聚类且收敛于全局最优解。但是传统的谱聚类算法很难正确发现密度相差比较大的簇,参数的选取要靠多次实验和个人经验。结合半监督聚类的思想,在给出一部分监督信息的前提下,提出了一种基于共享近邻的成对约束谱聚类算法(Pairwise Constrained Spectral Clustering Based on Shared Nearest Neighborhood,PCSC-SN)。PCSC-SN算法是用共享近邻去衡量数据对之间的相似性,用主动约束信息找到两个数据点之间的关系。在数据集UCI上做了一系列的实验,实验结果证明,与传统的聚类算法相比,PCSC-SN算法能够获得更好的聚类效果。  相似文献   

7.
提出一种基于优化网格的最小生成树聚类算法OGMST(MST Clustering Algorithm Based on Optimized Grid),一方面利用最小生成树的方法进行聚类,另一方面利用了参数自动化的网格划分技术和密度阈值处理技术,解决了最小生成树聚类算法不适用于多密度数据集的局限性,提高了现有的多密度聚类算法的效率和精度.算法还对边界点进行了有效的处理.实验表明算法具有较好的可扩展性,是一种高效、快速的聚类算法.  相似文献   

8.
刘奕志  程汝峰  梁永全 《计算机科学》2018,45(2):125-129, 146
基于加权K近邻的密度峰值发现算法(FKNN-DPC)是一种简单、高效的聚类算法,能够自动发现簇中心,并采用加权K近邻的思想快速、准确地完成对非簇中心样本的分配,在各种规模、任意维度、任意形状的数据集上都能得到高质量的聚类结果,但其样本分配策略中的权重仅考虑了样本间的欧氏距离。文中提出了一种基于共享近邻的相似度度量方式,并以此相似度改进样本分配策略,使得样本的分配更符合真实的簇归属情况,从而提高聚类质量。在UCI真实数据集上进行实验,并将所提算法与K-means,DBSCAN,AP,DPC,FKNN-DPC等算法进行对比,验证了其有效性。  相似文献   

9.
为解决密度聚类算法在处理高维和多密度数据集时聚类结果不精确的问题,提出一种基于共享近邻亲和度(SNNA)的聚类算法。该算法引入[k]近邻和共享近邻,定义共享近邻亲和度作为对象的局部密度度量。算法首先根据亲和度来提取核心点,然后利用广度优先搜索算法对核心点进行聚类,最后对非核心点进行指派即完成整个数据集的聚类。实验结果表明,该算法能够发现任意形状、大小、密度的聚类;与同类算法相比,SNNA算法在处理高维数据时具有较高的聚类准确率。  相似文献   

10.
谱聚类是一种极具竞争力的聚类算法.相似度定义对谱聚类算法的性能有至关重要的影响.本文用两点的共享近邻数目表征局部密度,从而获知隐含的簇结构信息.将这一信息与自调节的高斯核函数结合,提出了基于共享近邻的自适应相似度及相应的谱聚类算法.它满足聚类假设的要求,具有局部密度的自适应性,能有效识别数据点之间的内在联系.典型人工和真实数据集上的实验结果证明了算法的有效性.  相似文献   

11.
聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。  相似文献   

12.
周欢欢  郑伯川  张征  张琦 《计算机应用》2022,42(5):1464-1471
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN?DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。  相似文献   

13.
基于密度和最近邻的Kk-means文本聚类算法   总被引:4,自引:0,他引:4  
张文明  吴江  袁小蛟 《计算机应用》2010,30(7):1933-1935
初始中心点的选择对于传统的K-means算法聚类效果影响较大,容易使聚类陷入局部最优解。针对这个问题,引入密度和最近邻思想,提出了生成初始聚类中心的算法,将所选聚类中心用于K-means算法,得到了更好的应用于文本聚类的DN-K-means算法。实验结果表明,该算法可以生成聚类质量较高并且稳定性较好的结果。  相似文献   

14.
传统谱聚类算法经常在处理一些结构复杂的数据集时效果不太理想,并且其相似度矩阵构造时参数的选取往往需要依靠多次实验及个人经验。在这种情况下,提出一种基于自然最近邻相似图的谱聚类(NSG-SC)算法。自然最近邻是一种新颖的最近邻概念,可以有效地避免K最近邻以及ε-最近邻方法需要人为设置参数的缺点。该算法构造相似度矩阵时依靠数据集自身的特性进行搜索,避免了参数选取不当以及离散点所带来的影响,更加真实地反映了数据集的结构关系。实验结果表明,提出的NSG-SC算法具有可行性和有效性。  相似文献   

15.
为解决传统密度峰聚类算法容易忽略低密度簇中心以及难以自动选择聚类中心的问题,提出罚处共享最近邻密度峰聚类算法.设计罚处系数,减少高密度簇中非中心点的共享最近邻局部密度值,降低低密度簇中心点被忽视的机率;采用迭代阈值法实现簇中心点的自动选择.在人工数据集、UCI真实数据集以及图像数据集上进行仿真实验,其结果表明,该算法能找到数据集的簇中心和簇数目,聚类精度优于相比较的其它算法,该算法是可行的、有效的.  相似文献   

16.
协同过滤是目前电子商务推荐系统中广泛应用的最成功的推荐技术,但面临严峻的用户评分数据稀疏性和推荐实时性挑战。针对协同过滤中的数据稀疏问题,提出了一种基于最近邻的个性化推荐算法。通过维数简化技术对评分矩阵进行优化,降低数据稀疏性;采用一种新颖的相似性度量方法计算目标用户的最近邻居,产生推荐预测。实验结果表明,该算法有效地解决了数据稀疏,提高了推荐系统的推荐质量。  相似文献   

17.
在大数据环境下,K近邻多标签算法(ML-KNN)高时间复杂度的问题显得尤为突出;此外,ML-KNN也没有考虑◢k◣个近邻对最终分类结果的影响。针对上述问题进行研究,首先将训练集进行聚类,再为测试集找到一个距离其最近的训练数据簇作为新的训练数据集;然后计算最近邻样本的距离权重,并用该权重描述最近邻和其他近邻对预测结果的影响;最后使用新的目标函数为待测样本分类。通过在图片、Web页面文本数据等数据集上的实验表明,所提算法得到了更好的分类结果,并且大大降低了时间复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号