首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
聚类分析是数据挖掘领域的重要组成部分之一,而度量学习是聚类分析中的关键性步骤。传统聚类算法中通常使用欧氏距离进行距离度量,但是欧氏距离只关注两两样本之间的距离关系,并没有顾及数据的全局性分布结构。考虑到数据的全局性结构信息,提出了一种新的具有全局性的度量方法——有效距离度量(effective distance metric),其主要思想是通过稀疏重构的方法计算数据样本之间的有效距离。进一步地,将有效距离应用到K-means、K-medoids和FCM(fuzzy C-means)3种经典聚类算法中开发了3种基于有效距离的聚类算法,即EK-means,EK-medoids和EFCM聚类算法。通过与传统聚类算法在UCI标准数据集上的实验结果进行比较,验证了基于有效距离的聚类算法能显著提高聚类效果。  相似文献   

2.
针对含有噪声的高维数据的聚类问题,提出一种使用新的距离度量方式的增量式聚类算法ANFCM(c+p)。由于传统的模糊C均值聚类算法对初始化聚类中心比较敏感,所提出的聚类算法将单程FCM的增量机制(称为SpFCM)与FCPM中使用的初始化聚类中心的策略相结合,即将先前数据块的聚类中心附近的几个样本点添加到下一个数据块进行聚类,以避免FCM对噪声的敏感性。此外,所提出的聚类算法使用一种新的改进后的距离度量的同时,使用修正后的约束条件和目标函数。通过以上改进,可以有效区分已知类和未知类在算法中的不同影响程度,并加强类之间的相互影响程度。实验结果表明,该算法对高维噪声数据具有很好的聚类效果和鲁棒性。  相似文献   

3.
在现有多种距离度量和传统谱聚类算法的基础上,提出了一种新的基于有效距离的谱聚类算法(spectral clustering based on effective distance,SCED)。SCED算法通过稀疏重构系数来构建样本与样本之间的有效距离,从而代替传统谱聚类算法中的欧氏距离,进行样本之间的相似度评估。与传统距离度量相比,有效距离不仅利用了样本对之间的距离信息,同时考虑了目标样本与其他所有相关样本之间的距离信息,因而该距离度量具有全局特性。在UCI标准数据集上的实验结果表明,SCED算法能有效提高聚类效果。  相似文献   

4.
传统的聚类算法通常基于单一的距离度量而设计,如何将多种距离度量有机融合在一起是当前面临的一个挑战。提出了一种基于多目标进化算法的多距离度量聚类框架(multiobjective evolutionary multiple distance measure clustering,MOMDC),并使用欧氏距离和Path距离来设计实际框架。该框架首先将数据集分别用两种距离测度预聚类,而后将预聚类结果做合并,以降低问题的规模;其次分别计算子类间的两种距离关系;最后使用多目标进化算法在两种距离空间中并行聚类。在多目标进化算法设计中,使用实数-标签的编码方式来设计染色体,并且设计了基于两种距离测度的两个适应度函数对染色体进行评估。最终将MOMDC与其他几种经典算法在大量的数据集上进行实验对比。实验表明,该框架对不同分布的数据集均能取得良好的结果。  相似文献   

5.
大多数现存的谱聚类方法均使用传统距离度量计算样本之间的相似性, 这样仅仅考虑了两两样本之间的相似性而忽略了周围的近邻信息, 更没有顾及数据的全局性分布结构. 因此, 本文提出一种新的融合欧氏距离和 Kendall Tau距离的谱聚类方法. 该方法通过融合两两样本之间的直接距离以及其周围的近邻信息, 充分利用了不同的相似性度量可以从不同角度抓取数据之间结构信息的优势, 更加全面地反映数据的底层结构信息. 通过与传统聚类算法在UCI标准数据集上的实验结果作比较, 验证了本文的方法可以显著提高聚类效果.  相似文献   

6.
牛科  张小琴  贾郭军 《计算机工程》2015,41(1):207-210,244
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。  相似文献   

7.
经典竞争聚集( CA)算法在聚类时对于样本中的少量已知信息没有加以利用,但这些信息往往需要应用到整个聚类过程中。此外,在相似度度量函数的选择上CA算法使用常见的欧氏距离,然而欧氏距离仅适用于团状数据,制约了算法的应用范围。针对上述问题,通过引入具备半监督学习能力的半监督项对隶属度矩阵进行增强,利用聚类中心和中心邻近的点组成空间,把样本点与该空间的距离替代欧氏距离作为新的相似度度量标准,并给出判断聚类中心能否合并的阈值参数,最终得到半监督空间化CA算法。通过在人造图像和真实图像上的分割结果表明,该算法能够更准确地获取聚类类别数以及更好的聚类效果。  相似文献   

8.
谱聚类算法受到度量中尺度因子的影响,同时传统谱聚类算法通过欧氏距离度量样本间相似性也不准确。针对上述问题,提出一种基于传递距离的谱聚类算法。算法首先通过改进传统谱聚类中的度量方式,用基于传递距离的度量方式度量样本间相似性,并构建传递矩阵,接着用传递矩阵做相似度变换构建拉普拉斯矩阵,最终通过求特征值和特征向量完成聚类。基于传递距离的谱聚类算法在人工数据集及UCI数据集上均取得了良好的聚类结果,具有较好的鲁棒性和有效性。  相似文献   

9.
模糊C均值(FCM)聚类算法对初始中心点敏感,不考虑类别间中心点的相互影响,且仅能处理低维数据。为此,设计一种改进的初始中心点选择方法,并基于条件模糊聚类思想,将传统FCM算法中的欧氏距离替换为余弦距离后提出wHFCLM算法。将该算法与扩展增量聚类算法spFCM、oFCM和rseFCM相结合,得到对应的扩展增量模糊聚类算法spHF(c+l)M、oHF(c+l)M以及rseHF(c+l)M。实验结果表明,与spFCM算法、oFCM算法和rseFCM算法相比,扩展增量模糊聚类算法对初始中心点的选择敏感性较低,能较好地处理大规模稀疏高维数据集,且在合适的分块大小下具有更优的聚类性能。  相似文献   

10.
谱聚类是对样本拉普拉斯矩阵的特征向量进行聚类,不局限于原始数据的分布形状,可收敛于全局最优解,但不能准确反映样本间的实际关系,而模糊核聚类可利用模糊数学理论确定样本间的模糊关系。为此,在调整相似度度量函数和距离度量函数的基础上,将模糊核聚类融合到谱聚类算法中,提出SC-KFCM算法,利用模糊划分改进谱聚类中的硬划分,根据特征向量间的相似性和关联程度建立模糊隶属关系并对样本进行聚类,从而弥补谱聚类中硬划分部分对聚类结果造成的影响。实验结果表明,SC-KFCM算法在不同分布特点及维数的数据集上均取得了较稳定的聚类结果和较高的聚类精度。  相似文献   

11.
基于混合距离学习的双指数模糊C均值算法   总被引:2,自引:0,他引:2  
王骏  王士同 《软件学报》2010,21(8):1878-1888
提出了一种基于DI-FCM(double indices fuzzy C-means)算法框架的无监督距离学习算法——基于混合距离学习的双指数模糊C均值算法HDDI-FCM(double indices fuzzy C-means with hybrid distance).数据集未知距离度量被表示为若干已有距离的线性组合,然后执行HDDI-FCM,在对数据集进行有效聚类的同时进行距离学习.为了保证迭代算法收敛,引入了Steffensen迭代法来改进计算簇中心点的迭代公式.讨论了算法中参数的选择.基于UCI(University of California,Irvine)数据集的实验结果表明该算法是有效的.  相似文献   

12.
I-vector说话人识别系统常用距离来衡量说话人语音间的相似度。加权成对约束度量学习算法(WPCML)利用成对训练样本的加权约束信息训练一个用于计算马氏距离的度量矩阵。该度量矩阵表示的样本空间中,同类样本间的距离更小,非同类样本间的距离更大。在美国国家标准技术局(NIST)2008年说话人识别评测数据库(SRE08)的实验结果表明,WPCML算法训练度量矩阵用于马氏距离相似度打分,比用余弦距离相似度打分的性能更好。选择训练样本对方法用于构造度量学习训练样本集能进一步提高系统实验性能,并优于目前最流行的PLDA分类器。  相似文献   

13.
含水印数据的质量评价是衡量水印嵌入隐蔽性和数据可用性的重要指标。峰值信噪比(PSNR)等基于能量的度量指标在应用于矢量地图水印系统时具有一定的局限性。从形状的角度考虑了矢量地图水印的数据质量评价问题,借鉴时间序列聚类和形状相似性匹配的思想,提出了基于距离度量的水印地图数据评价指标。算法从2维矢量地图中提取1维特征函数,通过度量水印嵌入前后特征函数的形状差异来评价含水印地图的数据质量。实验结果证明,本文提出的度量方法更符合矢量数据的特点,能够得到比现有方法更准确的度量结果。  相似文献   

14.
In this paper, we offer a method aiming to minimize the role of distance metric used in clustering. It is well known that distance metrics used in clustering algorithms heavily influence the end results and also make the algorithms sensitive to imbalanced attribute/feature scales. To solve these problems, a new clustering algorithm using a per-attribute/feature ranking operating mechanism is proposed in this paper. Ranking is a rarely used discrete, nonlinear operator by other clustering algorithms. However, it also has unique advantages over the dominantly used continuous operators. The proposed algorithm is based on the ranks of the data samples in terms of their spatial separation and is able to provide a more objective clustering result compared with the alternative approaches. Numerical examples on benchmark datasets prove the validity and effectiveness of the proposed concept and principles.  相似文献   

15.
从已知数据集中学习距离度量在许多机器学习应用中都起着重要作用。传统的距离学习方法通常假定目标距离函数为马氏距离的形式,这使得学习出的距离度量在应用上具有局限性。提出了一种新的距离学习方法,将目标距离函数表示为若干候选距离的线性组合,依据最大间隔理论利用数据集的边信息学习得到组合距离中各距离分量的权值,从而得到新的距离度量。通过该距离度量在模糊C均值聚类算法中的表现来对其进行评价。在UCI数据集上,与其他已有的距离学习算法的对比实验结果证明了该文算法的有效性。  相似文献   

16.
为充分挖掘图像数据信息,提出了一种有向图模型检索方法,结合距离测度初次检索和有向图距离二次检索提高图像检索性能。首先,采用传统的纹理、边缘和颜色特征以及特征之间的欧氏距离测度来进行初次检索,得到一个查询排序列表;在此基础上,结合距离测度与余弦测度设计图像之间的相关测度,在不同的相关测度阈值下构建图像数据集的有向图模型集合;最后,计算有向图距离,据此进行二次检索,降低误检现象。在COREL和ImageCLEF两个数据集上的图像检索实验结果表明,该方法的平均精确度和平均召回率指标高。  相似文献   

17.
张敏  周治平   《智能系统学报》2020,15(4):687-696
针对大多数现有谱聚类算法处理大规模数据集时面临聚类精度低、大规模相似度矩阵存储开销大的问题,提出一种结合度量融合和地标表示的自编码谱聚类算法。引入相对质量概念进行节点评估,选取最具代表性的点作为地标点,通过稀疏表示近似获得图相似度矩阵,以降低存储开销。同时考虑到近邻样本的几何分布和拓扑分布的信息,融合欧氏距离与Kendall Tau距离来度量地标点与其他样本之间的相似度,提高聚类精度;以栈式自编码器取代拉普拉斯矩阵特征分解,将所获得的相似度矩阵作为自编码器的输入,通过联合学习嵌入表示和聚类来进一步提高聚类精度。在5个大规模数据集上的实验验证了本文算法的有效性。  相似文献   

18.
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM++。通过实验验证,该算法在迭代次数减少、运行时间缩短的同时,聚类精度得到提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号