共查询到16条相似文献,搜索用时 46 毫秒
1.
针对受均匀效应的影响,当前K-means型软子空间算法不能有效聚类不平衡数据的问题,提出一种基于划分的不平衡数据软子空间聚类新算法。首先,提出一种双加权方法,在赋予每个属性一个特征权重的同时,赋予每个簇反映其重要性的一个簇类权重;其次,提出一种混合型数据的新距离度量,以平衡不同类型属性及具有不同符号数目的类属型属性间的差异;第三,定义了基于双加权方法的不平衡数据子空间聚类目标优化函数,给出了优化簇类权重和特征权重的表达式。在实际应用数据集上进行了系列实验,结果表明,新算法使用的双权重方法能够为不平衡数据中的簇类学习更准确的软子空间;与现有的K-means型软子空间算法相比,所提算法提高了不平衡数据的聚类精度,在其中的生物信息学数据上可以取得近50%的提升幅度。 相似文献
2.
仿射传播(Affinity propagation,AP)聚类算法是将所有待聚类对象作为潜在的聚类中心,通过对象之间传递的可靠性和有效性信息找到合适的聚类中心,从而计算出相应的聚类结果,但不适用子空间聚类。将粒度计算引入到仿射传播聚类算法中,提出属性与样本同步粒化的AP熵加权软子空间聚类算法(Entropy weighting AP algorithm for subspace clustering based on asynchronous granulation of attributes and samples,EWAP)。EWAP首先去除冗余属性,然后在每次聚类的迭代过程中修改属性的权重值。在满足一定条件迭代终止时,就会得到构成各兴趣度子空间的属性权重值,从而得到属性集的粒化结果以及相应的子空间聚类结果
。理论与实验证明EWAP算法既保留了AP算法的优点,又克服了该聚类算法不能进行子空间聚类的不足。 相似文献
3.
自适应的软子空间聚类算法 总被引:6,自引:0,他引:6
软子空间聚类是高维数据分析的一种重要手段.现有算法通常需要用户事先设置一些全局的关键参数,且没有考虑子空间的优化.提出了一个新的软子空间聚类优化目标函数,在最小化子空间簇类的簇内紧凑度的同时,最大化每个簇类所在的投影子空间.通过推导得到一种新的局部特征加权方式,以此为基础提出一种自适应的k-means型软子空间聚类算法.该算法在聚类过程中根据数据集及其划分的信息,动态地计算最优的算法参数.在实际应用和合成数据集上的实验结果表明,该算法大幅度提高了聚类精度和聚类结果的稳定性. 相似文献
4.
在基于视角加权的多视角聚类中,每个视角的权重取值对聚类结果的精度都有着重要的影响。针对此问题,提出熵加权多视角核K-means(EWKKM) 算法,通过给每个视角分配一个合理的权值来降低噪声视角或无关视角对多视角聚类的影响,进而提高聚类的精度。EWKKM算法中,首先用核矩阵表示不同的视角,给每个视角分配一个权重;然后,利用信息熵计算出各个视角的熵权重;最后,按照定义的目标函数对各个视角的权重进行优化,使用核K-means进行多视角聚类。在UCI数据集及人工数据集进行实验,实验结果表明熵加权多视角核K-means算法能够为每个视角分配一个最优的权重值,聚类的精确度优于已有的聚类算法,具有更稳定的聚类结果。 相似文献
5.
针对特征权重自调节软子空间(soft subspace clustering with feature weight self-adjustment mechanism, SC-FWSA)聚类算法使用欧氏距离,存在对数据适应性较差的问题,将SC-FWSA算法中的欧氏距离拓展为闵科夫斯基距离(Minkowski distance),提出一种基于闵科夫斯基距离的特征权重自调节软子空间聚类(Minkowski distance based soft subspace clustering with feature weight self-adjustment mechanism, MSC-FWSA)算法,MSC-FWSA算法有效提高了SC-FWSA聚类算法对数据的适应性。若干真实数据集上的对比性实验,验证了MSC-FWSA聚类算法的有效性。 相似文献
6.
7.
8.
9.
10.
K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。 相似文献
11.
针对无线传感器网络的能耗问题,提出了一种基于K-means聚类的能耗均衡路由算法(KBECRA).该算法将K-mean.聚类算法用到分簇中,既避免了频繁组簇消耗能量,又避免了簇头集中分布在某一区域的缺点.在簇内根据不同的适应值选择负责簇内数据收集和融合的主簇头,以及负责簇间传输数据的副簇头,较好地平衡了网络的能量负载.... 相似文献
12.
K-means算法以其简单性和快速性在文本聚类中得到广泛应用,但是传统的K-means算法对初值的依赖性很强,需要事先给出要生成的簇的数目k,而这个参数k的确定一般是根据用户的经验知识给出的;另外,其初始聚类中心是随机选取的,这种随机性往往导致聚类结果的不德定.可以说,不同的k值和不同的初始聚类中心对聚类质量和时间效率... 相似文献
13.
一种改进K-means算法的聚类算法CARDBK 总被引:1,自引:0,他引:1
CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。 从聚类结果的熵、纯度、F1值、Rand Index和NMI等5个性能指标值来看,与多个不同算法在多个不同数据集上分别聚类相比, 该算法具有较好的聚类结果;与多个不同算法在同一数据集上很多不同的初始化条件下分别聚类相比,该算法具有较好且稳定的聚类结果;该算法在不同大小数据集上聚类时具有线性伸缩性且速度较快。 相似文献
14.
15.
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果. 相似文献
16.
软子空间聚类是聚类研究领域的一个重要分支和研究热点。高维空间聚类以数据分布稀疏和"维度效应"现象等问题而成为难点。在分析现有软子空间聚类算法不足的基础上,引入子空间差异的概念;在此基础上,结合簇内紧凑度的信息来设计新的目标优化函数;提出了一种新的k-means型软子空间聚类算法,该算法在聚类过程中无需设置额外的参数。理论分析与实验结果表明,相对于其他的软子空间算法,该算法具有更好的聚类精度。 相似文献