首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 296 毫秒
1.
一种基于同类约束的半监督近邻反射传播聚类方法   总被引:1,自引:0,他引:1  
以近邻反射传播 (Affinity propagation, AP) 聚类算法为基础, 提出了一种基于同类约束的半监督近邻反射传播聚类方法 (Semi-supervised affinity propagation clustering method with homogeneity constraints, HCSAP).该方法在聚类目标函数中引入同类约束项, 以保证聚类结果与同类集先验信息一致.利用最大和信任传播 (Max-sum belief propagation) 优化过程对目标函数进行求解, 导出同类约束下的吸引度 (Responsibility) 和归属度 (Availability) 的迭代方程.人工数据集和真实数据集上的实验结果表明本文所提方法的有效性.  相似文献   

2.
基于近邻传播算法的半监督聚类   总被引:31,自引:2,他引:29  
肖宇  于剑 《软件学报》2008,19(11):2803-2813
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.  相似文献   

3.
基于MapReduce的分布式近邻传播聚类算法   总被引:2,自引:0,他引:2  
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.  相似文献   

4.
针对迁移原型聚类的优化问题,本文以模糊知识匹配迁移原型聚类为基础,介绍了聚类场景中从源域到目标域的迁移学习机制,明确了源域聚类中心辅助目标域得到更好的聚类效果。但目前此类迁移机制依然面临如下的挑战:1)如何克服已有迁移原型聚类方法中不同类别间的知识强制性匹配带来的负作用。2)当源域与目标域相似度较低时,如何避免模糊强制性匹配的不合理性以及过于依赖源域知识的缺陷被放大。为此,研究了一种新的迁移原型聚类机制,即可能性匹配知识迁移原型机制,并基于此实现了2个具体的迁移聚类算法。借鉴可能性匹配的思想,该算法可以自动选择和偏重有用的源域知识,克服了源域和目标域之间的强制性匹配限制,具有较好的可调节性。研究结果表明:在不同迁移场景下模拟数据集和真实NG20groups数据集上的实验研究表明,提出的算法较已有的相关算法展现了更好的性能。  相似文献   

5.
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。  相似文献   

6.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

7.
传统聚类算法在目标数据集被噪声或异常数据大量污染的场景下聚类效果不佳。针对此问题,在经典谱聚类算法(spectral clustering,SC)基础上加入迁移学习知识,提出了新的域间F-范数正则化迁移谱聚类算法(transfer spectral clustering based on inter-domain F-norm regularization,TSC-IDFR)。该算法通过第K最近邻原则为目标域数据从源域(历史数据)获取等量的可参照数据样本,然后基于域间F范数正则化机制,迁移这些源域可参照数据样本的谱聚类特征矩阵,以辅助目标域数据集上的谱聚类过程,从而解决实际问题中由于目标域数据污染带来的聚类难题,最终提高谱聚类效果。通过在模拟数据集和真实数据集上的仿真实验,证明了该算法的有效性。  相似文献   

8.
针对传统迁移学习聚类算法因单一源域到单一目标域且两者类别数必须一致的约束而达不到良好的聚类效果的问题,本文提出了一种跨源域学习的聚类算法,该算法具有三大优点:1) 该算法不仅扩大源域数目且取消了源域类别数的限定,算法可以自适应选择源域进行学习,因此算法的迁移学习能够得到较大的提升;2)由于算法所利用的源域知识不会暴露原数据,因此算法具有良好的源域数据隐私保护性;3)通过调节平衡参数可以使算法退化为传统的聚类算法,因此该算法的聚类性能是有所保障的。通过在模拟数据集和真实数据集上的实验,验证了文中算法较之现有迁移学习聚类算法具有更好的迁移能力,且聚类性能及鲁棒性也有较大的提升。  相似文献   

9.
陈爱国    王士同 《智能系统学报》2017,12(1):95-103
针对传统的聚类算法在样本数据量不足或样本受到污染情况下的聚类性能下降问题,在经典的极大熵聚类算法(MEKTFCA)的基础上,提出了一种新的融合历史聚类中心点和历史隶属度这两种知识的基于极大熵的知识迁移模糊聚类算法。该算法通过学习由源域总结出来的有益历史聚类中心和历史隶属度知识来指导数据量不足或受污染的目标域数据的聚类任务,从而提高了聚类性能。通过一组模拟数据集和两组真实数据集构造的迁移场景上的实验,证明了该算法的有效性。  相似文献   

10.
权吸引子传播算法及其在文本聚类中的应用   总被引:1,自引:0,他引:1  
吸引子传播算法(affinity propagation, AP)是一种新的高效聚类算法.由于AP算法简单易用,它已被广泛应用到数据挖掘的各个领域.在AP算法中,相似性度量具有重要作用.另一方面,传统的文本挖掘常采用向量空间模型和满足欧氏空间的相似性度量.这种方法的优点是简单且易于实现,但随着数据规模的膨胀,向量空间将变得高维稀疏并将导致计算复杂度快速增长.为解决此问题,给出了相似特征集、排斥特征集和仲裁特征集的概念,在这些概念的基础上提出了一种能够包含文本结构信息的非欧空间相似性度量方法.并提出了一种新的聚类算法,称之为权吸引子传播算法(weight affinity propagation, WAP).为检验提出算法的聚类效果,选用标准数据集Reuters-21578进行了验证.实验结果表明WAP明显优于k-means聚类算法、具备非线性特征的SOFM聚类算法和采用经典相似性度量的吸引子传播算法等3种经典聚类算法.  相似文献   

11.
Transfer learning aims to enhance performance in a target domain by exploiting useful information from auxiliary or source domains when the labeled data in the target domain are insufficient or difficult to acquire. In some real-world applications, the data of source domain are provided in advance, but the data of target domain may arrive in a stream fashion. This kind of problem is known as online transfer learning. In practice, there can be several source domains that are related to the target domain. The performance of online transfer learning is highly associated with selected source domains, and simply combining the source domains may lead to unsatisfactory performance. In this paper, we seek to promote classification performance in a target domain by leveraging labeled data from multiple source domains in online setting. To achieve this, we propose a new online transfer learning algorithm that merges and leverages the classifiers of the source and target domain with an ensemble method. The mistake bound of the proposed algorithm is analyzed, and the comprehensive experiments on three real-world data sets illustrate that our algorithm outperforms the compared baseline algorithms.  相似文献   

12.
针对非充分数据集及噪声对聚类分析的干扰,基于模糊C均值(FCM)框架下的聚类技术,即一般化的增强模糊划分聚类算法(GIFP-FCM),探讨具有迁移学习能力的聚类方法--融入迁移学习机制的GIFP-FCM算法(T-GIFP-FCM)。该算法通过有效利用历史相关场景(域)总结得到的知识来指导当前场景(域)中信息不足时的聚类任务,从而提高聚类效果。通过在模拟数据集及真实数据集上的仿真实验,结果显示文中算法较之传统算法在处理信息不足任务时具有更佳的性能。  相似文献   

13.
李志恒 《计算机应用研究》2021,38(2):591-594,599
针对机器学习中训练样本和测试样本概率分布不一致的问题,提出了一种基于dropout正则化的半监督域自适应方法来实现将神经网络的特征表示从标签丰富的源域转移到无标签的目标域。此方法从半监督学习的角度出发,在源域数据中添加少量带标签的目标域数据,使得神经网络在学习到源域数据特征分布的同时也能学习到目标域数据的特征分布。由于有了先验知识的指导,即使没有丰富的标签信息,神经网络依然可以很好地拟合目标域数据。实验结果表明,此算法在几种典型的数字数据集SVHN、MNIST和USPS的域自适应任务上的性能优于现有的其他算法,并且在涵盖广泛自然类别的真实数据集CIFAR-10和STL-10的域自适应任务上有较好的鲁棒性。  相似文献   

14.
本文研究了一种新型的基于知识迁移的极大熵聚类技术。拟解决两大挑战性问题:1)如何从源域中选择合适的知识对目标域进行迁移学习以最终强化目标域的聚类性能;2)若存在源域聚类数与目标域聚类数不一致的情况时,该如何进行迁移聚类。为此提出一种全新的迁移聚类机制,即基于聚类中心的中心匹配迁移机制。进一步将该机制与经典极大熵聚类算法相融合提出了基于知识迁移的极大熵聚类算法(KT-MEC)。实验表明,在不同迁移场景下的纹理图像分割应用中,KT-MEC算法较很多现有聚类算法具有更高的精确度和抗噪性。  相似文献   

15.
仿射传播算法是一种快速有效的聚类方法,但其聚类结果的不稳定性影响了聚类性能。对此,提出基于近邻的仿射传播算法(AP-NN),通过仿射传播算法产生初始簇,并从中选择代表簇对非代表簇的样本进行近邻聚类。在时间序列数据集上的实验结果表明,AP-NN模型算法能够产生较好的聚类结果,适用于聚类分析。  相似文献   

16.
针对多标记迁移学习中源领域与目标领域的特征分布差异会导致源领域数据无法被目标领域利用的问题,提出了一种基于最大均值差异的多标记迁移学习算法(Multi-Label Transfer Learning via Maximum mean discrepancy,M-MLTL),算法通过分解关系矩阵构造共享子空间,并采用最大均值差异(maximum mean discrepancy)作为评价指标,最小化子空间特征的分布差异,从而使源领域与目标领域的特征分布尽可能相似.多标记图像分类实验的结果表明,新算法比同类算法有更高的精度和计算效率.  相似文献   

17.
Unsupervised Domain Adaptation (UDA) aims to use the source domain with large amounts of labeled data to help the learning of the target domain without any label information. In UDA, the source and target domains are usually assumed to have different data distributions but share the same class label space. Nevertheless, in real-world open learning scenarios, label spaces are highly likely to be different across domains. In extreme cases, the domains share no common classes, i.e., all classes in the target domain are new classes. In such a case, direct transferring the class-discriminative knowledge from the source domain may impair the performance in the target domain and lead to negative transfer. For this reason, this paper proposes unsupervised new-set domain adaptation with self-supervised knowledge (SUNDA) to transfer the sample contrastive knowledge from the source domain, and use self-supervised knowledge from the target domain to guide the knowledge transfer. Specifically, the initial features of the source and target domains are learned by self-supervised learning, and some network parameters are frozen to preserve target domain information. Sample contrastive knowledge from the source domain is then transferred to the target domain to assist the learning of class-discriminative features in the target domain. Moreover, graph-based self-supervised classification loss is adopted to handle the problem of target domain classification with no inter-domain common classes. SUNDA is evaluated on tasks of cross-domain transfer for handwritten digits without any common class and cross-race transfer for face data without any common class. The experiments show that SUNDA outperforms UDA, unsupervised clustering, and new class discovery methods in learning performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号