首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。在半监督聚类中,成对约束(must-link约束和cannot-link约束)作为样本的先验知识被广泛地使用。凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。在UCI数据集上的实验表明,PS-AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。  相似文献   

2.
钟将  刘龙海  梁传伟 《计算机工程》2011,37(13):183-186
在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法.利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类.实验结果表明,该方法能利用少量的监督信息提高文本聚类的分类准确率.  相似文献   

3.
为了解决半监督聚类先验知识少、聚类偏差大的问题,提出了基于成对约束的主动半监督聚类算法.引入主动学习算法,增加约束集的信息量以使聚类效果更好;利用该约束集建立投影矩阵映射数据到低维空间,便于计算并提高聚类效果.算法中提出闭包替代思想,试图简化样本空间,以期获得降低聚类偏差的可能.由于聚类算法的实施对象是低维数据,成对约束集信息量大,聚类的时间效率以及性能均可保证.实验结果表明,采用主动学习的半监督聚类算法聚类效果提升显著,高效合理.  相似文献   

4.
提出一种基于非负矩阵分解(NMF)的双重约束文本聚类算法。在正交三重NMF模型中,加入文本空间的成对约束信息和词空间的类别约束信息,将不同的特征词项进行分类。利用迭代规则对原始的词-文档矩阵进行分解,获得文本聚类结果。与多种传统半监督文本聚类算法的对比结果表明,该算法具有较高的聚类精度,能提供更准确和有效的聚类结果。  相似文献   

5.
最大间隔聚类是近来聚类分析的一个研究热点,为进一步提高其聚类准确性,提出一种基于成对约束的半监督最大间隔聚类算法.该算法在最大间隔聚类的目标函数中添加针对成对约束的损失项,从而对违反给定约束条件的分界面进行惩罚.对所得到的非凸优化问题,本文提出一种基于约束凹凸过程的迭代算法来进行高效求解.实验表明,本文提出的算法能极大地提高最大间隔聚类的准确性,其聚类性能也明显优于其他两种半监督聚类算法.  相似文献   

6.
对于所提出的建立在成对约束基础之上的半监督凝聚层次聚类算法,对聚类簇进行半监督处理的最主要目的在于借助于对样本监督信息的合理应用,达到提高样本在无监督状态下学习性能的目标.在现阶段的技术条件支持下,以半监督聚类分析为核心,建立在must link以及cannot link基础之上的约束关系被广泛地应用于样本聚类分析的过程当中.从这一角度上来说,为了使聚类簇与聚类簇之间的距离关系表述更加的真实与精确,就要求通过对成对约束关系的综合应用,实现对聚类簇距离的有效调整与优化.  相似文献   

7.
黄华  郑佳敏  钱鹏江 《计算机应用》2018,38(11):3119-3126
当不同类别的样本严重重叠在分类边界时,由于聚类假设不能很好地反映出数据的真实分布,基于聚类假设的半监督分类方法的性能,可能比与之对立的监督分类方法更差。针对上述不安全的半监督分类问题,提出了调整聚类假设联合成对约束半监督分类方法(ACA-JPC-S3VM)。一方面,它将单个未标记样本到数据分布边界的距离融入到模型的学习中,能够一定程度上缓解此类情况下算法性能的下降程度;另一方面,它将成对约束信息引入,弥补了模型对监督信息利用方面的不足。在UCI数据集上的实验结果表明,ACA-JPC-S3VM方法的性能绝不会低于支持向量机(SVM),且在标记样本数量为10时的平均准确率较SVM高出5个百分点;在图像分类数据集上的实验结果表明,直推式支持向量机(TSVM)等半监督分类方法出现了不同程度的不安全学习情形(即性能相近或低于SVM),而ACA-JPC-S3VM却能安全地学习。因此,ACA-JPC-S3VM具有更好的安全性与正确性。  相似文献   

8.
成对约束的属性加权半监督模糊核聚类算法   总被引:1,自引:0,他引:1  
在机器学习和数据挖掘中,带约束的半监督聚类是一个活跃的研究领域。为了利用约束条件获得表现更优异的聚类效果,提出了一种成对约束的属性加权半监督聚类算法,该方法充分考虑了属性间的不平衡性,在传统模糊聚类算法中融合半监督学习机制并通过Mercer核把原始的观察空间映射到高维特征空间。实验结果表明,该算法优于相似的成对约束的竞争群算法(PCCA)。  相似文献   

9.
王亮  王士同 《计算机工程》2012,38(1):148-150
针对样本间的不均衡性,提出一种基于成对约束的动态加权半监督模糊核聚类算法。在传统模糊聚类算法中加入半监督学习机制,通过Mercer核将原数据空间映射到特征空间,为特征空间中的每个向量分配一个动态权值,由此得到新的目标函数,并结合一种简单的核参数选择方法实现数据分类。理论分析和实验结果表明,与模糊核聚类算法及成对约束的竞争群算法相比,该算法具有更好的聚类效果。  相似文献   

10.
针对微博文本内容短、稀疏、高维等特点,提出一种改进的半监督微博聚类算法。该算法利用词项间的关系丰富文本特征,通过定义词项文档间关联关系和词项文档内关联关系揭示词项间语义的关联程度,并由此自动生成有标记的数据来指导聚类过程。对词项先验信息进行成对约束编码,构建基于词项间成对约束的三重非负矩阵分解模型来实现微博的半监督聚类。实验结果表明,该算法可以减少繁琐的人工标记过程,并能高效地进行微博聚类。  相似文献   

11.
一种基于谱聚类的半监督聚类方法   总被引:6,自引:1,他引:6  
司文武  钱沄涛 《计算机应用》2005,25(6):1347-1349
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。  相似文献   

12.
基于最近邻原则的半监督聚类算法   总被引:1,自引:0,他引:1  
基于最近邻原则的半监督聚类算法是以基于最近邻的聚类中心求解算法为基础的。在基于最近邻的聚类中心求解算法中,用相似度矩阵记录数据点间的相似程度,由目标函数最小值求得聚类的类中心点。在基于最近邻原则的半监督聚类算法中,根据约束信息来调整相似度矩阵G,数据点间相似度的变化引起了数据点间加权欧式距离的变化,由此更新加权欧式距离矩阵M,最后执行聚类中心求解算法完成聚类。大量实验结果表明,该算法能获得较好的聚类结果。  相似文献   

13.
基于分类的半监督聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于分类的半监督聚类算法。充分利用了数据集中的少量标记对象对原始数据集进行粗分类,在传统k均值算法的基础上扩展了聚类中心点的选择方法;用k-meansGuider方法对数据集进行粗聚类,在此基础上对粗聚类结果进行集成。在多个UCI标准数据集上进行实验,结果表明提出的算法能有效改善聚类质量。  相似文献   

14.
基于半监督学习的K-均值聚类算法研究   总被引:1,自引:3,他引:1  
定义了一个欧氏距离和监督信息相混合的新的最近邻计算函数,从而将K-均值算法很好地应用于半监督聚类问题。针对K-均值算法初始质心敏感的缺陷,用粒子群算法的搜索空间模拟聚类的欧氏空间,迭代搜索找到较优的聚类质心,同时提出动态管理种群的策略以提高粒子群算法搜索效率。算法在UCI的多个数据集上测试都得到了较好的聚类准确率。  相似文献   

15.
通过学习数据集的低维流形结构,给出一种流形距离测度;结合成对约束信息,调整数据的相似度矩阵,将其作为近邻传播算法的输入,提出了基于流形距离的半监督近邻传播聚类算法(SAP-MD)。通过在UCI标准数据集上的仿真实验表明,SAP-MD算法相比于仅利用成对约束信息的聚类算法,在聚类性能上有很大提高。  相似文献   

16.
提出一个基于集对分析的半监督ISODATA聚类算法,用于网络异常检测。在三方面进行了改进:首先,算法能够直接处理字符数字混合属性的数据,并使用集对分析来计算数据记录之间的距离;其次,算法同时处理有标号和无标号的数据,并利用少量的有标号数据来指导算法的分裂过程;最后,将算法的输入参数减少到只有两个。在KDD99入侵检测数据集上的实验结果显示,该算法获得了95.62%的检测率和1.29%的误报率。  相似文献   

17.
基于Seed集的半监督核聚类   总被引:1,自引:1,他引:1       下载免费PDF全文
提出了一种新的半监督核聚类算法——SKK-均值算法。算法利用一定数量的标记样本构成seed集,作为监督信息来初始化K-均值算法的聚类中心,引导聚类过程并约束数据划分;同时还采用了核方法把输入数据映射到高维特征空间,并用核函数来实现样本之间的距离计算。在UCI数据集上进行了数值实验,并与K-均值算法和核-K-均值算法进行了比较。  相似文献   

18.
提出一种选择最富信息数据并予以标记的基于主动学习策略的半监督聚类算法。首先, 采用传统K-均值聚类算法对数据集进行粗聚类; 其次, 根据粗聚类结果计算出每个数据隶属于每个类簇的隶属度, 筛选出满足最大与次大隶属度差值小于阈值的候选数据, 并从中选择差值较小的数据作为最富信息的数据进行标记; 最后, 将候选数据集合中未标记数据分组到与每类已被标记数据平均距离最小的类簇中。实验表明, 提出的主动学习策略能够很好地学习到最富信息数据, 基于该学习策略的半监督聚类算法在测试不同数据集时均获得了较高的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号