首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为了有效利用少量先验信息提高多视角数据聚类效果,提出了一种基于距离度量学习的半监督多视角谱聚类算法(简称ML-SMC)。首先,利用距离度量学习引入先验信息,将多视角数据映射到反映先验约束条件的空间.然后,根据相似性构造每个视角的视图,将多视角聚类问题转化为最小正则割的图划分问题。实验结果表明:ML-SMC算法聚类结果的精度优于3种经典的多视角聚类算法和4种半监督单视角聚类算法。并且通过利用少量先验信息ML-SMC算法能够有效提高聚类效果。  相似文献   

2.
为了更好地发挥主动学习、半监督学习和集成学习这3种机器学习方法的优势,研究了1个不需要2个充分冗余视图、泛化能力强的高效学习算法。从聚类假设出发,给出每轮协同训练过程中添加自动标记样本的置信度度量方法,降低误标记率;提出作为主动选择未标记样本依据的贡献度的概念,贡献度越高的样本,越具有人工标记的价值,在协同训练迭代结束后,选择贡献度高的样本标记,就能增强反馈的效果,提升学习性能,提出一种基于主动学习的集成协同训练算法。应用于图像检索的实验结果表明,提出的算法是高效可行的。  相似文献   

3.
多视图模糊聚类综合了数据的不同表示,虽然能够产生更全面、宏观的聚类结果,但是容易受到噪声干扰。为了提高抵抗噪声的能力,提出了一种多视图模糊聚类算法。该算法同时继承了多视图聚类和模糊紧致性分离性聚类算法的优点,能够根据不同视图的重要性协同聚类,同时增强算法的鲁棒性。为了验证算法的有效性,选取4个多视图数据集进行了实验。实验结果表明,该算法不仅能够获得较高的聚类准确率,而且能有效地降低噪声数据对聚类结果的影响。  相似文献   

4.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。  相似文献   

5.
基于半监督学习的蛋白质关系抽取研究   总被引:2,自引:2,他引:0  
使用半监督学习方法中的自训练、协同训练方法,利用少量已标注样本和大量未标注样本来完成蛋白质关系抽取的任务.首先使用基于词特征的SVM(support vector machine)模型进行自训练,然后使用基于词特征的SVM模型和基于依存树特征的SVM模型进行协同训练.通过对4个语料的实验,验证了自训练及协同训练方法在蛋白质关系抽取领域中的应用效果.相比于自训练,协同训练可以通过两个相对独立的视图相互补充、相互学习,进而可以有效利用未标注数据.  相似文献   

6.
基于SVM的多类分类算法改进   总被引:1,自引:0,他引:1  
在各种基于支持向量机的多类分类算法中,基于二叉树的多类支持向量机分类算法训练和分类速度相对较快,且解决了不可分问题,是一种很好的方法.本文系统研究和分析了基于二叉树的多类支持向量机分类算法,并在此基础上对其作出了改进,即当测试文本集规模较大时,对其先聚类再分类.改进的目的是,使测试文本不必总是从二叉树的根结点开始进行判断,而是有指导的代入分类函数中计算.在测试文本集规模较大,分类函数个数较多时,可以很大程度上增加分类效率,并加大了文本正确分类的概率.  相似文献   

7.
为了在产品创新设计过程为设计者提供跨领域的专利知识,提出一种以功能基为分类标准的中文专利文本分类方法。针对功能基类别多、专利文本训练集少的特点,从简化类别数量和增加数据集2个角度出发,采用多重二分类监督分类算法和基于EM算法的半监督分类算法,以朴素贝叶斯(NB)完全有监督算法为对照,采用正交实验,考察特征选择与数据集选择对分类准确度的影响,实现一级功能基分类准确率达到80%,基本符合应用要求。为基于功能基辅助产品创新设计专利知识库的构建,提供了相关的技术支持。  相似文献   

8.
针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。  相似文献   

9.
考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。  相似文献   

10.
为缓解基于半监督学习的水面目标检测对有限标注样本过拟合的问题,提高无标注样本中目标提取的有效性,提出了基于多视图交叉一致性学习的半监督水面目标检测算法。首先,该算法通过数据增强的方式为训练样本生成不同的视图以丰富数据集的多样性;然后,利用所提出的多视图目标判别器为无标注样本在线生成伪标签,有助于提取无标注样本的有效信息;最后,利用所提出的多视图交叉一致性学习使同一目标实例的不同视图的输出实现交叉一致性正则化,以促进检测模型学习判别性的特征从而降低过拟合的风险。在海上和内河数据集上的实验结果表明:文中所提算法能够提高特征提取的判别性,对多类别的水面目标检测精度达到91.0%,比全监督检测算法提高了18.7%,比其他半监督检测算法提高了3.8%以上;在检测速度上,该算法达到13.1帧/s,基本满足实时性要求。所提算法通过多视图交叉一致性学习提高特征的判别性和缓解检测模型的过拟合风险,有助于提高半监督水面目标检测的性能。  相似文献   

11.
为提高半监督分类的性能,提出一种基于SOM神经网络的半监督分类算法SSC-SOM。结合SOM的聚类特性,基于先聚类后标记的思想,充分利用有标记样本和未标记样本训练SOM分类器;将聚类的形成和有标记样本分配到各个聚类中同时进行,并根据有标记样本计算各个聚类的聚类中心;在整个未标记样本的范围内,根据聚类中心,使用K近邻算法对未标记样本进行标记,挖掘未标记样本的隐含信息。在UCI数据集中进行分类实验,其结果表明,SSC-SOM的分类率比SSOM提高2.22%,且收敛性较好。  相似文献   

12.
传统支持向量机在处理包含大量未知类别样本的训练集时性能较差。针对这一不足,在少量已知类别样本和大量未知类别样本构成的训练集上,提出一种基于蚁群聚类算法的支持向量机半监督式学习方法。该方法应用蚁群聚类算法进行聚类分析,实现了同类样本的自组织聚类;通过一个递归的类别判定算法,回收样本类别;同时,提取各类簇之间靠得相对较近的边界样本组成精简训练集,以缩减训练集规模加快学习速度。实验表明,该算法能够自适应样本类别分布,有较高的分类精度和泛化能力。  相似文献   

13.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

14.
提出了一种基于协同谱聚类的推荐系统托攻击防御算法. 该算法首先使用谱聚类方法对协同聚类算法进行改进,以在用户和项目2个维度上同时进行聚类;接着在聚类基础上结合分级偏离平均度对用户进行项目推荐. 实验测试结果表明,在同等托攻击规模的情况下,该算法可以降低实施托攻击的用户和攻击数据对系统推荐结果的影响.  相似文献   

15.
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。  相似文献   

16.
针对传统半监督支持向量机的高斯核函数无法恰当描述流形数据特性,从而导致流形数据分类精度下降的问题,提出一种基于谱聚类的聚类核半监督支持向量机.利用谱聚类方法在特征向量空间中对原始样本数据进行重新表述,使得在新表述中同一聚类中的样本能够更好地积聚在一起,构建聚类核函数,并进而构造聚类核半监督支持向量机,使样本更好地满足半监督学习必须遵循的聚类假设.研究结果表明:聚类核半监督支持向量机对未标记样本的分类精度高且算法性能稳定,对控制参数的设置不敏感,适于解决流形数据的分类问题.  相似文献   

17.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

18.
提出一种基于文本分类技术的评审专家自动推荐模型,通过文本分类技术对评审专家所发表的论文进行所属学科领域的分类,进而判断出评审专家的主要研究领域。模型采用了基于TF/IDF特征权重阈值的向量空间模型算法和改进后的ATSVM分类算法。实验结果表明,改进后的ATSVM分类算法可以增加交互的过程使训练得到的分类器具备自学习的能力,改进后的主动学习SVM分类器在多类别的分类上能够精确分类并且提高分类速度。  相似文献   

19.
地震相识别是根据地震数据内部结构,将之划分为不同的地震相结构单元.本文研究基于半监督核均值漂移聚类的地震相自动识别算法,有效结合了半监督学习和核均值漂移聚类的优势,不用人为给定聚类个数,并且在聚类过程中方便引入少量地震相先验信息,从而有效提升地震相识别的准确性.理论数据聚类展示了该算法对地震相中的多个结构单元识别准确度较高.北海F3实际数据聚类结果表明,本文算法可以得到合理的地震相个数,与其它六种聚类算法的结果相比,本算法划分的地震相结构层次分明且能够区分细小微层.  相似文献   

20.
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号