首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

2.
针对传统单标签特征选择算法不能直接应用于多标签数据的问题,提出一种多标签特征选择算法——MML-RF算法.在ReliefF的基础上,MML-RF算法提出新的类内最近邻样本查找方式,并结合多标签的贡献值改进特征权值的计算方法,能很好地适应多标签数据的特点;同时为了减少特征冗余,MML-RF算法以互信息作为特征冗余度量方式,提出一种去冗余方法,能够得到更小的特征子集.实验表明,MML-RF多标签特征选择算法得到的特征子集规模较小,且在多标签数据集上具有很好的分类效果,能够提升多标签学习和数据挖掘工作的效率.  相似文献   

3.
在多标签分类问题中,标签之间往往是相关的,为了提高分类性能,利用标签之间的相关性,提出AdaBoost.MLR算法和标签相关性分析方法。AdaBoost.MLR算法采用余弦相似度来计算标签相关性矩阵,利用标签相关性矩阵对原始标签矩阵进行补全转换为模糊标签矩阵,将标签空间划分为标签集、标签相关集和标签无关集,结合标签之间的相关性和弱分类器的分类情况,对样本权重进行调整。AdaBoost.MLR算法也能解决多类别分类问题,在其标签相关性的计算中,根据已经训练的弱分类器得到的临时强分类器的分类结果,构造标签相似性矩阵。实验结果表明,文中提出的算法在实验数据集上优于现有的算法,尤其在标签相关性复杂的数据集上分类性能有显著提升。  相似文献   

4.
针对现实生活中出现的越来越多的高维海量分类数据,基于属性聚类的方法,提出了一种新的离群数据挖掘算法.该算法首先通过计算属性之间的相关性,将高维分类数据的属性分成多个属性子集,然后在多个属性子集上根据离群得分分别进行离群挖掘,最终选择离群得分最大的k个数据对象作为离群数据.通过采用人工数据集和UCI数据集验证了算法的有效性和可行性,实验结果表明,该算法在精度和效率方面都有提高,可用于高维海量分类数据的离群挖掘.  相似文献   

5.
自动分类是数据挖掘和机器学习中非常重要的研究领域.针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯分类,给出增量式贝叶斯分类机理参数计算及其算法.对算法分两种情况处理:第一种情况是新增样本有类别标签,则利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器.实验结果表明,该算法是可行有效的,比简单贝叶斯分类算法有更高的精度.增量式贝叶斯分类算法的提出为分类器的更新提供了一条新途径.  相似文献   

6.
为了在有标签的训练集中保留高质量的样本,首先利用无标签训练集得出置信度高的k个样本,再结合有标签训练样本,不断迭代直至训练完成。实验结果表明:随着无标记样本比例的不断增加,本文算法预测准确性明显高于朴素贝叶斯分类算法,而且其性能比传统半监督学习方法有所改善。  相似文献   

7.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

8.
在多标签分类中,标签之间的相关关系是一个重要的因素。为了利用标签之间的相关关系,文章提出了一种基于相关信息熵的多标签分类算法,使用相关信息熵来衡量标签之间相关关系的强弱程度。首先找出相关信息熵值最大的k标签组合的集合,然后使用LP(Label Powerset)分类器对每一个标签组合进行训练。在7个不同实验数据集上的实验结果表明:文中提出的算法的分类性能在其中的大部分数据集上优于其它对比的分类算法,而其它对比的分类算法仅在某一个数据集上优于文中提出的算法。  相似文献   

9.
针对训练数据中的非线性流形结构以及基于稀疏表示的多标签分类中判别信息丢失严重的问题,该文提出一种非负稀疏近邻表示的多标签学习算法。首先找到待测试样本每个标签类上的k-近邻,然后基于LASSO稀疏最小化方法,对待测试样本进行非负稀疏线性重构,得到稀疏的非负重构系数。再根据重构误差计算待测试样本对每个类别的隶属度,最后实现多标签数据分类。实验结果表明所提出的方法比经典的多标签k近邻分类(ML-KNN)和稀疏表示的多标记学习算法(ML-SRC)方法性能更优。  相似文献   

10.
为了实现Scratch可视化编程领域的作品分类,提出了一种基于标签关联性的多标签分类算法(MLLR),构建了一个有效的多标签Scratch分类模型.首先提取作品的Block使用特征、计算思维技能特征和复杂度特征3类特征作为分类特征;然后针对RAKEL算法随机选择标签子集,忽略了标签间的关联性,提出了改进的MLLR算法,该方法根据多标签之间的关联性来划分标签子集,再训练相应的标签幂集子分类器.实验结果表明,MLLR算法在分类性能和时间性能上优于RAKEL等多标签分类算法,构建的分类模型对于Scratch作品具有较强的适用性,分类的准确率达到81.3%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号