共查询到20条相似文献,搜索用时 156 毫秒
1.
2.
一种结合独立性模型与差异评估的Co-Training改进方案 总被引:4,自引:0,他引:4
Co-Training算法要求两个特征视图满足一致性和独立性,但是,许多应用中不存在自然划分且满足这种假设的两个视图.为此,提出利用互信息(MI)或者CHI统计量评估特征之间的相互独立性,建立特征相互独立性模型(MID-Model).基于该模型,提出了新的特征子集划分方法PMID-MI与PMID-CHI算法,能有效地将一个特征集合划分成两个独立性较强的子集.并且利用多种差异评估法,进一步验证两个子集的独立性.基分类器之间的差异性能够减少两个基分类器给同一个未标注文本都标注错误的可能性.最后,提出了对Co-Training的改进算法SC-PMID.实验结果表明SC-PMID算法能够明显提高半监督分类精度. 相似文献
3.
特征选择就是从特征集合中选择出与分类类别相关性强而特征之间冗余性最小的特征子集,这样一方面可以提高分类器的计算效率,另一方面可以提高分类器的泛化能力,进而提高分类精度。基于互信息的特征相关性和冗余性的评价准则,在实际应用中存在以下的问题:(1)变量的概率计算困难,进而影响特征的信息熵计算困难;(2)互信息倾向于选择值较多的特征;(3)基于累积加和的候选特征与特征子集之间冗余性度量准则在特征维数较高的情况下容易失效。为了解决上述问题,提出了基于归一化模糊互信息最大的特征评价准则,基于模糊等价关系计算变量的信息熵、条件熵、联合熵;利用联合互信息最大替换累积加和的度量方法;基于归一化联合互信息对特征重要性进行评价;基于该准则建立了基于前向贪婪搜索的特征选择算法。在UCI机器学习标准数据集上的多组实验,证明算法能够有效地选择出对分类类别有效的特征子集,能够明显提高分类精度。 相似文献
4.
鉴于特征属性选择在网络流量分类中占据重要地位,为了确定最优特征子集,利用CFS作为适应度函数的改进遗传算法(GA-CFS),从网络流量的249个属性空间中提取主要属性并最终选定18个特征组合作为最优特征子集。通过AdaBoost算法把一系列的弱分类器提升为强分类器,对网络流量进行了深入的分类研究。实验结果表明,基于GA-CFS和AdaBoost的流量组合分类方法较弱分类器具有较高的分类准确率。 相似文献
5.
针对大量无关和冗余特征的存在可能降低分类器性能的问题,提出了一种基于近似Markov Blanket和动态互信息的特征选择算法。该算法利用互信息作为特征相关性的度量准则,并在未识别的样本上对互信息进行动态估值,利用近似Markov Blanket原理准确地去除冗余特征,从而获得远小于原始特征规模的特征子集。通过仿真试验证明了该算法的有效性。以支持向量机为分类器,在公共数据集UCI上进行了试验,并与DMIFS和ReliefF算法进行了对比。试验结果证明,该算法选取的特征子集与原始特征子集相比,以远小于原始特征规模的特征子集获得了高于或接近于原始特征集合的分类结果。 相似文献
6.
《图学学报》2017,(5)
针对光谱角制图(SAM)和最大似然(MLC)分类器对AVIRIS高光谱遥感图像进行植被分类精度均不高的问题,提出了一种基于多分类器的C5.0决策树植被分类方法。首先,利用支持向量机(SVM),进行核函数以及核函数参数选择,提取出AVIRIS高光谱图像中的植被信息。其次,利用C5.0算法将光谱角制图和最大似然分类器组合,作为决策树的特征属性,学习样本训练并生成分类规则;根据C5.0算法计算植被样本中对应分类器的信息增益率,选择信息增益率最大的属性去分类样本;当叶样本的分类结果满足停止生长的阈值,输出样本分类的结果,否则,回到开始,递归调用以上方法继续分类叶样本,直到所有子集仅包含一个植被类别的样本完成决策。实验结果表明,与光谱角制图和最大似然分类器相比,本文提出的方法整体精度分别提高了6.04%、2.92%,不仅证实了多分类器组合的可行性和有效性,而且更加适用于AVIRIS高光谱图像中的植被调查。 相似文献
7.
代码异味是违反基本设计原理或编码规范的软件特征,源代码中若存在代码异味将提高其维护的成本和难度。在代码异味检测方法中,机器学习相较其他方法能够取得更好的性能表现。针对使用大量特征进行训练可能会引起“维度灾难”以及单一模型泛化性能不佳的问题,提出一种混合特征选择和集成学习驱动的代码异味检测方法。通过ReliefF、XGBoost特征重要性和Pearson相关系数计算出所有特征的权重并进行融合,删除融合后权重值较低的无关特征,以得到特征子集。构建具有两层结构的Stacking集成学习模型,第一层的基分类器由3种不同的树模型构成,第二层以逻辑回归作为元分类器,两层结构的集成学习模型能够结合多样化模型的优点来增强泛化性能。将特征子集输入Stacking集成学习模型,从而完成代码异味分类与检测任务。实验结果表明,该方法能够减少特征维度,与Stacking集成学习模型第一层中的最优基分类器相比,其在F-measure和G-mean指标上最高分别提升1.46%和0.87%。 相似文献
8.
《计算机应用与软件》2017,(11)
针对入侵检测日志中存在着大量的不相关和冗余特征属性,严重影响检测的实时性,而大多数特征选择算法不能兼顾相关性和信息量,且容易陷入局部最优解,提出一种基于随机最小冗余条件互信息和支持向量机的混合入侵检测特征选择方法。首先利用互信息和相关性去除没有分类信息量和特征间高度相关的冗余特征,然后利用随机最小冗余条件互信息准则以及支持向量机选择出具有最多分类信息量的最优特征子集,一定程度地避免了局部最优解。实验结果表明,该方法能在确保入侵检测正确率的情况下以更高的效率选择出最小最优的入侵检测特征子集。 相似文献
9.
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。 相似文献
10.
通过将边界网关协议(BGP)更新报文激增异常问题抽象为二分类问题,提出一种基于改进高斯核函数的BGP异常检测(IGKAD)方法。采用FMS特征选择算法,选择能同时最大化类间距离和最小化类内距离的特征,得到度量分类能力的特征权值。利用基于Manhattan距离与特征权值的改进高斯核函数构造支持向量机(SVM)分类模型,并结合基于网格搜索与交叉验证的参数寻优方法,提高SVM模型分类准确率。通过设计特征效率函数,给出最优特征子集构造方法,从而选取最优特征子集作为训练数据集。实验结果表明,当训练集包含TOP10和TOP8特征时,IGKAD方法的分类准确率分别为91.65%和90.37%,相比基于机器学习的BGP异常检测方法分类性能更优。 相似文献
11.
12.
针对微阵列基因表达数据高维小样本、高冗余且高噪声的问题,提出一种基于FCBF特征选择和集成优化学习的分类算法FICS-EKELM。首先使用快速关联过滤方法FCBF滤除部分不相关特征和噪声,找出与类别相关性较高的特征集合;其次,运用抽样技术生成多个样本子集,在每个训练子集上利用改进乌鸦搜索算法同步实现最优特征子集选择和核极限学习机KELM分类器参数优化;然后基于基分类器构建集成分类模型对目标数据进行分类识别;此外运用多核平台多线程并行方式进一步提高算法计算效率。在六组基因数据集上的实验结果表明,本文算法不仅能用较少特征基因达到较优的分类效果,并且分类结果显著高于已有和相似方法,是一种有效的高维数据分类方法。 相似文献
13.
传统基于互信息的特征选择方法较少考虑特征之间的关联,并且随着特征数的增加,算法复杂度过大,基于此提出了一种新的基于互信息的特征子集评价函数。该方法充分考虑了特征间如何进行协作,选择了较优的特征子集,改善了分类准确度并且计算负荷有限。实验结果表明,该方法与传统的MIFS方法相比较,分类准确度提高了3%~5%,误差减少率也有25%~30%的改善。 相似文献
14.
针对特征空间中存在潜在相关特征的规律,分别利用谱聚类探索特征间的相关性及邻域互信息以寻求最大相关特征子集,提出联合谱聚类与邻域互信息的特征选择算法.首先利用邻域互信息移除与标记不相干的特征.然后采用谱聚类将特征进行分簇,使同一簇组中的特征强相关而不同簇组中的特征强相异.继而基于邻域互信息从每一特征簇组中选择与类标记强相关而与本组特征低冗余的特征子集.最后将所有选中特征子集组成最终的特征选择结果.在2个基分类器下的实验表明,文中算法能以较少的合理特征获得较高的分类性能. 相似文献
15.
基于环形马尔可夫模型的纹理图像分类 总被引:1,自引:0,他引:1
赵银娣 《计算机应用与软件》2009,26(12):63-65,70
提出了一种基于环形马尔可夫模型的纹理图像分类方法。利用环形邻域构建马尔可夫模型,在模型参数求解过程中,为了避免矩阵奇异,设计了模型参数分步求解算法。基于环形马尔可夫模型提取纹理特征,然后基于动态邻域Tabu搜索算法进行特征选择,得到最优的纹理特征子集,输入到最大似然法分类器中实现图像的分类。实验结果证明,与传统的栅格马尔可夫模型相比,环形马尔可夫模型能够更好地描述纹理图像像元之间的空间相关性信息,大大提高了纹理图像分类精度。 相似文献
16.
17.
18.
19.
针对现有分类器对遥感影像分类结果存不准确的问题,本文提出了一种基于决策树分类器的遥感影像分类方法,该方法以复合决策树Boost Tree思想为基础,首先利用分形理论中的毯模型提取遥感影像的纹理特征,根据遥感影像分类的特点,构造新的单棵决策树生成算法对遥感影像进行分类。以北京市五环内区域为研究区,使用landsat7 ETM数据源,实现了基于分形纹理特征、光谱特征的改进决策树分类。实验结果表明:通过毯模型提取的纹理特征可以很好地表达表面特征,辅以该纹理信息的改进决策树分类精度相比于只用光谱信息进行分类的精度有一定的提高,改善了分类效果。 相似文献
20.
面向分布式数据流大数据分类的多变量决策树 总被引:1,自引:0,他引:1
分布式数据流大数据中的类别边界不规则且易变,因此基于单变量决策树的集成分类器需要较大数量的基分类器才能准确地近似表达类别边界,这将降低集成分类器的学习与分类性能.因而,本文提出了基于几何轮廓相似度的多变量决策树.在最优基准向量的引导下将n维空间样本点投影到一维空间以建立有序投影点集合,然后通过类别投影边界将有序投影点集合划分为多个子集,接着分别对不同类别集合的交集递归投影分裂,最终生成决策树.实验表明,本文提出的多变量决策树GODT具有很高的分类精度和较低的训练时间,有效结合了单变量决策树学习效率高与多变量决策树表示能力强的优点. 相似文献