首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对多维数据集,为得到一个最优特征子集,提出一种基于特征聚类的封装式特征选择算法。在初始阶段,利用三支决策理论动态地将原始特征集划分为若干特征子空间,通过特征聚类算法对每个特征子空间内的特征进行聚类;从每个特征类簇里挑选代表特征,利用邻域互信息对剩余特征进行降序排序并依次迭代选择,使用封装器评估该特征是否应该被选择,可得到一个具有最低分类错误率的最优特征子集。在UCI数据集上的实验结果表明,相较于其它特征选择算法,该算法能有效地提高各数据集在libSVM、J48、Nave Bayes以及KNN分类器上的分类准确率。  相似文献   

2.
多数传统的属性聚类算法不能直接处理连续型属性,为了避免连续数据离散化处理时造成的信息损失,降低样本属性邻域求解的复杂度,提高特征基因提取的效率。文中提出一种将邻域互信息用于属性聚类的特征基因选择方法,用于在海量的基因表达谱数据中挖掘出少量的具有分类识别能力且冗余度较小的特征基因。  相似文献   

3.
多数传统的属性聚类算法不能直接处理连续型属性,为了避免连续数据离散化处理时造成的信息损失,降低样本属性邻域求解的复杂度,提高特征基因提取的效率。文中提出一种将邻域互信息用于属性聚类的特征基因选择方法,用于在海量的基因表达谱数据中挖掘出少量的具有分类识别能力且冗余度较小的特征基因。  相似文献   

4.
李欣倩  杨哲  任佳 《测控技术》2022,41(2):36-40
根据朴素贝叶斯算法的特征条件独立假设,提出一种基于互信息和层次聚类双重特征选择的改进朴素贝叶斯算法。通过互信息方法剔除不相关的特征,然后依据欧氏距离将删减后的特征进行分层聚类,通过粒子群算法得到聚类簇的数量,最后将每个聚类簇中与类别互信息最高的特征合并为特征子集,并由朴素贝叶斯算法得到分类准确率。根据实验结果可知,该算法可以有效减少特征之间的相关性,提升算法的分类性能。  相似文献   

5.
基于互信息最大化和特征聚类的特征选择   总被引:1,自引:0,他引:1  
提出一种互信息最大化和特征聚类相结合的特征选择法。并将其应用于邮件识别。通过互信息最大化从原始特征空间中选择次优特征子集.借助于特征空间的聚类来剔除冗余特征,从而实现特征空间的再次降维。实验结果表明该方法是一种有效的特征选择法。  相似文献   

6.
特征选择是机器学习非常重要的预处理步骤,而邻域互信息是一种能直接处理连续型或离散型特征的有效方法。然而基于邻域互信息的特征选择方法一般采用启发式贪婪策略,其特征子集质量难以得到有效保证。基于三支决策的思想,提出了三支邻域互信息特征选择方法(NMI-TWD)。通过扩展三个潜在的候选特征子集,并保持各子集之间的差异性,以获得更高质量的特征子集。对三个差异性的特征子集进行集成学习,构建三支协同决策模型,以进一步提高分类学习性能。UCI实验数据表明,新方法的特征选择结果和分类性能较其他方法更优,说明了其有效性。  相似文献   

7.
针对邻域信息系统的特征选择模型存在人为设定邻域参数值的问题。分别计算样本与最近同类样本和最近异类样本的距离,用于定义样本的最近邻以确定信息粒子的大小。将最近邻的概念扩展到信息理论,提出最近邻互信息。在此基础上,采用前向贪心搜索策略构造了基于最近邻互信息的特征算法。在两个不同基分类器和八个UCI数据集上进行实验。实验结果表明:相比当前多种流行算法,该模型能够以较少的特征获得较高的分类性能。  相似文献   

8.
传统的视觉词典一般通过K-means聚类生成,一方面这种无监督的学习没有充分利用类别的先验信息,另一方面由于K-means算法自身的局限性导致生成的视觉词典性能较差。针对上述问题,提出一种基于谱聚类构建视觉词典的算法,根据训练样本的类别信息进行分割并采用动态互信息的度量方式进行特征选择,在特征空间中进行谱聚类并生成最终的视觉词典。该方法充分利用了样本的类别信息和谱聚类的优点,有效地解决了图像数据特征空间的高维性和结构复杂性所带来的问题;在Scene-15数据集上的实验结果验证了算法的有效性。  相似文献   

9.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

10.
针对传统模糊聚类分割方法无法有效模拟数据分布特征的问题,提出基于邻域约束高斯混合模型的模糊聚类图像分割算法.利用高斯分布刻画聚类内像素光谱测度统计特征,定义像素与其邻域像素相关性的先验概率,并作为高斯混合模型中各高斯分量权重系数,构建包含特征场邻域作用的高斯混合模型.利用高斯分量描述像素与聚类间的非相似性测度,建立基于高斯混合模型的模糊聚类目标函数.在传统模糊聚类方法基础上,采用高斯混合模型定义像素与聚类间的非相似性测度,并在高斯混合模型中融入邻域作用,有效解决数据具有多峰值特征的问题.最后通过实验验证文中算法的准确性.  相似文献   

11.
近邻法对不相关特征的敏感性很高,利用邻域重构系数可以保持原有数据结构的优点,为此,文中提出基于邻域保持学习的无监督特征选择算法.首先根据数据样本和邻域的相似性构造相似矩阵,并引入中间矩阵构造低维空间.然后利用拉普拉斯乘子法选择有效特征子集.在4个公开数据集上的实验表明,文中算法可以有效识别代表性特征.  相似文献   

12.
针对高维复杂的符号数据集在聚类中的聚类效果差和计算耗时过大的问题,首先提出了一种基于邻域距离的无监督特征选择算法,然后在选择到的特征子集上进行重新聚类,从而有效提高了聚类结果的精度,降低了聚类计算的计算耗时。实验结果表明,该算法可以找到有效的特征子集,提高数据集的聚类精度,降低面对高维复杂数据集聚类的计算耗时。  相似文献   

13.
多尺度决策信息系统的特征子集选择是处理多尺度分类问题的一种有效的数据预处理方法.在实际应用中,数据类型往往多样混合,现有的多尺度模型无法有效处理这类数据.针对该问题,文中面向多源异构多尺度数据,提出多尺度邻域半径的形式化定义,构造多尺度邻域信息粒并讨论其相关性质.在此基础上,探讨特征的重要度,提出可同步进行最优尺度选择和特征选择的特征子集选择算法.改进原有的Wu-Leung模型,在一定程度上扩展其在实际问题上应用的范围.最后,在UCI数据集上验证模型和算法的可行性和有效性.  相似文献   

14.
数值型不完备信息系统的特征选择方法大多是以容差关系为基础,但是这种处理方式存在数据相似性刻画过于宽松的缺陷.文中提出邻域量化容差关系的粗糙集模型,在该模型的基础上定义邻域量化容差条件熵,分析相关性质,根据邻域量化容差条件熵的单调性构造相应的特征选择算法.实验表明,文中算法在特征选择结果、运行时间和分类精度方面具有优越性.  相似文献   

15.
在已有的特征选择算法中,常用策略是通过相关准则选择与标记集合相关性较强的特征,然而该策略不一定是最优选择,因为与标记集合相关性较弱的特征可能是决定某些类别标记的关键特征.基于这一假设,文中提出基于局部子空间的多标记特征选择算法.该算法首先利用特征与标记集合之间的互信息得到一个重要度由高到低的特征序列,然后将新的特征排序空间划分为几个局部子空间,并在每个子空间设置采样比例以选择冗余性较小的特征,最后融合各子空间的特征子集,得到一组合理的特征子集.在6个数据集和4个评价指标上的实验表明,文中算法优于一些通用的多标记特征选择算法.  相似文献   

16.
针对传统鲸鱼优化算法(WOA)不能有效处理连续型数据、邻域粗糙集对噪声数据的容错性较差等问题,文中提出基于自适应WOA和容错邻域粗糙集的特征选择算法.首先,为了避免WOA过早陷入局部最优,基于迭代周期构建分段式动态惯性权重,改进WOA的收缩包围和螺旋捕食行为,设计自适应WOA.然后,为了解决邻域粗糙集对噪声数据缺乏容错性的问题,引入邻域内相同决策特征所占的比例,定义容错邻域上下近似集、容错近似精度和近似粗糙度、容错依赖度及容错近似条件熵.最后,基于容错邻域粗糙集构造适应度函数,使用自适应WOA,不断迭代以获取最优子群.高维数据集上采用费雪评分算法进行初步降维,降低算法的时间复杂度.在8个低维UCI数据集和6个高维基因数据集上的实验表明,文中算法可有效选择特征个数较少且分类精度较高的特征子集.  相似文献   

17.
基于自表示关联图的谱聚类模型性能受冗余特征影响较大.为了缓解高维数据无效特征的负面影响,文中提出联合特征选择和光滑表示的子空间聚类算法.首先基于自表示思想构建系数矩阵,将特征选择与数据重构纳入同一框架,同时使用权值因子衡量相关特征贡献度,并对系数矩阵进行组效应约束以保持局部性.通过交替变量更新法优化目标函数模型.在人造数据与标准数据库上的实验表明,文中算法在各项性能上均较优.  相似文献   

18.
基于K-均值聚类的无监督的特征选择方法   总被引:10,自引:1,他引:10  
模式识别方法首先要解决的一个问题就是特征选择,目前许多方法考虑了有监督学习的特征选择问题,对无监督学习的特征选择问题却涉及得很少。依据特征对分类结果的影响和特征之间相关性分析两个方面提出了一种基于K-均值聚类方法的特征选择算法,用于无监督学习的特征选择问题。  相似文献   

19.
介绍了一种新颖的基于高斯混合模型的特征选择算法,并且应用该方法的结果对模拟数据和真实数据进行聚类。实验结果表明,该算法可以有效地确定显著属性,提高聚类准确度。  相似文献   

20.
在多标记分类问题中,每个样本可以同时与多个标记类别相关,其中一些标记之间可能具有相关性,充分利用这些标记相关性,可优化分类性能.因此,文中利用标记的频繁项集对标记相关性进行挖掘,提出针对基于邻域粗糙集的多标记属性约简算法进行改进的特征选择算法,并进一步将训练样本根据特征之间的相似性进行聚类,结合局部样本上的标记相关性,进行属性约简及分类.在5个多标记分类数据集上的实验验证文中算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号