共查询到18条相似文献,搜索用时 60 毫秒
1.
具有非一致性数据预处理的粗糙集特征选择算法 总被引:1,自引:0,他引:1
大多数特征选择算法面临着对非一致性数据缺乏有效的处理的问题。本文提出了一种处理非一致性数据的方法,采用阈值将非一致性数据做归类处理,当某一类非一致性数据的某个取值比例超过了该闽值,则该类数据都取该值,并只保留一条记录。在此基础上,本文提出了一种改进的基于粗糙集理论的特征选择算法。 相似文献
2.
动态特征选择算法能够大幅提升处理动态数据的效率,然而目前基于模糊粗糙集的无监督的动态特征选择算法较少.针对上述问题,提出一种特征分批次到达情况下的基于模糊粗糙集的无监督动态特征选择(UDFRFS)算法.首先,通过定义伪三角范数和新的相似关系在已有数据的基础上进行模糊关系值的更新过程,从而减少不必要的运算过程;其次,通过利用已有的特征选择结果,在新的特征到达后,使用依赖度判断原始特征部分是否需要重新计算,以减少冗余的特征选择过程,从而进一步提高特征选择的速度.实验结果表明,UDFRFS相较于静态的基于依赖度的无监督模糊粗糙集特征选择算法,在时间效率方面能够提升90个百分点以上,同时保持较好的分类精度和聚类表现. 相似文献
3.
在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能. 相似文献
4.
多视图数据从不同角度描述数据对象,数据在不同视图中的特征表示之间存在着相关性、互补性及多样性信息.综合利用这些信息对多视图数据处理至关重要.然而,多视图数据通常具有高维度特点,且常含有噪声特征,这为多视图数据的处理与分析带来了许多困难.无监督多视图特征选择无需样本标记信息,从多个视图源的原始高维特征中学习更紧凑、更准确的特征表示以提高数据分析的效果,在多视图数据处理领域起着重要作用.根据已有的无监督多视图特征选择模型的工作机制的异同,对这些模型进行归纳和总结,分析其中存在的不足,并指出未来研究的方向. 相似文献
5.
针对传统的无监督特征选择不能充分兼顾样本及特征的局部结构,以及没有考虑非凸正则项带来更稀疏的解并能够选择出更具判别性特征等问题,提出了自适应图嵌入和非凸正则特征自表达的无监督特征选择方法.通过图嵌入降低特征维度,获得样本相似度矩阵,引导特征选择;引入特征自表达策略,用其余特征线性表示每一个特征,考虑特征间的相似性关系,保持特征局部结构;在特征自表达中添加非凸正则项,获得行更稀疏的权重矩阵,实现特征选择;在特征选择过程中执行自适应图嵌入对数据局部结构进行学习,选择最优特征子集;为求解非凸稀疏问题,使用交替迭代方法优化求解模型,设计了一种新的无监督特征选择算法.在6个数据集上与其他算法进行实验对比分析,实验结果表明所提算法是有效的. 相似文献
6.
目前,大多数特征选择算法是针对完整数据集的.而面对缺失及无标签数据集时,多数特征选择算法是无效的.为了解决缺失及无标签数据集的特征选择问题,本文提出了一种基于加权FCM,融合互信息同时交替更新特征权重的ReliefF算法(WFCM-IReliefF,Improved ReliefF Based on WFCM).首先,对均值预填补的完整数据集利用FCM算法进行无监督学习,从而找到样本近邻;其次,将ReliefF算法计算得到的特征权重代入加权FCM算法中,解决原始空间与特征空间的不同造成的聚类效果不佳的问题,通过加权FCM算法和ReliefF算法交替更新得到关键特征;再者,对特征选择后的数据集利用矩阵分解技术改善对缺失数据的预填补.最后,利用多个UCI公共数据集的对比实验,验证了本文提出的算法与其他对比算法相比有较为满意的效果. 相似文献
7.
8.
特征选择是去除不相关和冗余特征,找到具有良好泛化能力的原始特征的紧凑表示,同时,数据中含有的噪声和离群点会使学习获得的系数矩阵的秩变大,使得算法无法捕捉到高维数据中真实的低秩结构。因此,利用Schatten-p范数逼近秩最小化问题和特征自表示重构无监督特征选择问题中的系数矩阵,建立一个基于Schatten-p范数和特征自表示的无监督特征选择(SPSR)算法,并使用增广拉格朗日乘子法和交替方向法乘子法框架进行求解。最后在6个公开数据集上与经典无监督特征选择算法进行实验比较,SPSR算法的聚类精度更高,可以有效地识别代表性特征子集。 相似文献
9.
维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法dme-TS和一种无监督特征选择方法UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能. 相似文献
10.
在无标签高维数据普遍存在的数据挖掘和模式识别任务中,无监督特征选择是必不可少的预处理步骤。然而现有的大多数特征选择方法忽略了数据特征之间的相关性,选择出具有高冗余、低判别性的特征。本文提出一种基于联合不相关回归和非负谱分析的无监督特征选择方法(joint uncorrelated regression and nonnegative spectral analysis for unsupervised feature selection),在选择不相关且具有判别性特征的同时,自适应动态确定数据之间的相似性关系,从而能获得更准确的数据结构和标签信息。而且,模型中广义不相关约束能够避免平凡解,所以此方法具有不相关回归和非负谱聚类两种特征选择方法的优点。本文还设计出一种求解模型的高效算法,并在多个数据集上进行了大量实验与分析,验证模型的优越性。 相似文献
11.
模糊粗糙神经网络特征选择方法研究 总被引:1,自引:0,他引:1
实际采集的数据中往往存在模糊不确定性和粗糙不确定性,为全面度量数据的不确定性,引入了模糊粗糙集中的模糊粗糙隶属函数概念,并结合容错能力较强的神经网络设计了一种新的模糊粗糙神经网络.该网络不仅训练速度快,且具有较好的分类效果.利用该网络设计了一种新的特征选择算法,根据精度下降指标对输入节点进行结构修剪,实现最优特征子集的搜索.通过UCI数据集实验,并与RBF网络选择结果进行比较,表明该算法具有精度高、速度快、泛化性能好等优点,是有效的. 相似文献
12.
13.
将Ziarko的集合变精度包含思想引入模糊粗糙集模型中,使用!-精度集结算子生成变精度模糊粗糙集,用于大型数据库的模糊数据分析。改进后的模型对噪声数据具有一定的容错能力,从而增强了其在实际问题处理中的鲁棒性及适应新情况和知识预测的能力。 相似文献
14.
15.
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F-measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F-measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F-measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F-measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。 相似文献
16.
特征选择是数据挖掘和机器学习领域中一种常用的数据预处理技术。在无监督学习环境下,定义了一种特征平均相关度的度量方法,并在此基础上提出了一种基于特征聚类的特征选择方法 FSFC。该方法利用聚类算法在不同子空间中搜索簇群,使具有较强依赖关系(存在冗余性)的特征被划分到同一个簇群中,然后从每一个簇群中挑选具有代表性的子集共同构成特征子集,最终达到去除不相关特征和冗余特征的目的。在 UCI 数据集上的实验结果表明,FSFC 方法与几种经典的有监督特征选择方法具有相当的特征约减效果和分类性能。 相似文献
17.
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F-measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F-measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F-measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F-measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。 相似文献
18.
目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro 和Micro F1效果都优于IG, CHI和OCFS. 相似文献