首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
一种面向高维数据的均分式Lasso特征选择方法   总被引:1,自引:0,他引:1  
Lasso是一种基于一范式的特征选择方法。与已有的特征选择方法相比较,Lasso不仅能够准确地选择出与类标签强相关的变量,同时还具有特征选择的稳定性,因而成为人们研究的一个热点。但是,Lasso方法与其他特征选择方法一样,在高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟和)。为解决此问题,提出一种改进的Lasso方法:均分式Lasso方法。均分式Lasso方法将特征集均分成K份,对每份特征子集进行特征选择,将每份所选的特征进行合并,再进行一次特征选择。实验表明,均分式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法。  相似文献   

2.
Lasso方法与其他特征选择一样,对高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟合).为解决此问题,提出一种改进的Lasso方法:迭代式Lasso方法.迭代式Lasso方法首先将特征集分成K份,对第一份特征子集进行特征提取,将所得特征加入第二份,再对第二份特征进行特征提取;然后将所得特征加入第三份,依次迭代下去,直到第K份,得到最终特征子集.实验表明,迭代式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法.目前,此方法已经很好地应用在高维海量和高维小样本数据的分类或预测模型中.  相似文献   

3.
近年来,基于基因表达谱的肿瘤分类问题引起了广泛关注,为癌症的精确诊断及分型提供了极大的便利.然而,由于基因表达谱数据存在样本数量小、维数高、噪声大及冗余度高等特点,给深入准确地挖掘基因表达谱中所蕴含的生物医学知识和肿瘤信息基因选择带来了极大困难.文中提出一种基于迭代Lasso的信息基因选择方法,以获得基因数量少且分类能力较强的信息基因子集.该方法分为两层:第一层采用信噪比指标衡量基因的重要性,以过滤无关基因;第二层采用改进的Lasso方法进行冗余基因的剔除.实验采用5个公开的肿瘤基因表达谱数据集验证了本文方法的可行性和有效性,与已有的信息基因选择方法相比具有更好的分类性能.  相似文献   

4.
Lasso(Least absolute shrinkage and selection operator)是目前广为应用的一种稀疏特征选择算法。经典的Lasso算法通过对高维数据进行特征选择一定程度上降低了计算开销,然而,求解Lasso问题目前仍面临诸多困难与挑战,例如当特征维数和样本数量非常大时,甚至无法将数据矩阵加载到主存储器中。为了应对这一挑战,Screening加速技巧成为近年来研究的热点。Screening可以在问题优化求解之前将稀疏优化结果中系数必然为0的无效特征筛选出来并剔除,从而极大地降低数据维度,在不损失问题求解精度的前提下,加速稀疏优化问题的求解速度。首先推导了Lasso的对偶问题,根据对偶问题的特性得出基于对偶多面投影的Screening加速技巧,最后将Screening加速技巧引入Lasso特征选择算法,并在多个高维数据集上进行实验,通过加速比、识别率以及算法运行时间三个指标验证了Screening加速技巧在Lasso算法上的良好性能。  相似文献   

5.
在基因表达谱数据的分析中,针对有效合理地选择特征基因集的问题,本文将分层抽样技术引入特征基因选择,提高特征基因集的分类能力。以神经网络作为分量分类器,神经网络集成进行分类预测。并在结肠癌数据集上进行实验,实验结果表明该方法能有效地降低特征基因集选择的复杂性,提高对于未知样本的分类预测效果。  相似文献   

6.
段旭 《计算机工程与设计》2011,32(11):3836-3839
一个微阵列数据集包含了成千上万的基因、相对少量的样本,而在这成千上万的基因中,只有一少部分基因对肿瘤分类是有贡献的,因此,对于肿瘤分类来说,最重要的一个问题就是识别选择出对肿瘤分类最有贡献的基因。为了能有效地进行微阵列基因选择,提出用一个边缘分布模型(marginal distribution model,MDM)来描述微阵列数据。该模型不仅能区分基因是否在两样本中差异表达,而且能区分出基因在哪一类样本中表达,从而选择出的基因更具有生物学意义。模拟数据及真实微阵列数据集上的实验结果表明,该方法能有效地进行微阵列基因选择。  相似文献   

7.
张阳  王小宁 《计算机应用》2021,41(11):3151-3155
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。  相似文献   

8.
基于基因表达谱建立具有有效预测性的肿瘤分类模型对肿瘤的临床诊断与治疗具有非常重要的意义。针对肿瘤亚型识别问题,所要解决的一个关键问题就是发现决定肿瘤亚型的一组特征基因子集。提出了一个组合式的肿瘤信息基因选择策略:首先从单个的样本基因信息量角度出发,采用Relief-F算法剔除分类无关基因;其次考虑样本基因间的关系,使用K-means算法过滤冗余基因,最后采用人工神经网络作为分类器来测试和评估所选出的肿瘤信息基因的分类能力。实验是在具有七种亚型的急性白血病基因表达谱数据集上完成的,其留一法准确率达到100%,表明所提出的信息基因选择方法对于多肿瘤亚型的识别问题研究是非常有效的。  相似文献   

9.
基于模糊粗糙集的肿瘤分类特征基因选取   总被引:2,自引:0,他引:2  
依据基因表达谱有效建立肿瘤分类模型的关键在于,准确找出决定样本类剐的一组特征基因.粗糙集理论作为一种新的软计算方法能够保持在原数据集的分类能力不变的基础上,对属性极大约简,从大量基因中找到对分类有效的基因.由于基因表达谱数据集的连续性,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,尝试将模糊粗糙集应用于特征基因的选取,提出了基于互信息的模糊粗糙集属性约简算法,运用于基因表达谱数据集的基因选取.然后分别采用KNN和C5.0分类器进行特征基因分类性能进行检验.以急性白血病亚型(leukemia Microarray)和直肠癌(colon Microarray)分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

10.
肿瘤基因表达谱分类特征基因选取问题及分析方法研究   总被引:18,自引:1,他引:18  
对肿瘤分类特征基因选取问题的研究是发现肿瘤特异表达基因、研究肿瘤基因表达模式的重要手段,文中基于多类别肿瘤基因表达谱数据集,从研究肿瘤与正常组织的分类入手,对肿瘤分类特征基因选取问题进行分析和研究,首先对基于Relief算法的特征选取策略加以改进生成候选特征集合;然后以支持向量机作为分类器对其分类性能进行检验以选取分类特征基因;最后结合分类模型。利用灵敏度分析方法进行特征基因的精确搜索以滤除冗余,基于该方法文中选出了52个具有良好分类性能的特征基因作为肿瘤的基因特征,并对其表达行为进行了简要分析。  相似文献   

11.
基因表达谱中存在大量与肿瘤分类无关的基因,严重降低肿瘤诊断的准确率.基因表达谱还存在高维小样本、噪声大等问题,增加肿瘤诊断的难度.为了获取基因数量较少且分类能力较强的信息基因子集,文中提出基于对称不确定性(SU)和支持向量机递归特征消除(SVM-RFE)的信息基因选择方法.首先利用SU评估基因和类标签之间的相关性,根据SU定义近似马尔科夫毯,快速消除大量无关和冗余基因.然后利用SVM-RFE进一步剔除冗余基因,获取有效的信息基因子集.实验表明,文中方法可以在选取维数较少或相等的信息基因子集情况下获取较高的肿瘤分类性能.  相似文献   

12.
基于信噪比与邻域粗糙集的特征基因选择方法   总被引:3,自引:3,他引:0  
鉴于传统基因选择方 法会选出大量冗余基因从而导致样本预测准确率较低,提出了一种基于信噪比与邻域粗糙集 的特征基因选择方法(Signal noise ration and the neighborhood rough set, SNRS) 。 首先采用信噪比指标获得分类能力较强的预选特征子集;然后利用邻域粗糙集约简算法 对预选特征子集进行寻优;最后采用不同的分类器对特征基因子集进行分类。通过实验表 明,该方法能够克服传统分类算法精度不高的缺陷,并且能够在较少的特征基因下取得较高 的分类精度,验证了该方法的可行性和有效性。  相似文献   

13.
基于BP神经网络的肿瘤特征基因选取   总被引:2,自引:0,他引:2  
该文提出基于BP神经网络的灵敏度分析方法,并用于选取肿瘤特征基因。以结肠癌基因表达谱为例,首先定义基因对BP神经网络模型输出函数的灵敏度,递归去除灵敏度较低的若干基因,生成一组嵌套的候选特征基因子集。然后以支持向量机为分类器,检验候选特征基因子集对样本分类的贡献,选取错分率最低的候选特征基因子集为结肠癌特征基因子集。通过实验对比,该特征基因子集的分类结果优于文献给出的其他特征基因子集,表明了该方法的可行性和有效性。  相似文献   

14.
基于遗传算法及聚类的基因表达数据特征选择   总被引:1,自引:0,他引:1  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。  相似文献   

15.
基于支持向量机的肿瘤分类特征基因选取   总被引:19,自引:0,他引:19  
依据基因表达谱有效建立肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因.针对该问题,在分析肿瘤基因表达谱特征的基础上,研究了肿瘤分类特征基因选取问题.首先,提出了一种新的类别可分性判据以滤除分类无关基因,并采用支持向量机作为分类器进行特征基因分类性能的检验.然后,采用两两冗余分析及基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除.以急性白血病亚型分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

16.
高娟  王国胤  胡峰 《计算机科学》2012,39(10):193-197
从信息学角度出发寻找肿瘤相关基因、发现肿瘤基因表达特征对肿瘤的诊断和治疗具有重要的生物学意义,而肿瘤与正常组织的分类是其中一个重要应用。根据多类别肿瘤基因表达谱,提出了一种自动特征选择方法。首先,结合非参数方法和filter思想,利用决策序列的随机性度量基因的权值并排序;然后,采用相关信息熵进行冗余性排除,自动地选择出具有高分辨能力、低冗余度的特征基因子集。实验结果表明,提出的方法能从多类别肿瘤基因表达谱数据中自动选出30个具有良好分类能力的特征基因,且具有较高的正确识别率。  相似文献   

17.
A reliable and precise classification of tumors is essential for successful treatment of cancer. Gene selection is an important step for improved diagnostics. The modified SFFS (sequential forward floating selection) algorithm based on weighted Mahalanobis distance, called MSWM, is proposed to identify optimal informative gene subsets taking into account joint discriminatory power for accurate discrimination in this study. Firstly, we make use of the one-dimensional weighted Mahalanobis distance to perform a preliminary selection of genes and then make use of the modified SFFS method and multidimensional weighted Mahalanobis distance to obtain the optimal informative gene subset for tumor classification. Finally, we used the k nearest neighbor and naive Bayes methods to classify tumors based on the optimal gene subset selected using the MSWM method. To validate the efficiency, the proposed MSWM method is applied to classify two different DNA microarray datasets. Our empirical study shows that the MSWM method for tumor classification can obtain better effectiveness of classification than the BWR (the ratio of between-groups to within-groups sum of squares) and IVGA_I (independent variable group analysis I) methods. It suggests that the MSWM gene selection method is ability to obtain correct informative gene subsets taking into account genes’ joint discriminatory power for tumor classification.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号