首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
传统的图正则化方法使用欧氏距离度量样本空间的相似度,并不能准确考察复杂数据集的邻域信息,容易导致模型在复杂形状数据和非凸数据集中的泛化性能下降。提出一种改进的图正则算法,使用等距特征映射保留样本空间的邻域信息,帮助模型进行流形学习,同时结合使用KL约束进一步使得数据表示的外部结构变得光滑,从而捕获到更稀疏和高级的特征表示。在MNIST和YaleB等数据集上的实验结果表明,相比于流行的几种特征提取算法,该算法能够提取到更有意义和稳健的特征。在分类任务和聚类任务上具有优势,同时具有更好的抗干扰性能。  相似文献   

2.
局部保持流形学习算法通过保持局部邻域特性来挖掘隐藏在高维数据中的内在流形结构。然而,对于缺乏足够训练样本的高维数据集,或者高维数据集存在非线性结构和高维数据特征中存在冗余、干扰特征,使得在原特征空间中利用欧式距离定义的邻域关系并不能真实反映数据的内在流形结构,从而影响算法的性能。提出利用正约束寻找特征子空间的方法,使得在此子空间中更多的同类样本紧聚,并进一步在该子空间中构建邻域关系来挖掘高维数据的内在流形,形成基于特征子空间邻域特性的局部保持流形学习算法(NFS-LPP和NFS-NPE)。它们在一定程度上克服了高维小样本数据集难以正确挖掘内在流形结构的问题,在Yale和ORL人脸库上的分类和聚类实验验证了其有效性。  相似文献   

3.
针对无标签高维数据的大量出现,对机器学习中无监督特征选择进行了研究。提出了一种结合自表示相似矩阵和流形学习的无监督特征选择算法。首先,通过数据的自表示性质,构建相似矩阵,结合低维流形能够表示高维数据结构这一流形学习思想,建立一种考虑流形学习的无监督特征选择优化模型。其次,为了保证选择更有用及更稀疏的特征,采用◢l◣▼2,1▽范数对优化模型进行约束,使特征之间相互竞争,消除冗余。进而,通过变量交替迭代对优化模型进行求解,并证明了算法的收敛性。最后,通过与其他几个无监督特征算法在四个数据集上的对比实验,表明所给算法的有效性。  相似文献   

4.
基于Grassmann流形的多聚类特征选择   总被引:1,自引:0,他引:1       下载免费PDF全文
在无监督聚类特征选择过程中,局部欧氏度量可能置乱局部流形的拓扑结构,影响所选特征的聚类性能。为此,提出一种基于Grassmann流形的多聚类特征选择算法。利用局部主成分分析逼近数据点的切空间,获取局部数据的主要变化方向。根据切空间构造Grassmann流形,通过测地距保留局部数据的流形拓扑结构,以L1范数优化逼近流形拓扑,选择利于聚类的原本数据特征。实验结果验证了该算法的有效性。  相似文献   

5.
近邻法对不相关特征的敏感性很高,利用邻域重构系数可以保持原有数据结构的优点,为此,文中提出基于邻域保持学习的无监督特征选择算法.首先根据数据样本和邻域的相似性构造相似矩阵,并引入中间矩阵构造低维空间.然后利用拉普拉斯乘子法选择有效特征子集.在4个公开数据集上的实验表明,文中算法可以有效识别代表性特征.  相似文献   

6.
针对高维数据含有的冗余特征影响机器学习训练效率和泛化能力的问题,为提升模式识别准确率、降低计算复杂度,提出了一种基于正则互表示(RMR)性质的无监督特征选择方法。首先,利用特征之间的相关性,建立由Frobenius范数约束的无监督特征选择数学模型;然后,设计分治-岭回归优化算法对模型进行快速优化;最后,根据模型最优解综合评估每个特征的重要性,选出原始数据中具有代表性的特征子集。在聚类准确率指标上,RMR方法与Laplacian方法相比提升了7个百分点,与非负判别特征选择(NDFS)方法相比提升了7个百分点,与正则自表示(RSR)方法相比提升了6个百分点,与自表示特征选择(SR_FS)方法相比提升了3个百分点;在数据冗余率指标上,RMR方法与Laplacian方法相比降低了10个百分点,与NDFS方法相比降低了7个百分点,与RSR方法相比降低了3个百分点,与SR_FS方法相比降低了2个百分点。实验结果表明,RMR方法能够有效地选出重要特征,降低数据冗余率,提升样本聚类准确率。  相似文献   

7.
特征选择是去除不相关和冗余特征,找到具有良好泛化能力的原始特征的紧凑表示,同时,数据中含有的噪声和离群点会使学习获得的系数矩阵的秩变大,使得算法无法捕捉到高维数据中真实的低秩结构。因此,利用Schatten-p范数逼近秩最小化问题和特征自表示重构无监督特征选择问题中的系数矩阵,建立一个基于Schatten-p范数和特征自表示的无监督特征选择(SPSR)算法,并使用增广拉格朗日乘子法和交替方向法乘子法框架进行求解。最后在6个公开数据集上与经典无监督特征选择算法进行实验比较,SPSR算法的聚类精度更高,可以有效地识别代表性特征子集。  相似文献   

8.
针对高维无标签数据中的特征冗余问题,提出一种基于特征正则稀疏关联的无监督特征选择方法 (FRSA)。建立特征选择模型:利用Frobenius范数建立损失函数项表示特征之间的关联关系,对特征权重矩阵施加L1稀疏正则化约束。设计一种分治-收缩阈值迭代算法对目标函数进行优化。根据特征权重评估每个特征的重要性,选择出具有代表性的特征。在6个不同类型的标准数据集上与目前常用的无监督特征选择方法进行对比实验,实验结果表明,所提方法的性能优于其它无监督特征选择方法。  相似文献   

9.
陈晓云  陈媛 《自动化学报》2022,48(4):1091-1104
处理高维复杂数据的聚类问题,通常需先降维后聚类,但常用的降维方法未考虑数据的同类聚集性和样本间相关关系,难以保证降维方法与聚类算法相匹配,从而导致聚类信息损失.非线性无监督降维方法极限学习机自编码器(Ex-treme learning machine,ELM-AE)因其学习速度快、泛化性能好,近年来被广泛应用于降维及去...  相似文献   

10.
林筠超  万源 《计算机应用》2021,41(5):1282-1289
非监督特征选择是机器学习领域的热点研究问题,对于高维数据的降维和分类都极为重要.数据点之间的相似性可以用多个不同的标准来衡量,这使得不同的数据点之间相似性度量标准难以一致;并且现有方法多数通过近邻分配得到相似矩阵,因此其连通分量数通常不够理想.针对这两个问题,将相似矩阵看作变量而非预先对其进行设定,提出了一种基于图结构...  相似文献   

11.
针对特征选择中存在数据缺乏类别信息的问题,提出一种新型的基于改进ReliefF的无监督特征选择方法UFS-IR.由于ReliefF类算法存在小类样本抽样概率低、无法删除冗余特征的缺陷,该方法以DBSCAN聚类算法指导分类,通过改进抽样策略,使用调整的余弦相似度度量特征间的相关性作为去冗余的凭据.实验表明UFS-IR可以有效缩减数据维度的同时保证特征子集的最大相关最小冗余性,具有很好的性能.  相似文献   

12.
极限学习机(ELM)作为一种无监督分类方法,具有学习速度快、泛化性能高、逼近能力好的优点。随着无监督学习的发展,将ELM与自动编码器集成已成为无标签数据集提取特征的新视角,如极限学习机自动编码器(ELM-AE)是一种无监督的神经网络,无需迭代即可找到代表原始样本和其学习过程的主要成分。其重建输入信号获取原始样本的主要特征,且考虑了原始数据的全局信息以避免信息的丢失,然而这类方法未考虑数据的固有流形结构即样本间的近邻结构关系。借鉴极限学习机自动编码器的思想,提出了一种基于流形的极限学习机自动编码器算法(M-ELM)。该算法是一种非线性无监督特征提取方法,结合流形学习保持数据的局部信息,且在特征提取过程中同时对相似度矩阵进行学习。通过在IRIS数据集、脑电数据集和基因表达数据集上进行实验,将该算法与其他无监督学习方法PCA、LPP、NPE、LE和ELM-AE算法经过[k]-means聚类后的准确率进行了比较,以表明该算法的有效性。  相似文献   

13.
基于K-均值聚类的无监督的特征选择方法   总被引:10,自引:1,他引:10  
模式识别方法首先要解决的一个问题就是特征选择,目前许多方法考虑了有监督学习的特征选择问题,对无监督学习的特征选择问题却涉及得很少。依据特征对分类结果的影响和特征之间相关性分析两个方面提出了一种基于K-均值聚类方法的特征选择算法,用于无监督学习的特征选择问题。  相似文献   

14.
维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法dme-TS和一种无监督特征选择方法UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能.  相似文献   

15.
无监督特征选择算法可以对高维无标记数据进行有效的降维,从而减少数据处理的时间和空间复杂度,避免算法模型出现过拟合现象.然而,现有的无监督特征选择方法大都运用k近邻法捕捉数据样本的局部几何结构,忽略了数据分布不均的问题.为了解决这个问题,提出了一种基于自适应邻域嵌入的无监督特征选择(adaptive neighborhood embedding based unsupervised feature selection, ANEFS)算法,该算法根据数据集自身的分布特点确定每个样本的近邻数,进而构造样本相似矩阵,同时引入从高维空间映射到低维空间的中间矩阵,利用拉普拉斯乘子法优化目标函数进行求解.6个UCI数据集的实验结果表明:所提出的算法能够选出具有更高聚类精度和互信息的特征子集.  相似文献   

16.
谢娟英  丁丽娟  王明钊 《软件学报》2020,31(4):1009-1024
基因表达数据具有高维小样本特点,包含了大量与疾病无关的基因,对该类数据进行分析的首要步骤是特征选择.常见的特征选择方法需要有类标的数据,但样本类标获取往往比较困难.针对基因表达数据的特征选择问题,提出基于谱聚类的无监督特征选择思想FSSC(feature selection by spectral clustering).FSSC对所有特征进行谱聚类,将相似性较高的特征聚成一类,定义特征的区分度与特征独立性,以二者之积度量特征重要性,从各特征簇选取代表性特征,构造特征子集.根据使用的不同谱聚类算法,得到FSSC-SD(FSSC based on standard deviation)、FSSCMD(FSSC based on mean distance)和FSSC-ST(FSSC based on self-tuning)这3种无监督特征选择算法.以SVMs(support vector machines)和KNN(K-nearest neighbours)为分类器,在10个基因表达数据集上进行实验测试.结果表明,FSSC-SD、FSSC-MD和FSSC-ST算法均能选择到具有强分类能...  相似文献   

17.
特征选择是机器学习和数据挖据中一个重要的预处理步骤,而类别不均衡数据的特征选择是机器学习和模式识别中的一个热点研究问题。多数传统的特征选择分类算法追求高精度,并假设数据没有误分类代价或者有同样的代价。在现实应用中,不同的误分类往往会产生不同的误分类代价。为了得到最小误分类代价下的特征子集,本文提出一种基于样本邻域保持的代价敏感特征选择算法。该算法的核心思想是把样本邻域引入现有的代价敏感特征选择框架。在8个真实数据集上的实验结果表明了该算法的优越性。  相似文献   

18.
基于互信息的无监督特征选择   总被引:5,自引:0,他引:5  
在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号