首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
针对基于局部与全局保持的半监督维数约减算法(LGSSDR)对部域参数选择比较敏感以及对部域图边权值设定不够准确的问题,提出一种基于局部重构与全局保持的半监督维数约减算法(工RGPSSDR)。该算法通过最小化局部重构误差来确定部域图的边权值,在保持数据集局部结构的同时能够保持其全局结构。在Extended YaleB和 CMU PIE标准人脸库上的实验结果表明LRGPSSDR算法的分类性能要优于其它半监督维数约减算法。  相似文献   

2.
极端学习机以其快速高效和良好的泛化能力在模式识别领域得到了广泛应用,然而现有的ELM及其改进算法并没有充分考虑到数据维数对ELM分类性能和泛化能力的影响,当数据维数过高时包含的冗余属性及噪音点势必降低ELM的泛化能力,针对这一问题本文提出一种基于流形学习的极端学习机,该算法结合维数约减技术有效消除数据冗余属性及噪声对ELM分类性能的影响,为验证所提方法的有效性,实验使用普遍应用的图像数据,实验结果表明本文所提算法能够显著提高ELM的泛化性能。  相似文献   

3.
半监督局部维数约减   总被引:1,自引:1,他引:0       下载免费PDF全文
在挖掘和分析高维数据任务中,有时只能获得有限的成对约束信息(must-link约束和cannot-link约束),由于缺乏数据类标号信息,监督维数约减方法常常不能得到满意的结果。在这种情况下,使用大量的无标号样本可以提高算法的性能。文中借助于成对约束信息和大量无标号样本,提出半监督局部维数约减方法(SLDR)。SLDR集成数据的局部信息和成对约束寻找一个最优投影,当数据被投影到低维空间时,不仅cannot-link约束中样本点对之间距离更远、must-link约束中样本点对之间距离更近,数据的内在几何信息还被保持。而且SLDR能推广为非线性方法,使之能够适应非线性数据的维数约减。在各种数据集上的实验结果充分验证了所提出算法的有效性。  相似文献   

4.
基于自组织的鲁棒非线性维数约减算法   总被引:4,自引:0,他引:4  
现有的非线性维数约减算法需要求解大尺度特征值问题.由于特征值问题至少二次的计算复杂性,这类算法在大样本集上的应用较受限制.此外,现有算法的全局优化机制对于噪声较为敏感,且需要考虑“病态矩阵”的计算精度问题.提出时间复杂性为O(NlogN)的自组织非线性维数约减算法SIE.SIE的主要计算过程是局域的,可提高算法抗噪性、回避病态矩阵的计算精度问题.仿真表明,对于无噪数据和含噪数据,SIE均可获得优化或近似优化的重构质量.  相似文献   

5.
基于分形布朗运动和Ada Boosting的多类音频例子识别   总被引:2,自引:0,他引:2  
提出了一种基于分形布朗运动的音频特征提取和识别方法.这种方法使用分形布朗运动模型计算出音频例子的分形维数,并作为其分形特征.针对音频分形特征符合高斯分布的特点,使用Ada Boosting算法进行特征约减.然后分别使用Ada-加权高斯分类器和支持向量机对约减特征后的音频分类,并在两类分类的基础上构造多类分类的模型.实验表明,经过特征约减后的音频分形特征在音乐和语音的分类中都优于其他音频特征.  相似文献   

6.
考虑到已有的半监督维数约减方法在利用边信息时将所有边信息等同,不能充分挖掘边所含信息,提出加权成对约束半监督局部维数约减算法(WSLDR).通过构建近邻图对边信息进行扩充,使边信息数量有所增加.另外,根据边所含信息量的不同构建边的权系数矩阵.将边信息融入近邻图对其进行修正,对修正后的近邻图和加权的成对约束寻找最优投影.算法不仅保持了数据的内在局部几何结构,而且使得类内数据分布更加紧密,类间数据分布更加分散.在UCI数据集上的实验结果验证了该算法的有效性.  相似文献   

7.
现有基于边信息的半监督维数约减算法大都是直接将保留边信息和数据拓扑结构的目标函数相加,因此数据拓扑结构中的错误连接不会因已知的边信息而得到修正.提出通过边信息传播及修正机制将边信息融入到数据拓扑结构图中的方法,从而在保留边信息的同时保留更为真实的数据拓扑结构信息.实验结果表明本文所提出的算法较之其它算法,对数据降维后用于分类时可取得较高的准确率,且算法对创建的KNN图中的参数K最具鲁棒性.  相似文献   

8.
利用向量空间模型表示的文本邮件数据具有高维性, 不利于邮件过滤模型的建立, 需要对数据进行降维处理。最大间隔Semi-NMF(max-margin semi-nonnegative matrix factorization, MNMF)能够同时实现维数约减和邮件分类, 而图正则化NMF能保持数据空间的几何结构。基于以上两种NMF改进模型, 提出了图正则化MNMF(graph regularized MNMF, GMNMF)算法, 并设计了一个迭代的求解算法。将GMNMF算法及其他相关算法用于中文垃圾邮件过滤实验, 结果表明GMNMF算法构建的过滤模型要优于其他较好的算法构建的过滤模型。  相似文献   

9.
基于局部与全局保持的半监督维数约减方法   总被引:8,自引:1,他引:7  
韦佳  彭宏 《软件学报》2008,19(11):2833-2842
在很多机器学习和数据挖掘任务中,仅仅利用边信息(side-information)并不能得到最好的半监督学习(semi-supervised learning)效果,因此,提出一种基于局部与全局保持的半监督维数约减(local and global preserving based semi-supervised dimensionality reduction,简称LGSSDR)方法.该算法不仅能够保持正、负约束信息而且能够保持数据集所在低维流形的全局以及局部信息.另外,该算法能够计算出变换矩阵并较容易地处理未见样本.实验结果验证了该算法的有效性.  相似文献   

10.
聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性以及聚类算法的影响,所确定类数的正确性难以得到保证.为克服这个问题,以文献[1]中的数据约减方法为基础,对原数据集和约减后的数据集利用有效性指标进行正确类数判别.实验表明:该方法能增大类之间的分离性,有效判断数据集的最优类数.  相似文献   

11.
一种大规模数据的快速潜在语义索引   总被引:3,自引:3,他引:0       下载免费PDF全文
卫威  王建民 《计算机工程》2009,35(15):35-37,4
潜在语义索引(LSI)已应用到现代信息检索的多个领域,但矩阵奇异值分解的高复杂度阻碍了该技术在大规模数据上的应用。提出一种大规模数据的快速LSI方法。给出一个降维问题的统一框架,LSI作为一种特征提取算法,可以在这个框架下转化为一个特征选择问题。利用该技术在最大程度保持LSI降维效果的同时,简化LSI的计算,使其能够应用于大规模数据。  相似文献   

12.
Discriminative features for text document classification   总被引:1,自引:1,他引:0  
Abstract The bag-of-words approach to text document representation typically results in vectors of the order of 5000–20,000 components as the representation of documents. To make effective use of various statistical classifiers, it may be necessary to reduce the dimensionality of this representation. We point out deficiencies in class discrimination of two popular such methods, Latent Semantic Indexing (LSI), and sequential feature selection according to some relevant criterion. As a remedy, we suggest feature transforms based on Linear Discriminant Analysis (LDA). Since LDA requires operating both with large and dense matrices, we propose an efficient intermediate dimension reduction step using either a random transform or LSI. We report good classification results with the combined feature transform on a subset of the Reuters-21578 database. Drastic reduction of the feature vector dimensionality from 5000 to 12 actually improves the classification performance.An erratum to this article can be found at  相似文献   

13.
文档聚类综述   总被引:28,自引:6,他引:28  
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。  相似文献   

14.
王智勇  王正欧 《计算机应用》2005,25(10):2328-2330
提出了一种基于词条互信息(WMI)值的统计降维和Kohonen网络(SOFM网)相结合的文本聚类方法,WMI值的方法侧重考虑文本特征项之间的互信息进行降维,可提高特征选择的效率,并使其更趋实用化。采用Kohonen网络进行文本聚类,其学习率函数是随时间单调下降的退火函数,实验结果表明了这种结合方法较一般的降维方法得到的聚类结果具有较高的聚类精度。  相似文献   

15.
现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇结构的关键技术.在众多降维方法中,基于图的降维方法是研究的热点.然而,大部分基于图的降维算法存在以下两个问题:(1)需要计算或者学习邻接图,计算复杂度高;(2)降维的过程中没有考虑降维后的用途.针对这两个问题,提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型,通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图,具有样本个数的线性时间复杂度.在真实数据集上的实验结果表明,与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵,使投影后的数据有利于聚类.  相似文献   

16.
基于深度特征与非线性降维的图像数据集可视化方法   总被引:1,自引:0,他引:1  
为了降低传统高维图像数据降维可视化带来的损失,提高数据可视化的效果,提出了一种基于深度特征与非线性降维相结合的图像数据集可视化方法。该方法首先设计并训练了一个卷积神经网络模型,模型在MNIST手写体图像数据集上,取得了单模型最高的识别精度。其次,利用该高精度模型抽取图像数据的深度中间层特征,将该深度特征作为图像数据的有效表示。最后针对深度特征使用非线性降维方法将数据最终降低为二维,实现数据可视化。实验结果表明,该方法能够有效降低传统图像降维可视化方法中降维损失所带来的误差,可视化效果十分明显。  相似文献   

17.
首先介绍了图像特征向量维度过高的问题以及图像特征降维处理。在讨论Zernike矩基本概念以及图像Zernike矩形状特征向量表示的基础上,指出Zernike矩特征向量一般都是高维的。在介绍主成分分析方法的基础上,指出可以将其应用到Zernike矩特征向量的降维中,并给出了降维的处理过程。最后的实验结果证明了该方法的可行性。  相似文献   

18.
钱晓东  肖强  王婷婷 《计算机工程》2011,37(5):213-215,218
为有效降低文本处理的时间与空间代价,根据“只有部分脑细胞发出的信号能到达大脑皮层”和“突触信号强度随着与神经细胞主体距离的加大而减弱”的理论,提出基于信号传递理论的神经网络降维算法。通过神经网络结构与训练算法的改变,在文本处理环境中神经元间LTM向量中有大量逼近0的分量,即存在很多不必要的神经元连接,以此作为文本降维的基础。实验结果证明,降维后的文本数据库以较低的时间代价具备与降维前相当甚至更高的分类准确率。  相似文献   

19.
目前常用向量空间模型 VSM(vector space model)表示文档,造成的高维问题制约了其实际应用的效果。采用了一种高性能特征选择函数,在构建VSM时选取对区分类别贡献较大的特征词,因此有效地降低了特征空间的纬度,大大提高了系统的效率,改善了聚类的效果。通过真实数据集上的实验,证明其性能优于传统方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号