首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
等距映射算法(ISOMAP)是一种典型的非线性流形降维算法,该算法可在尽量保持高维数据测地距离与低维数据空间距离对等关系的基础上实现降维.但ISOMAP容易受噪声的影响,导致数据降维后不能保持高维拓扑结构.针对这一问题,提出了一种基于最优密度方向的等距映射(ODD–ISOMAP)算法.该算法通过筛选数据的自然邻居确定每个数据沿流形方向的最优密度方向,之后基于与各近邻数据组成的向量相对最优密度方向投影的角度、方向和长度合理缩放局部邻域距离,引导数据沿流形方向计算测地距离,从而降低算法对噪声的敏感度.为验证算法有效性,选取了2类人工合成数据和5类实测数据作为测试数据集,分别使用ISOMAP,LLE,HLLE,LTSA,LEIGS,PCA和ODD–ISOMAP算法对数据集降维,并对降维数据进行K-mediods聚类分析.通过比对聚类正确率以及不同幅度噪声对此正确率的影响程度评价各算法降维效果优劣.结果表明,ODD–ISOMAP算法较其他6种常见算法降维效果提升显著,且对噪声干扰有更强的抵抗能力.  相似文献   

2.
针对目前数据降维算法受高维空间样本分布影响效果不佳的问题,提出了一种自适应加权的t分布随机近邻嵌入(t-SNE)算法。该算法对两样本点在高维空间中的欧氏距离进行归一化后按距离的不同分布状况进行分组分析,分别按照近距离、较近距离和远距离三种情况在计算高维空间内样本点间的相似概率时进行自适应加权处理,以加权相对距离代替欧氏绝对距离,从而更真实地度量每一组不同样本在高维空间的相似程度。在高维脑网络状态观测矩阵中的降维实验结果表明,自适应加权t-SNE的降维聚类可视化效果优于其它降维算法,与传统t-SNE算法相比,聚类指标值DBI值平均降低了28.39%,DI值平均提高了161.84%,并且有效地消除了分散、交叉和散点等问题。  相似文献   

3.
针对癫痫病人采集的EEG信号数据维数过高和含有复杂的非线性特征的问题,以及脑医学领域数据标注的成本较高的现状,研究了不同的无监督流形降维方法,并且在公开的癫痫集上对比了13种主流及较新的流形降维算法降维后在低维坐标空间的聚类效果.实验结果表明,与目前主流的其它流形及降维方法相比,基于L-ISOMAP得到的数据点在低维空间的分布有很好的聚类表现,不同类别的数据分界明显.当样本大小不同时,降维后的数据分布在可视化图中仍有一定的规律性,可视化效果明显优于其它的降维方法.  相似文献   

4.
针对癫痫病人采集的EEG信号数据维数过高和含有复杂的非线性特征的问题,以及脑医学领域数据标注的成本较高的现状,研究了不同的无监督流形降维方法,并且在公开的癫痫集上对比了13种主流及较新的流形降维算法降维后在低维坐标空间的聚类效果.实验结果表明,与目前主流的其它流形及降维方法相比,基于L-ISOMAP得到的数据点在低维空间的分布有很好的聚类表现,不同类别的数据分界明显.当样本大小不同时,降维后的数据分布在可视化图中仍有一定的规律性,可视化效果明显优于其它的降维方法.  相似文献   

5.
吕兵  王华珍 《计算机应用》2014,34(6):1613-1617
目前对高维数据进行挖掘的方法大多是基于数学理论而非可视化的直觉。为便于直观分析和评价高维数据,提出引入随机森林(RF)方法对高维数据进行数据可视化。首先,采用RF进行有监督学习得到样本间的相似度度量,并采用主坐标分析法对其进行降维,将高维数据的关系信息变换到低维空间;然后,在低维空间中采用散点图进行可视化。在高维基因数据集上实验结果表明,基于RF有监督降维的可视化能够较好地展现高维数据的类分布规律,且优于传统的无监督降维后的可视化效果。  相似文献   

6.
流形嵌入的支持向量数据描述   总被引:3,自引:0,他引:3  
测地距离能在宏观层面上较真实地反映数据中所隐含的几何结构,可基于它的支持向量数据描述(SVDD)无法直接优化.为此,文中提出一种流形分类学习算法的设计框架.用原空间测地距离近似各向同性的特征映射(ISOMAP)降维空间上的欧氏距离,即在隐含ISOMAP降维后空间上执行原学习算法.按照该框架,以SVDD为例发展出嵌入的ISOMAP发现的低维流形的SVDD(mSVDD),从而解决基于测地距离的SVDD的优化问题.USPS手写体数字数据集上的实验表明,mSVDD的单类性能较SVDD有较显著提高.  相似文献   

7.
文本聚类中,文本特征向量的高维性使得对样本统计特征的评估十分困难,所以有必要进行有效的维数约简。ISOMAP是一类新近出现的非线性维数约简方法,可以有效地对文本特征空间进行降维处理,该方法改进了样本向量之间的距离度量,用测地距离代替传统的欧式距离,将高维的文本特征数据映射到2~3维的低维可视化空间上,达到数据降维目的,实现文本数据特征可视化,并在一定程度上解决聚类数问题。最后通过实例,验证了方法的可行性。  相似文献   

8.
在数据挖掘和机器学习等领域中,数据降维是解决高维数据分析与处理难题的有效手段。对t-SNE 降维算法进行了深入的研究,并对t-SNE 计算高维空间样本点相似度的过程进行了改进。t-SNE 算法直接利用样本点在高维空间中的欧氏距离来度量样本点的相似度,但欧氏距离在高维空间中不能忠实反映样本位于非线性流形上的相似关系。利用样本点在高维空间中的邻居结构,提出使用二阶邻近距离来度量样本点的相似度,并提出基于二阶邻近距离的随机近邻嵌入算法(Second Order t-SNE,ST-SNE)。在MNIST、USPS、COIL-20等多个数据集上进行了对比实验。实验结果表明,改进后的算法提升了降维结果的分类准确度和可视化效果。  相似文献   

9.
针对基于功能核磁共振(fMRI)重构的脑网络状态观测矩阵维数过高且无特征表现的问题,提出一种基于谱特征嵌入(Spectral Embedding)的降维方法。该方法首先计算样本间相似性度量并构造拉普拉斯矩阵;然后对拉普拉斯矩阵进行特征分解,选取前两个主要的特征向量构建2维特征向量空间以达到数据集由高维向低维映射(降维)的目的。应用该方法对脑网络状态观测矩阵进行降维并可视化在二维空间平面,通过量化类别有效性指标对可视化结果进行评价。实验结果表明,与主成分分析(PCA)、局部线性嵌入(LLE)、等距映射(Isomap)等降维算法相比,使用该方法得到的脑网络状态观测矩阵低维空间的映射点有明显的类别意义表现,且在类别有效性指标上与多维尺度分析(MDS)和t分布随机邻域嵌入(t-SNE)降维算法相比,同一类样本间平均距离Di指数分别降低了87.1%和65.2%,不同类样本间平均距离Do指数分别提高了351.3%和25.5%;在多个样本上的降维可视化结果均有一定的规律性体现,该方法的有效性和普适性得以验证。  相似文献   

10.
崔鹏  张汝波 《计算机科学》2010,37(7):205-207
半监督聚类是近年来研究的热点,传统的方法是在无监督算法的基础上加入有限的背景知识来提高聚类性能.然而大多数半监督聚类技术都基于邻近或密度,难以处理高维数据,因此必须将约减的特征加入到半监督聚类过程中.为解决此问题,提出了一种新的半监督聚类算法框架.该算法利用样本约束传递性进行预处理,然后将特征投影到低维空间实现降维,最终用半监督算法对约减后的样本进行聚类.通过实验同现行主要降维方法进行了比较,说明此方法能有效地处理高维数据,聚类效果良好.  相似文献   

11.
提出一种解决分类任务的等测距映射算法,该算法利用类标签信息指导高维数据的降维.首先根据类标签在属于某个类的数据集上构造类内邻域图;然后寻找类间最短距离相邻边,并将其乘以大于1的尺度变化因子,使得降维后的类内数据更加紧凑、类问数据更加分开;最后利用BP神经网络构建一个近似的从原始高维数据集到低维数据集之间的映射函数,通过遗传算法对BP神经网络的初始权值和阈值进行优化,以避免使用剃度下降算法所带来的局部最优问题.实验结果表明,分类性能有较大提高,并对噪声有一定的鲁棒性.  相似文献   

12.
基于流形学习的用户身份认证   总被引:1,自引:1,他引:0       下载免费PDF全文
本文基于等距映射(ISOMAP)非线性降维算法, 提出了一种新的基于用户击键特征的用户身份认证算法, 该算法用测地距离代替传统的欧氏距离, 作为样本向量之间的距离度量,在用户击键特征向量空间中挖掘嵌入的低维黎曼流形,进行用户识别。用采集到的1500个击键模式数据进行实验测试,结果表明,该文的算法性能优于现有的同类算法,其错误拒绝率(FRR)和错误通过率(FAR)分别是1.65%和0%,低于现有的同类算法。  相似文献   

13.
目的 局部线性嵌入(LLE)算法是机器学习、数据挖掘等领域中的一种经典的流形学习算法。为克服LLE算法难以有效处理噪声、大曲率和稀疏采样数据等问题,提出一种改进重构权值的局部线性嵌入算法(IRWLLE)。方法 采用测地线距离来描述结构,重新构造和定义LLE中的重构权值,即在某样本的邻域内,将测地距离与欧氏距离之比定义为结构权值;将测地距离与中值测地距离之比定义为距离权值,再将结构权值与距离权值的乘积作为重构权值,从而将流形的结构和距离两种信息进行有机的结合。结果 对经典的人工数据Swiss roll、S-curve和Helix进行实验,在数据中加入噪声干扰,同时采用稀疏采样的方式来生成数据集,并与原始LLE算法和Hessian局部线性嵌入(HLLE)算法进行比较。实验结果表明,IRWLLE算法对比于LLE算法和HLLE算法,能够更好地保持流形的近邻关系,对流形的展开更加完好。尤其是对于加入噪声的大曲率数据集Helix,IRWLLE展现出极强的鲁棒性。对ORL和Yale人脸数据库进行人脸识别实验,采用最近邻分类器进行识别,将IRWLLE算法的识别结果与LLE算法进行对比。对于ORL数据集,IRWLLE算法识别率为90%,原LLE算法的识别率为85.5%;对于Yale数据集,IRWLLE算法识别率为88%,原LLE算法的识别率为75%,可见IRWLLE在人脸识别率上也有很大提高。结论 本文提出的IRWLLE算法对比于原LLE算法,不仅将流形距离信息引入到重构权值中,而且还将结构信息加入其中,有效减少了噪声和流形外数据点的干扰,所以对于噪声数据具有更强的鲁棒性,能够更好地处理稀疏采样数据和大曲率数据,在人脸识别率上也有较大提升。  相似文献   

14.
一种半监督局部线性嵌入算法的文本分类方法*   总被引:3,自引:0,他引:3  
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性嵌入算法;最后通过仿真实验验证了改进算法的有效性。  相似文献   

15.
Manifold learning is a well-known dimensionality reduction scheme which can detect intrinsic low-dimensional structures in non-linear high-dimensional data. It has been recently widely employed in data analysis, pattern recognition, and machine learning applications. Isomap is one of the most promising manifold learning algorithms, which extends metric multi-dimensional scaling by using approximate geodesic distance. However, when Isomap is conducted on real-world applications, it may have some difficulties in dealing with noisy data. Although many applications represent a special sample by multiple feature vectors in different spaces, Isomap employs samples in unique observation space. In this paper, two extended versions of Isomap to multiple feature spaces problem, namely fusion of dissimilarities and fusion of geodesic distances, are presented. We have employed the advantages of several spaces and depicted the Euclidean distance on learned manifold that is more compatible to the semantic distance. To show the effectiveness and validity of the proposed method, some experiments have been carried out on the application of shape analysis on MPEG7 CE Part B and Fish data sets.  相似文献   

16.
针对现有的半监督降维算法没有考虑存在于数据集中的大量未标记信息,不能得到最好的降维效果的问题。本文提出了一种改进的基于权值的局部保持半监督降维算法。该算法在保持正、负约束信息的同时,还利用距离权值来保持数据集所在的局部结构,从而提高降维效果。在UCI数据集上的实验表明,该算法能够提高降维的效果,尤其是在数据分布特性不满足流形结构时,仍能得到较好的聚类结果。  相似文献   

17.
Many manifold learning procedures try to embed a given feature data into a flat space of low dimensionality while preserving as much as possible the metric in the natural feature space. The embedding process usually relies on distances between neighboring features, mainly since distances between features that are far apart from each other often provide an unreliable estimation of the true distance on the feature manifold due to its non-convexity. Distortions resulting from using long geodesics indiscriminately lead to a known limitation of the Isomap algorithm when used to map non-convex manifolds. Presented is a framework for nonlinear dimensionality reduction that uses both local and global distances in order to learn the intrinsic geometry of flat manifolds with boundaries. The resulting algorithm filters out potentially problematic distances between distant feature points based on the properties of the geodesics connecting those points and their relative distance to the boundary of the feature manifold, thus avoiding an inherent limitation of the Isomap algorithm. Since the proposed algorithm matches non-local structures, it is robust to strong noise. We show experimental results demonstrating the advantages of the proposed approach over conventional dimensionality reduction techniques, both global and local in nature.  相似文献   

18.
特征选择是一种常用的机器学习降维方法,然而传统非监督特征选择算法在保持数据样本维度的局部结构时,却忽略了排序局部性对特征选择的影响。利用数据的三元组局部结构,构建数据之间的排序关系并在特征选择过程中进行局部性保持,提出基于三元组排序局部性的同时正交基聚类特征选择(SOCFS)改进算法,选择具有局部结构保持性且判别区分度高的特征。实验结果表明,与传统非监督特征选择算法相比,SOCFS改进算法聚类效果更好、收敛速度更快。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号