首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对目前数据降维算法受高维空间样本分布影响效果不佳的问题,提出了一种自适应加权的t分布随机近邻嵌入(t-SNE)算法。该算法对两样本点在高维空间中的欧氏距离进行归一化后按距离的不同分布状况进行分组分析,分别按照近距离、较近距离和远距离三种情况在计算高维空间内样本点间的相似概率时进行自适应加权处理,以加权相对距离代替欧氏绝对距离,从而更真实地度量每一组不同样本在高维空间的相似程度。在高维脑网络状态观测矩阵中的降维实验结果表明,自适应加权t-SNE的降维聚类可视化效果优于其它降维算法,与传统t-SNE算法相比,聚类指标值DBI值平均降低了28.39%,DI值平均提高了161.84%,并且有效地消除了分散、交叉和散点等问题。  相似文献   

2.
针对传统的t分布随机近邻嵌入(t-SNE)算法只能处理单一属型数据,不能很好地处理混合属性数据的问题,提出一种扩展的t-SNE降维可视化算法E-t-SNE,用于处理混合属性数据。该方法引入信息熵概念来构建分类属性数据的距离矩阵,采用分类属性数据距离与数值属性数据欧式距离相结合的方式构建混合属性数据距离矩阵,将新的距离矩阵输入t-SNE算法对数据进行降维并在二维空间可视化展示。此外,为验证算法有效性,采用[k]近邻[(kNN)]算法对混合数据降维后的效果进行评价。通过在UCI数据集上的实验表明,该方法在处理混合属性数据方面,不仅具有较好的可视化能力,而且能有效地对不同类别的数据进行降维分簇,提升后续分类器的分类准确率。  相似文献   

3.
作为一种常用的降维方法,适用于小样本的监督化拉普拉斯判别分析方法通过使用图嵌入的判别近邻分析得到了很好的降维效果。但该方法在构建近邻图时,在K近邻中寻找同类和异类样本点存在数据不平衡问题;此外,在优化该方法的目标函数时,没有全面考虑到类间信息,从而会在一定程度上降低该方法的性能。针对以上两个问题,本文提出了适用于小样本的双邻接图判别分析方法。首先该方法分别在同类和异类样本中找出K个近邻点,然后使用这K个类内近邻点和K个类间近邻点来构造双邻接图,这样可以确保邻接图中既有同类样本点也有异类样本点,且数目相同。然后该方法在目标函数的推导结果中加入了类间拉普拉斯散度矩阵,从而使优化得到的投影矩阵融入更多的类间信息。在Yale和ORL人脸数据集上进行实验,并与同类方法相比,结果表明本文提出的适用于小样本的双邻接图判别分析方法能够得到更好的降维效果。  相似文献   

4.
基于稀疏和近邻保持的极限学习机降维   总被引:1,自引:0,他引:1  
近邻与稀疏保持投影已被广泛应用于降维方法,通过优化得到满足近邻结构或稀疏结构的降维投影矩阵,然而这类方法多数只考虑单一结构特征.此外,多数非线性降维方法无法求出显式的映射函数,极大地限制了降维方法的应用.为克服这些问题,本文借鉴极限学习机的思想,提出面向聚类的基于稀疏和近邻保持的极限学习机降维算法(SNP-ELM).SNP-ELM算法是一种非线性无监督降维方法,在降维过程中同时考虑数据的稀疏结构与近邻结构.在人造数据、Wine数据和6个基因表达数据上进行实验,实验结果表明该算法优于其他降维方法.  相似文献   

5.
针对入侵检测中的高维数据处理问题,以直推式网络异常检测方法为原型,提出了一种基于近邻保持降维方法的新模型。该模型能够用于高维数据的降维,从而减少欧氏距离的计算量,加快异常检测算法的训练及检测速度。采用著名的KDD cup99公用数据集的仿真实验表明,相比较基于主成分分析法和单类支持向量机的网络异常检测模型来说,基于近邻保持降维技术的检测模型能够在降维的同时,保持较高的检测率和较低的误报率。  相似文献   

6.
局部线性嵌入算法LLE(Locally Linear Embedding)可以有效地对图像的高维特征进行降维。针对处理样本分布不均匀及近邻因子选择时会出现的问题,在对高维数据降维时,近邻点的选择采用计算测地线距离而非传统的局部欧式距离,且近邻点的个数选择进行预先优化以达到更好的降维效果。实验表明,改进后的LLE算法具有更好的分类精确度,在图像分类过程中比单纯的LLE算法具有更好的分类性能。  相似文献   

7.
针对多工况间歇生产过程中,过程数据维数高、中心漂移和方差差异明显等特点,提出了基于主元分析和加权k近邻相结合的故障检测方法(PC-wkNN)。首先应用PCA确定训练数据主元模型,简约数据结构;其次在主元空间以训练样本的第k近邻的局部近邻平均距离倒数为权重,构建加权距离D.加权距离D可以有效降低工况中心漂移和方差差异明显的影响。最后,根据t分布确定统计量D的控制限,当测试样本加权距离D大于控制限,则其为故障;否则为正常。PC-wkNN提高了工况间歇过程故障检测率。通过两个模拟实例及青霉素发酵仿真实验,与PCA,KPCA,FD-kNN,PC-kNN等方法比较,验证了本文方法的有效性。  相似文献   

8.
扩散映射(Diffusion Maps)是一种基于流形学习的非线性降维方法。基于对扩散映射的研究,提出了一种新的非线性降维算法。根据近邻点分布的不同和模糊聚类原理,新算法定义了扩散映射算法构建权值矩阵的误差近似系数,并采用改进的距离公式来选取样本点的近邻点,很大程度地降低了近邻点的选取对降维效果的影响。实验结果表明,新算法有效地保持了高维数据中的流形结构,具有更好的降维效果,并在基于内容的图像检索中达到很高的查准率,新算法的有效性和优越性得到了证实。  相似文献   

9.
在面向分类的高光谱遥感数据降维过程中,考虑到高光谱遥感数据内在的非线性结构和传统流形学习非监督的特点,提出一种新的监督等距映射方法(S-Isomap)。方法基于类间距离大于类内距离的思想,首先利用KMEANS算法对原始数据进行聚类得到样本的初始类别标签,采用新距离搜寻数据点的K近邻,进而实施等距映射降维。实验证明了该方法优于传统Isomap。  相似文献   

10.
在面向分类的高光谱遥感数据降维过程中,考虑到高光谱遥感数据内在的非线性结构和传统流形学习非监督的特点,提出一种新的监督等距映射方法(S-Isomap).方法基于类间距离大于类内距离的思想,首先利用KMEANS算法对原始数据进行聚类得到样本的初始类别标签,采用新距离搜寻数据点的K近邻,进而实施等距映射降维.实验证明了该方法优于传统Isomap.  相似文献   

11.
陈静杰  车洁 《计算机科学》2017,44(Z6):109-111, 125
为减小数据缺失对飞机油耗统计推断精度带来的负面影响,针对基于传统欧氏距离、马氏距离以及精简关联度的最近邻填补算法的不足,提出了一种基于标准欧氏距离的填补算法来估计QAR(Quick Access Recorder)数据中部分燃油流量数值的缺失。该算法通过QAR数据样本之间的标准欧氏距离选择最近邻样本,并利用熵值赋权法计算最近邻的加权系数,基于最近邻样本中燃油流量的加权平均即可得到缺失燃油流量的估计值。实验结果表明,标准欧氏距离能够有效度量样本相似性,所提出的算法优于常规填补算法,是处理飞机油耗数据缺失的一种有效方法。  相似文献   

12.
刘奕志  程汝峰  梁永全 《计算机科学》2018,45(2):125-129, 146
基于加权K近邻的密度峰值发现算法(FKNN-DPC)是一种简单、高效的聚类算法,能够自动发现簇中心,并采用加权K近邻的思想快速、准确地完成对非簇中心样本的分配,在各种规模、任意维度、任意形状的数据集上都能得到高质量的聚类结果,但其样本分配策略中的权重仅考虑了样本间的欧氏距离。文中提出了一种基于共享近邻的相似度度量方式,并以此相似度改进样本分配策略,使得样本的分配更符合真实的簇归属情况,从而提高聚类质量。在UCI真实数据集上进行实验,并将所提算法与K-means,DBSCAN,AP,DPC,FKNN-DPC等算法进行对比,验证了其有效性。  相似文献   

13.
用于文本分类的改进KNN算法   总被引:2,自引:2,他引:2  
最近邻分类器是假定局部的类条件概率不变,而这个假定在高维特征空间中无效。因此在高维特征空间中使用k最近邻分类器,不对特征权重进行修正就会引起严重的偏差。本文采用灵敏度法,利用前馈神经网络获得初始特征权重并进行二次降维。在初始权重下,根据样本间相似度采用SS树方法将训练样本划分成若干小区域,以此寻找待分类样本的近似k0个最近邻,并根据近似k0个最近邻和Chi-square距离原理计算新权重,搜索出新的k个最近邻。此方法在付出较小时间代价的情况下,在文本分离中可获得较好的分类精度的提高。  相似文献   

14.
杨旭华  朱钦鹏  童长飞 《计算机科学》2018,45(1):292-296, 306
聚类分析是一种重要的数据挖掘工具,可以衡量不同数据之间的相似性,并把它们分到不同的类别中,在模式识别、经济学和生物学等领域有着广泛的应用。 文中提出了一种新的聚类算法。首先,把待分类的数据集转换成一个加权的完全图,每个数据点为一个节点,两个数据点之间的距离为相应两个节点之间边的权值。然后,用Laplacian中心性来计算和评价该网络每个节点的局部重要性,聚类中心为局部的密度中心,它具有比周围的邻居节点更高的Laplacian中心性,并且与具有更高Laplacian中心性的节点之间的距离也较大。新算法是一种真正的无参数聚类方法,不需要任何先验参数便可以自动地对数据集进行分类。在6种数据集中将其与9种知名聚类算法做了对比,结果显示该算法具有良好的聚类效果。  相似文献   

15.
In this study, a new Locally Linear Embedding (LLE) algorithm is proposed. Common LLE includes three steps. First, neighbors of each data point are determined. Second, each data point is linearly modeled using its neighbors and a similarity graph matrix is constructed. Third, embedded data are extracted using the graph matrix. In this study, for each data point mutual neighborhood conception and loading its covariance matrix diagonally are used to calculate the linear modeling coefficients. Two data points will be named mutual neighbors, if each of them is in the neighborhood of the other. Diagonal loading of the neighboring covariance matrix is applied to avoid its singularity and also to diminish the effect of noise in the reconstruction coefficients. Simulation results demonstrate the performance of applying mutual neighborhood conception and diagonal loading and their combination. Also, the results of applying the mutual neighborhood on Laplacian Eigenmap (LEM) demonstrate the good performance of the proposed neighbor selection method. Our proposed method improves recognition rate on Persian handwritten digits and face image databases.  相似文献   

16.
The problem of k-nearest neighbors (kNN) is to find the nearest k neighbors for a query point from a given data set. Among available methods, the principal axis search tree (PAT) algorithm always has good performance on finding nearest k neighbors using the PAT structure and a node elimination criterion. In this paper, a novel kNN search algorithm is proposed. The proposed algorithm stores projection values for all data points in leaf nodes. If a leaf node in the PAT cannot be rejected by the node elimination criterion, data points in the leaf node are further checked using their pre-stored projection values to reject more impossible data points. Experimental results show that the proposed method can effectively reduce the number of distance calculations and computation time for the PAT algorithm, especially for the data set with a large dimension or for a search tree with large number of data points in a leaf node.  相似文献   

17.
社交网络新增恶意用户检测作为一项分类任务,一直面临着数据样本不足、恶意用户标注稀少的问题。在数据有限的情况下,为了能够精确地检测出恶意用户,提出一种基于自适应差异化图卷积网络的检测方法。该方法通过提取社交网络中的用户特征和社交关系构建社交网络图。构建社交网络图后,计算节点与邻居的相似度,并对邻居进行优先级排序,利用优先级顺序采样关键邻居。关键邻居的特征通过自适应权重的加权平均方式聚合到节点自身,以此更新节点特征。特征更新后的节点通过特征降维和归一化计算得到恶意值,利用恶意值判断用户的恶意性。实验表明该方法和其他方法相比,具有更高的恶意用户查全率和整体查准率,并且能够快速地完成对新增用户的检测,证明了自适应差异化图卷积网络能够有效捕捉到少量样本的关键特征。  相似文献   

18.
谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用。然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要。此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关。针对以上问题,首先对于大规模数据问题,将MPI并行编程模型应用于谱聚类算法;然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时用局部尺度(Local Scaling)参数对算法中的尺度参数进行自动调节。基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法SLSPSC,并在四个数据集上进行了测试,与现有的并行谱聚类算法PSC在运行时间和聚类质量两方面做了比较分析。实验结果显示,该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高。  相似文献   

19.
In this paper, we propose a novel supervised dimension reduction algorithm based on K-nearest neighbor (KNN) classifier. The proposed algorithm reduces the dimension of data in order to improve the accuracy of the KNN classification. This heuristic algorithm proposes independent dimensions which decrease Euclidean distance of a sample data and its K-nearest within-class neighbors and increase Euclidean distance of that sample and its M-nearest between-class neighbors. This algorithm is a linear dimension reduction algorithm which produces a mapping matrix for projecting data into low dimension. The dimension reduction step is followed by a KNN classifier. Therefore, it is applicable for high-dimensional multiclass classification. Experiments with artificial data such as Helix and Twin-peaks show ability of the algorithm for data visualization. This algorithm is compared with state-of-the-art algorithms in classification of eight different multiclass data sets from UCI collection. Simulation results have shown that the proposed algorithm outperforms the existing algorithms. Visual place classification is an important problem for intelligent mobile robots which not only deals with high-dimensional data but also has to solve a multiclass classification problem. A proper dimension reduction method is usually needed to decrease computation and memory complexity of algorithms in large environments. Therefore, our method is very well suited for this problem. We extract color histogram of omnidirectional camera images as primary features, reduce the features into a low-dimensional space and apply a KNN classifier. Results of experiments on five real data sets showed superiority of the proposed algorithm against others.  相似文献   

20.
Kumar  Sanjay  Panda  Ankit 《Applied Intelligence》2022,52(2):1838-1852

Influence maximization is an important research problem in the field of network science because of its business value. It requires the strategic selection of seed nodes called “influential nodes,” such that information originating from these nodes can reach numerous nodes in the network. Many real-world networks, such as transportation, communication, and social networks, are weighted networks. Influence maximization in a weighted network is more challenging compared to that in an unweighted network. Many methods, such as weighted degree rank, weighted h-index, weighted betweenness, and weighted VoteRank techniques, have been used to order the nodes based on their spreading capabilities in weighted networks. The VoteRank method is a popular method for finding influential nodes in an unweighted network using the idea of a voting scheme. Recently, the WVoteRank method was proposed to find the seed nodes; it extends the idea of the VoteRank method by considering the edge weights. This method considers only 1-hop neighbors to calculate the voting score of every node. In this study, we propose an improved WVoteRank method based on an extended neighborhood concept, which takes the 1-hop neighbors as well as 2-hop neighbors into account for the voting process to decide influential nodes in a weighted network. We also extend our proposed approach to unweighted networks. We compare the performance of the proposed improved WVoteRank method against the popular centrality measures, weighted degree, weighted closeness, weighted betweenness, weighted h-index, and weighted VoteRank on several real-life and synthetic datasets of diverse sizes and properties. We utilize the widely used stochastic susceptible–infected–recovered information diffusion model to calculate the infection scale, the final infected scale as a function of time, and the average distance between spreaders. The simulation results reveal that the proposed method, improved WVoteRank, considerably outperforms the other methods described above, including the recent WVoteRank.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号