首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.  相似文献   

2.
子空间聚类任务中的无标记数据具有维度高、数据分布分散等特点,传统方法对数据预处理未进行详细地针对化设计且大多使用欧氏距离度量数据间的相似性,使聚类性能提升受限.因此,本文提出融入无监督度量学习的稀疏子空间聚类模型,该算法将距离度量与子空间聚类联合到同一框架,设计由两步组成的聚类过程.该方法对原始数据进行度量学习并重构了稀疏子空间聚类模型,使数据预处理不再是一个单独的步骤,最大限度地将输入的无标记数据之间相似度提高,有效提升了子空间聚类性能、加强了模型泛化能力.我们在真实公开数据集上进行实验测试,实验结果表明该方法优于现有的子空间聚类算法,具有良好的聚类性能.  相似文献   

3.
高维数据相似性度量方法研究   总被引:4,自引:0,他引:4       下载免费PDF全文
将低维空间中的距离度量方法(如Lk-范数)应用于高维空间时,随着维数的增加,对象之间距离的对比性将不复存在。研究高维数据有效的距离或相似(相异)度度量方法是一个重要且具有挑战性的课题。通过对传统的距离度量或相似性(相异性)度量方法在高维空间中表现出的不适应性的分析,并对现有的应用于高维数据的相似性度量方法进行总结,提出了高维数据相似性度量函数Hsim(X,Y)的改进方法HDsim(X,Y)。函数HDsim(X,Y)整合了各类型数据的相似性度量方法,在处理数值型、二值型以及分类属性数据上充分体现了原Hsim(X,Y)处理数值型数据、Jaccard系数处理二值数据以及匹配率处理分类属性数据的优越性。通过有效性及实例分析,充分论证了HDsim(X,Y)在高维空间中的有效性。  相似文献   

4.
医学数据标注成本高昂,不同研究中心提供的脑影像数据间存在分布差异,无法有效整合,影响预测模型性能.针对此问题,文中提出基于多图核的迁移学习方法,将不同的图核用于挖掘脑网络结构信息并衡量脑网络间的相似性.提出多核学习框架,提高迁移模型的性能.在自闭症谱系障碍(ASD)多中心数据集上验证文中方法可有效利用脑网络数据的结构信息.多核学习框架也可综合不同图核的优点,进一步提高方法在脑网络数据上的分类性能.  相似文献   

5.
针对现有多核聚类方法较少考虑多核数据局部流形结构以及在多核融合时学习参数过多进而易受多核噪声异常等干扰的问题,文中首先提出了基于局部核回归的聚类方法(CKLR).该方法通过局部学习来刻画单核数据的流形结构并采用稀疏化的局部核回归系数来进行预测和聚类.文中进一步提出了基于单核局部核回归融合的多核聚类方法(CMKLR).该方法为每个核矩阵构造对应的稀疏化的局部核回归系数,并采用全局线性加权融合的方式获得了多核数据下的局部流形结构和同样稀疏化的多核局部回归系数.所提方法较好地避免了现有方法的两个缺陷,且该方法仅包含局部邻域大小这一超参数.实验结果表明,所提方法在测试数据集上的聚类性能优于当前的主流多核聚类方法.  相似文献   

6.
李海林  梁叶 《控制与决策》2017,32(3):451-458
针对传统符号聚合近似方法在特征表示时容易忽略时间序列局部形态特征的局限性,以及动态时间弯曲在度量上的优势,提出一种基于数值符号和形态特征的时间序列相似性度量方法.将时间序列进行符号和形态的特征表示后,提出动态时间弯曲与符号距离结合的时间序列距离度量方法,使所提方法能够较好地反映时间序列数据数值分布和形态特征.实验结果表明,所提出的方法在时间序列数据挖掘中能够得到较好的分类效果,具有一定的优越性.  相似文献   

7.
现有的混合信息系统知识发现模型涵盖的数据类型大多为符号型、数值型条件属性及符号型决策属性,且大多数模型的关注点是属性约简或特征选择,针对规则提取的研究相对较少。针对涵盖更多数据类型的混合信息系统构建一个动态规则提取模型。首先修正了现有的属性值距离的计算公式,对错层型属性值的距离给出了一种定义形式,从而定义了一个新的混合距离。其次提出了针对数值型决策属性诱导决策类的3种方法。其后构造了广义邻域粗糙集模型,提出了动态粒度下的上下近似及规则提取算法,构建了基于邻域粒化的动态规则提取模型。该模型可用于具有以下特点的信息系统的规则提取: (1)条件属性集可包括单层符号型、错层符号型、数值型、区间型、集值型、未知型等; (2)决策属性集可包括符号型、数值型。利用UCI数据库中的数据集进行了对比实验,分类精度表明了规则提取算法的有效性。  相似文献   

8.
小样本学习旨在让机器像人类一样通过对少量样本的学习达到对事物认知和概括的能力.基于度量的小样本学习方法希望学习一个低维嵌入空间,直接对比查询集合和支持类之间的相似性,分类测试样本.文中针对基于度量的小样本学习方法,尝试从这类方法需要解决的关键问题、类表示学习和相似性度量入手,梳理相关文献.与已有相关综述不同,文中只针对基于度量的小样本学习方法进行更详尽全面的分类,而且从关键问题角度进行分类.最后总结目前代表性工作在常用的图像分类任务数据集上的实验结果,分析现有方法存在的问题,并展望未来工作.  相似文献   

9.
相似性度量方法的选取和稳健性对时空轨迹聚类结果的有效性是至关重要的.针对时空轨迹数据复杂的多重维度信息,选取空间维和时间维2个维度度量时空轨迹的相似性,提出一种应用Hausdorff距离的时空轨迹相似性度量方法.首先从时空轨迹的3个特性出发,提出面向相似性度量的时空轨迹重组策略;然后将传统的以点为中心进行相似性度量的思路转换为以轨迹段为中心,提出一个考虑时间同步性的时空轨迹段距离度量公式;最后鉴于传统的Hausdorff距离进行时空轨迹相似性度量具有时空轨迹整体形状特征的优点,针对其容易受时空轨迹局部空间分布影响和忽略时间维信息的缺陷,提出一种基于单位时间平均值Hausdorff距离的时空轨迹相似性度量方法.采用微博签到轨迹数据和出租车GPS轨迹数据进行轨迹时空聚类实验,将文中提出的时空轨迹相似性度量方法与已有的其他方法进行比较,实验结果表明,该方法可以有效地计算时空轨迹的相似性,满足时空轨迹聚类的需求.  相似文献   

10.
本文针对目前网络入侵检测学习算法效率不高的问题,首先提出相对距离的概念,然后构造基于相对距离的竞争激活函数和相似性度量,在此基础上提出一种改进的网络入侵检测算法.该算法的优势在于:(1)相对距离能较好地区分极差较大的列属性值并实现归一化;(2)基于相对距离的竞争激活函数可以处理包含符号属性的数据,不需转换为数值,且计算...  相似文献   

11.
基于多特征子空间与核学习的行人再识别   总被引:4,自引:0,他引:4  
行人再识别指的是在无重叠视域多摄像机监控系统中, 匹配不同摄像机视域中的行人目标.针对当前基于距离测度学习的行人再识别算法中存在着特征提取复杂、训练过程复杂和识别效果差的问题, 我们提出一种基于多特征子空间与核学习的行人再识别算法.该算法首先在不同特征子空间中基于核学习的方法得到不同特征子空间中的测度矩阵以及相应的相似度函数, 然后通过比较不同特征子空间中的相似度之和来对行人进行识别.实验结果表明, 本文提出的算法具有较高的识别率, 其中在VIPeR数据集上, RANK1达到了40.7%, 且对光照变化、行人姿态变化、视角变化和遮挡都具有很好的鲁棒性.  相似文献   

12.
利用PCA进行深度学习图像特征提取后的降维研究   总被引:1,自引:0,他引:1  
深度学习是当前人工智能领域广泛使用的一种机器学习方法.深度学习对数据的高度依赖性使得数据需要处理的维度剧增,极大地影响了计算效率和数据分类性能.本文以数据降维为研究目标,对深度学习中的各种数据降维方法进行分析.在此基础上,以Caltech 101图像数据集为实验对象,采用VGG-16深度卷积神经网络进行图像的特征提取,以PCA主成分分析方法为例来实现高维图像特征数据的降维处理.在实验阶段,采用欧氏距离作为相似性度量来检验经过降维处理后的精度指标.实验证明:当提取VGG-16神经网络fc3层的4096维特征后,使用PCA法将数据维度降至64维,依然能够保持较高的特征信息.  相似文献   

13.
We develop a supervised dimensionality reduction method, called Lorentzian discriminant projection (LDP), for feature extraction and classification. Our method represents the structures of sample data by a manifold, which is furnished with a Lorentzian metric tensor. Different from classic discriminant analysis techniques, LDP uses distances from points to their within-class neighbors and global geometric centroid to model a new manifold to detect the intrinsic local and global geometric structures of data set. In this way, both the geometry of a group of classes and global data structures can be learnt from the Lorentzian metric tensor. Thus discriminant analysis in the original sample space reduces to metric learning on a Lorentzian manifold. We also establish the kernel, tensor and regularization extensions of LDP in this paper. The experimental results on benchmark databases demonstrate the effectiveness of our proposed method and the corresponding extensions.  相似文献   

14.
两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色。常用的距离度量方法主要适用于数值数据,针对分类数据,本文提出一种数据驱动的相似性度量方法。该方法利用属性值与类标签的信息,将属性值的类条件概率结合信息论来度量分类数据的相似性。为了与已提出的相似性度量方法作比较,把各度量方法与k最近邻算法结合,对多个分类数据集进行分类,通过十折交叉验证比较结果的错误率。实验表明该度量结合k最近邻方法使分类具有较低的错误率。  相似文献   

15.
Development of classification methods using case-based reasoning systems is an active area of research. In this paper, two new case-based reasoning systems with two similarity measures that support mixed categorical and numerical data as well as only categorical data are proposed. The principal difference between these two measures lies in the calculations of distance for categorical data. The first one, named distance in unsupervised learning (DUL), is derived from co-occurrence of values, and the other one, named distance in supervised learning (DSL), is used to calculate the distance between two values of the same feature with respect to every other feature for a given class. However, the distance between numerical data is computed using the Euclidean distance. Furthermore, the importance of numeric features is determined by linear discrimination analysis (LDA) and the weight assignment to categorical features depends on co-occurrence of feature values when calculating the similarity between a new case and the old one. The performance of the proposed case-based reasoning systems has been investigated on the University of California, Irvine (UCI) data sets by 5-fold cross validation. The results indicate that these case-based reasoning systems will produce a proper performance in predictive accuracy and interpretability.  相似文献   

16.
Recently, graph embedding-based methods have drawn increasing attention for dimensionality reduction (DR) of hyperspectral image (HSI) classification. Graph construction is a critical step for those DR methods. Pairwise similarity graph is generally employed to reflect the geometric structure in the original data. However, it ignores the similarity of neighbouring pixels. In order to further improve the classification performance, both spectral and spatial-contextual information should be taken into account in HSI classification. In this paper, a novel spatial-spectral neighbour graph (SSNG) is proposed for DR of HSI classification, which consists of the following four steps. First, a superpixel-based segmentation algorithm is adopted to divide HSI into many superpixels. Second, a novel distance metric is utilized to reflect the similarity of two spectral pixels in each superpixel. In the third step, a spatial-spectral neighbour graph is constructed according to the above distance metric. At last, support vector machine with a composite kernel (SVM-CK) is adopted to classify the dimensionality-reduced HSI. Experimental results on three real hyperspectral datasets demonstrate that our method can achieve higher classification accuracy with relatively less consumed time than other graph embedding-based methods.  相似文献   

17.
为了能够更好地对非独立同分布的多尺度分类型数据集进行研究,基于无监督耦合度量相似性方法,提出针对非独立同分布的分类属性型数据集的多尺度聚类挖掘算法。首先,对基准尺度数据集进行基于耦合度量的基准尺度聚类;其次,提出基于单链的尺度上推和基于Lanczos核的尺度下推尺度转换算法;最后,利用公用数据集以及H省真实数据集进行实验验证。将耦合度量相似性(Couple metric similarity, CMS)、逆发生频率(Inverse occurrence frequency, IOF)、汉明距离(Hamming distance, HM)等方法与谱聚类结合作为对比算法,结果表明,尺度上推算法与对比算法相比,NMI值平均提高13.1%,MSE值平均减小0.827,F-score值平均提高12.8%;尺度下推算法NMI值平均提高19.2%,MSE值平均减小0.028,F-score值平均提高15.5%。实验结果表明,所提出的算法具有有效性和可行性。  相似文献   

18.
We introduce a method that enables scalable similarity search for learned metrics. Given pairwise similarity and dissimilarity constraints between some examples, we learn a Mahalanobis distance function that captures the examples' underlying relationships well. To allow sublinear time similarity search under the learned metric, we show how to encode the learned metric parameterization into randomized locality-sensitive hash functions. We further formulate an indirect solution that enables metric learning and hashing for vector spaces whose high dimensionality makes it infeasible to learn an explicit transformation over the feature dimensions. We demonstrate the approach applied to a variety of image data sets, as well as a systems data set. The learned metrics improve accuracy relative to commonly used metric baselines, while our hashing construction enables efficient indexing with learned distances and very large databases.  相似文献   

19.
Distance metric learning is rather important for measuring the similarity (/dissimilarity) of two instances in many pattern recognition algorithms. Although many linear Mahalanobis metric learning methods can be extended to their kernelized versions for dealing with the nonlinear structure data, choosing the proper kernel and determining the kernel parameters are still tough problems. Furthermore, the single kernel embedded metric is not suited for the problems with multi-view feature representations. In this paper, we address the problem of metric learning with multiple kernels embedding. By analyzing the existing formulations of metric learning with multiple-kernel embedding, we propose a new framework to learn multi-metrics as well as the corresponding weights jointly, the objective function can be shown to be convex and it can be converted to be a multiple kernel learning-support vector machine problem, which can be solved by existing methods. The experiments on single-view and multi-view data show the effectiveness of our method.  相似文献   

20.
目的 人体目标再识别的任务是匹配不同摄像机在不同时间、地点拍摄的人体目标。受光照条件、背景、遮挡、视角和姿态等因素影响,不同摄相机下的同一目标表观差异较大。目前研究主要集中在特征表示和度量学习两方面。很多度量学习方法在人体目标再识别问题上了取得了较好的效果,但对于多样化的数据集,单一的全局度量很难适应差异化的特征。对此,有研究者提出了局部度量学习,但这些方法通常需要求解复杂的凸优化问题,计算繁琐。方法 利用局部度量学习思想,结合近几年提出的XQDA(cross-view quadratic discriminant analysis)和MLAPG(metric learning by accelerated proximal gradient)等全局度量学习方法,提出了一种整合全局和局部度量学习框架。利用高斯混合模型对训练样本进行聚类,在每个聚类内分别进行局部度量学习;同时在全部训练样本集上进行全局度量学习。对于测试样本,根据样本在高斯混合模型各个成分下的后验概率将局部和全局度量矩阵加权结合,作为衡量相似性的依据。特别地,对于MLAPG算法,利用样本在各个高斯成分下的后验概率,改进目标损失函数中不同样本的损失权重,进一步提高该方法的性能。结果 在VIPeR、PRID 450S和QMUL GRID数据集上的实验结果验证了提出的整合全局—局部度量学习方法的有效性。相比于XQDA和MLAPG等全局方法,在VIPeR数据集上的匹配准确率提高2.0%左右,在其他数据集上的性能也有不同程度的提高。另外,利用不同的特征表示对提出的方法进行实验验证,相比于全局方法,匹配准确率提高1.3%~3.4%左右。结论 有效地整合了全局和局部度量学习方法,既能对多种全局度量学习算法的性能做出改进,又能避免局部度量学习算法复杂的计算过程。实验结果表明,对于使用不同的特征表示,提出的整合全局—局部度量学习框架均可对全局度量学习方法做出改进。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号