首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 468 毫秒
1.
在多标记分类问题中,有效地利用标记间的依赖关系是进一步提升分类器性能的主要途径之一。基于分类器链算法,利用互信息度量理论构造分类对象的类属性之间明确的多标记关系依赖模型,并依据建立的标记依赖模型将分类器链中的线性依赖拓展成树型依赖,以适应更为复杂的标记依赖关系;同时,在此基础上利用Stacking集成学习方法建立最终训练模型,提出了一种新的针对树型依赖表示模型的Stacking算法。 在多个实验数据集上的实验结果表明,与原有的Stacking集成学习相比,该算法提升了分类器的相应评价指标。  相似文献   

2.
何志芬  杨明  刘会东 《软件学报》2014,25(9):1967-1981
提出了多标记分类和标记相关性的联合学习(JMLLC),在JMLLC中,构建了基于类别标记变量的有向条件依赖网络,这样不仅使得标记分类器之间可以联合学习,从而增强各个标记分类器的学习效果,而且标记分类器和标记相关性可以联合学习,从而使得学习得到的标记相关性更为准确.通过采用两种不同的损失函数:logistic回归和最小二乘,分别提出了JMLLC-LR(JMLLC with logistic regression)和JMLLC-LS(JMLLC with least squares),并都拓展到再生核希尔伯特空间中.最后采用交替求解的方法求解JMLLC-LR和JMLLC-LS.在20个基准数据集上基于5种不同的评价准则的实验结果表明,JMLLC优于已提出的多标记学习算法.  相似文献   

3.
将统计检验方法应用于核函数度量.以核函数、规范化核函数、中心化核函数和核距离作为样本在特征空间中的几何关系度量,使用t检验和F检验等7种统计检验方法检验特征空间中同类样本间几何关系度量值与异类样本间几何关系度量值的分布差异,以此反映特征空间中同类样本间内聚性与异类样本间分离性间的差异.在11个UCI数据集上进行的核函数选择实验表明,基于统计检验的核度量方法达到或超过了核校准与特征空间核度量标准等方法的效果,适用于核函数度量;并且发现两类数据分布差异主要体现在了方差差异上.此外,对核函数的处理(规范化或中心化)会改变特征空间,使得度量结果失真.  相似文献   

4.
组合分类器通过在输入空间中依据一定的规则生成数据集来训练成员分类器。提出一种新的基于核函数的模糊隶属度方法用来分隔数据集,并依据数据集中样本的模糊隶属度将它们分为相对难分和相对易分的数据子集,根据两个数据子集的难易程度训练不同的分类器。并用得到的两类分类器作为成员分类器生成组合分类器。将该组合分类器应用到UCI的标准数据集,实验表明该方法比Bagging和AdaBoost算法具有更好的性能。  相似文献   

5.
典型相关分析(CCA)是利用样本的相关性进行特征提取的一种重要的降维方法,而相关性判别分析(CDA)则是在特征空间中最大化同类样本对间的相关性,同时最小化不同类样本对间的相关性,可看作类依赖的典型相关分析。这两种方法的特征提取与其后的分类器是两个相互独立的过程,如此不可避免地会影响分类器的性能。借助正则单纯形的顶点等距并具有仿射不变性的特性,将其作为类标号编码,把样本中包含的类信息结合到分类器设计中,最大化各个样本与其类标号的相关性,同时最小化样本与其余类标号之间的相关性,得到类依赖的相关性多类分类器(CCMC)。进一步通过与经验核相结合,获得了具有更强分类性能的核化版非线性分类器EK-CCMC。人工数据集和部分UCI数据集上的实验结果表明,利用类依赖的相关性直接设计分类器可以提高分类性能。  相似文献   

6.
度量亦称距离函数,是度量空间中满足特定条件的特殊函数,一般用来反映数据间存在的一些重要距离关系.而距离对于各种分类聚类问题影响很大,因此度量学习对于这类机器学习问题有重要影响.受到现实存在的各种噪声影响,已有的各种度量学习算法在处理各种分类问题时,往往出现分类准确率较低以及分类准确率波动大的问题.针对该问题,本文提出一种基于最大相关熵准则的鲁棒度量学习算法.最大相关熵准则的核心在于高斯核函数,本文将其引入到度量学习中,通过构建以高斯核函数为核心的损失函数,利用梯度下降法进行优化,反复测试调整参数,最后得到输出的度量矩阵.通过这样的方法学习到的度量矩阵将有更好的鲁棒性,在处理受噪声影响的各种分类问题时,将有效地提高分类准确率.本文将在一些常用机器学习数据集(UCI)还有人脸数据集上进行验证实验.  相似文献   

7.
在基于核函数的最小距离分类方法对数据集进行分类过程中,目标函数的核函数参数选择直接影响分类器的分类成功率。该文提出一种选择应用目标函数来选择适当参数的方法。实验结果表明,与单纯的基于核的最小距离分类法相比,选择最优核函数的参数可以提高分类器的成功率。  相似文献   

8.
在多标记学习中,如何处理高维特征一直是研究难点之一,而特征提取算法可以有效解决数据特征高维性导致的分类性能降低问题。但目前已有的多标记特征提取算法很少充分利用特征信息并充分提取"特征-标记"独立信息及融合信息。基于此,提出一种基于特征标记依赖自编码器的多标记特征提取方法。使用核极限学习机自编码器将原标记空间与原特征空间融合并产生重构后的新特征空间。一方面最大化希尔伯特-施密特范数以充分利用标记信息;另一方面通过主成分分析来降低特征提取过程中的信息损失,结合二者并分别提取"特征-特征"和"特征-标记"信息。通过在Yahoo多组高维多标记数据集上的对比实验表明,该算法的性能优于当前五种主要的多标记特征提取方法,验证了所提算法的有效性。  相似文献   

9.
王一宾    裴根生  程玉胜   《智能系统学报》2019,14(4):831-842
将正则化极限学习机或者核极限学习机理论应用到多标记分类中,一定程度上提高了算法的稳定性。但目前这些算法关于损失函数添加的正则项都基于L2正则,导致模型缺乏稀疏性表达。同时,弹性网络正则化既保证模型鲁棒性且兼具模型稀疏化学习,但结合弹性网络的极限学习机如何解决多标记问题鲜有研究。基于此,本文提出一种对核极限学习机添加弹性网络正则化的多标记学习算法。首先,对多标记数据特征空间使用径向基核函数映射;随后,对核极限学习机损失函数施加弹性网络正则项;最后,采用坐标下降法迭代求解输出权值以得到最终预测标记。通过对比试验和统计分析表明,提出的算法具有更好的性能表现。  相似文献   

10.
基于Hinge损失的孪生支持向量机聚类和基于Ramp损失的孪生支持向量机聚类是两种平面聚类的新算法,为解决聚类问题提供了新的研究思路,逐渐成为模式识别等领域的研究热点。然而,它们在处理带有噪声数据的聚类问题时,往往性能表现不佳。为了解决这个问题,构造了非对称的Ramp损失函数,并在此基础上提出了一种改进的Ramp孪生支持向量机聚类算法。非对称Ramp损失函数不仅继承了Ramp损失函数的优点,用非对称的有界函数度量类内散度和类间散度,使得该算法对离聚类中心平面较远的数据点更加鲁棒,而且参数t的引入使得非对称Ramp损失函数更加灵活。特别地,当参数t等于1时,非对称Ramp损失函数退化为Ramp损失函数,使得基于Ramp损失函数的孪生支持向量机聚类算法成为所提算法的特例。同时,基于核技巧推广到了非线性情形,线性和非线性模型均为非凸优化问题,通过交替迭代算法有效求解。分别在多个UCI数据集和人工数据集上进行实验,实验结果验证了所提算法的有效性。  相似文献   

11.
In multi-label classification, examples can be associated with multiple labels simultaneously. The task of learning from multi-label data can be addressed by methods that transform the multi-label classification problem into several single-label classification problems. The binary relevance approach is one of these methods, where the multi-label learning task is decomposed into several independent binary classification problems, one for each label in the set of labels, and the final labels for each example are determined by aggregating the predictions from all binary classifiers. However, this approach fails to consider any dependency among the labels. Aiming to accurately predict label combinations, in this paper we propose a simple approach that enables the binary classifiers to discover existing label dependency by themselves. An experimental study using decision trees, a kernel method as well as Naïve Bayes as base-learning techniques shows the potential of the proposed approach to improve the multi-label classification performance.  相似文献   

12.
Multi-label learning deals with data associated with a set of labels simultaneously. Like traditional single-label learning, the high-dimensionality of data is a stumbling block for multi-label learning. In this paper, we first introduce the margin of instance to granulate all instances under different labels, and three different concepts of neighborhood are defined based on different cognitive viewpoints. Based on this, we generalize neighborhood information entropy to fit multi-label learning and propose three new measures of neighborhood mutual information. It is shown that these new measures are a natural extension from single-label learning to multi-label learning. Then, we present an optimization objective function to evaluate the quality of the candidate features, which can be solved by approximating the multi-label neighborhood mutual information. Finally, extensive experiments conducted on publicly available data sets verify the effectiveness of the proposed algorithm by comparing it with state-of-the-art methods.  相似文献   

13.
多标签特征选择是针对多标签数据的特征选择技术,提高多标签分类器性能的重要手段。提出一种基于流形学习的约束Laplacian分值多标签特征选择方法(Manifold-based Constraint Laplacian Score,M-CLS)。方法分别在数据特征空间和类别标签空间定义两种Laplacian分值:在特征空间利用逻辑型类别标签的相似性对邻接矩阵进行改进,定义特征空间的约束Laplacian分值;在标签空间基于流形学习将逻辑型类别标签映射为数值型,定义实值标签空间的Laplacian分值。将两种分值的乘积作为最终的特征评价指标。实验结果表明,所提方法性能优于多种多标签特征选择方法。  相似文献   

14.
Nowadays, multi-label classification methods are of increasing interest in the areas such as text categorization, image annotation and protein function classification. Due to the correlation among the labels, traditional single-label classification methods are not directly applicable to the multi-label classification problem. This paper presents two novel multi-label classification algorithms based on the variable precision neighborhood rough sets, called multi-label classification using rough sets (MLRS) and MLRS using local correlation (MLRS-LC). The proposed algorithms consider two important factors that affect the accuracy of prediction, namely the correlation among the labels and the uncertainty that exists within the mapping between the feature space and the label space. MLRS provides a global view at the label correlation while MLRS-LC deals with the label correlation at the local level. Given a new instance, MLRS determines its location and then computes the probabilities of labels according to its location. The MLRS-LC first finds out its topic and then the probabilities of new instance belonging to each class is calculated in related topic. A series of experiments reported for seven multi-label datasets show that MLRS and MLRS-LC achieve promising performance when compared with some well-known multi-label learning algorithms.  相似文献   

15.
Cheng  Yusheng  Song  Fan  Qian  Kun 《Applied Intelligence》2021,51(10):6997-7015

For a multi-label learning framework, each instance may belong to multiple labels simultaneously. The classification accuracy can be improved significantly by exploiting various correlations, such as label correlations, feature correlations, or the correlations between features and labels. There are few studies on how to combine the feature and label correlations, and they deal more with complete data sets. However, missing labels or other phenomena often occur because of the cost or technical limitations in the data acquisition process. A few label completion algorithms currently suitable for missing multi-label learning, ignore the noise interference of the feature space. At the same time, the threshold of the discriminant function often affects the classification results, especially those of the labels near the threshold. All these factors pose considerable difficulties in dealing with missing labels using label correlations. Therefore, we propose a missing multi-label learning algorithm with non-equilibrium based on a two-level autoencoder. First, label density is introduced to enlarge the classification margin of the label space. Then, a new supplementary label matrix is augmented from the missing label matrix with the non-equilibrium label completion method. Finally, considering feature space noise, a two-level kernel extreme learning machine autoencoder is constructed to implement the information feature and label correlation. The effectiveness of the proposed algorithm is verified by many experiments on both missing and complete label data sets. A statistical analysis of hypothesis validates our approach.

  相似文献   

16.
在多标记学习框架中,特征选择是解决维数灾难,提高多标记分类器的有效手段。提出了一种融合特征排序的多标记特征选择算法。该算法首先在各标记下进行自适应的粒化样本,以此来构造特征与类别标记之间的邻域互信息。其次,对得到邻域互信息进行排序,使得每个类别标记下均能得到一组特征排序。最后,多个独立的特征排序经过聚类融合成一组新的特征排序。在4个多标记数据集和4个评价指标上的实验结果表明,所提算法优于一些当前流行的多标记降维方法。  相似文献   

17.
多标签数据广泛存在于现实世界中,多标签特征选择是多标签学习中重要的预处理步骤.基于模糊粗糙集模型,研究人员已经提出了一些多标签特征选择算法,但是这些算法大多没有关注标签之间的共现特性.为了解决这一问题,基于样本标签间的共现关系评价样本在标签集下的相似关系,利用这种关系定义了特征与标签之间的模糊互信息,并结合最大相关与最小冗余原则设计了一种多标签特征选择算法LC-FS.在5个公开数据集上进行了实验,实验结果表明了所提算法的有效性.  相似文献   

18.
在多标记分类中,某个标记可能只由其自身的某些特有属性决定,这些特定属性称之为类属属性利用类属属性进行多标记分类,可以有效避免某些无用特征影响构建分类模型的性能然而类属属性算法仅从标记角度去提取重要特征,而忽略了从特征角度去提取重要标记事实上,如果能从特征角度提前关注某些标记,更容易获取这些标记的特有属性基于此,提出了一...  相似文献   

19.
谭桥宇  余国先  王峻  郭茂祖 《软件学报》2017,28(11):2851-2864
弱标记学习是多标记学习的一个重要分支,近几年已被广泛研究并被应用于多标记样本的缺失标记补全和预测等问题.然而,针对特征集合较大、更容易拥有多个语义标记和出现标记缺失的高维数据问题,现有弱标记学习方法普遍易受这类数据包含的噪声和冗余特征的干扰.为了对高维多标记数据进行准确的分类,提出了一种基于标记与特征依赖最大化的弱标记集成分类方法EnWL.EnWL首先在高维数据的特征空间多次利用近邻传播聚类方法,每次选择聚类中心构成具有代表性的特征子集,降低噪声和冗余特征的干扰;再在每个特征子集上训练一个基于标记与特征依赖最大化的半监督多标记分类器;最后,通过投票集成这些分类器实现多标记分类.在多种高维数据集上的实验结果表明,EnWL在多种评价度量上的预测性能均优于已有相关方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号