共查询到19条相似文献,搜索用时 62 毫秒
1.
多标签学习是机器学习领域的一个研究热点,其能够有效解决真实世界中的多语义问题。在多标签学习任务中,样本的多个标签之间存在一定的关联关系,忽略标签间的相关性会导致模型的泛化性能降低。提出一种基于标签间相关性的多标签学习K近邻算法。充分挖掘样本多标签间的相关性,通过Fp_growth算法得到标签的频繁项集。针对频繁项和标签分别构建评分模型和阈值模型,评分模型用于衡量样本与频繁项或标签之间的关联程度,阈值模型用于求解频繁项或标签对应的判别阈值,结合评分模型和阈值模型对样本所属频繁项进行预测,进而确定样本标签集。在经典数据集Emotions和Scene上的实验结果表明,该算法的F1-Measure指标分别达到66.6%和73.3%,相比CC、LP、RAKEL、MLDF等基准方法,其F1-Measure分别平均提高3.8和2.1个百分点,该算法通过合理利用标签间的相关性使得分类性能得到有效提升。 相似文献
2.
针对多标签分类算法不能充分利用标签相关性的问题,通过建立标签的正、负相关性矩阵来挖掘标签间不同的相关关系,提出一种基于引力模型的多标签分类算法(MLBGM)。首先,遍历训练集中所有样本并分别求取每个训练样本的k个近邻样本,组成该样本的近邻集合;其次,根据每个样本的近邻集合中所有近邻样本的标签分布情况,分别为每个训练样本建立正、负相关矩阵来获取标签间的相关性;然后,为每个训练样本的近邻集合计算其近邻密度和近邻权重;最后,采用计算数据粒子间相互作用力的方式构建多标签分类模型。实验结果显示,MLBGM与5种未考虑标签负相关的对比算法相比,汉明损失(HammingLoss)平均降低了15.62%,微平均F1值(MicroF1)平均提升了7.12%,子集准确率(SubsetAccurary)平均提升了14.88%。MLBGM充分利用了标签间不同的相关性,获得了有效的实验结果且分类效果优于未考虑标签负相关的对比算法。 相似文献
3.
4.
多标签分类在现实世界中有着广泛的应用,是当今机器学习领域的热点问题之一.多标签分类的代表性算法BR(Binary Relevance)虽有较多的改进工作,但大都仅针对标签相关性或特征选择中某一个方面进行改进,因此现有改进算法的性能仍存在提升空间.针对上述现状,论文提出一种基于特征选择和标签相关性的多标签分类算法,该算法先使用信息增益为每个标签选择与其相关的特征属性,而后采用新的控制结构的方式考虑标签相关性,最后使用新的特征集合为每个标签训练二分类器.在6个基准数据集上的实验结果表明,该算法在5种不同评价指标下的表现优于其它典型的BR改进算法. 相似文献
5.
在多标签分类问题中,通过k近邻的分类思想,构造测试样本关于近邻样本类别标签的新数据,通过回归模型建立在新数据下的多标签分类算法。计算测试样本在每个标签上考虑距离的k近邻,构造出每个样本关于标签的新数据集。对新数据集采取线性回归和Logistic回归,给出基于样本k近邻数据的多标签分类算法。为了进一步利用原始数据的信息,考虑每个标签关于原始属性的Markov边界,结合新数据的特征建立新的回归模型,提出考虑Markov边界的多标签分类算法。实验结果表明所给出的方法性能优于常用的多标签学习算法。 相似文献
6.
由于传统的概念漂移检测研究主要针对单标签数据流,对现实中常见的多标签数据流却缺乏足够的关注,多标签数据流概念漂移检测问题有待进一步的研究。因此,通过分析多标签数据流中存在的特殊依赖关系,提出了一种基于概率相关性的多标签数据流概念漂移检测算法。其基本思想是从概念漂移的产生原因出发,利用概率相关性近似描述数据分布来监测新旧数据分布变化,判断概念漂移是否发生。实验结果表明,提出的算法能够比较快速、准确地检测到概念漂移,并在多标签概念漂移数据流分类问题上取得了预期的学习效果。 相似文献
7.
8.
9.
针对标签特有特征和标签相关性的有效利用,提出了一种新的多标签算法LSFLC,它可以有效地集成标签特有特征和标签相关性。首先,对于每个标签,通过重采样技术生成新的正类实例以扩充其正类实例的数目;其次,通过特征映射函数将原始特征空间转换为特定的特征空间,得到每个标签的标签特征集;然后,对于每个标签,找到与其最相关标签,通过复制该标签的正类实例来扩大标签特征集,这不仅丰富了标签的信息,而且在一定程度上改善了类不平衡的问题;最后,对于不同的数据集进行实验分析,实验结果表明该算法的分类效果更好。 相似文献
10.
多标签分类算法已广泛应用于文本分类、图像识别、基因功能分类等领域,为了解决多标签分类算法较少考量标签之间的相关性等问题,提出一种基于标签相关性的多标签分类算法.首先对BP神经网络进行改进以适应多标签分类算法,然后对标签集分别使用皮尔逊相关系数和关联规则进行二阶、高阶相关性分析,最后将标签的相关性与改进的BP神经网络算法得到的概率做线性插值,得到样本属于某标签的最终概率.通过在4个真实数据集上利用5个多标签分类指标做对比实验,验证了提出的算法分类效果明显优于现有的多标签分类算法. 相似文献
11.
在大数据环境下,K近邻多标签算法(ML-KNN)高时间复杂度的问题显得尤为突出;此外,ML-KNN也没有考虑◢k◣个近邻对最终分类结果的影响。针对上述问题进行研究,首先将训练集进行聚类,再为测试集找到一个距离其最近的训练数据簇作为新的训练数据集;然后计算最近邻样本的距离权重,并用该权重描述最近邻和其他近邻对预测结果的影响;最后使用新的目标函数为待测样本分类。通过在图片、Web页面文本数据等数据集上的实验表明,所提算法得到了更好的分类结果,并且大大降低了时间复杂度。 相似文献
12.
基于联合概率的多标签分类算法 总被引:1,自引:0,他引:1
针对多标签k邻域(ML-kNN)算法忽略了多个标签间可能存在的相关性的问题,提出了一种基于联合概率的RML-kNN多标签分类算法。首先,在样本空间遍历求得每个标签的先验概率;其次,根据样本k邻域内某个标签的概率分布计算在该标签取值的条件下样本k邻域内有m个该标签出现的条件概率;然后,提出使用多个标签在k邻域的联合概率分布作为多标签分类模型的方法,并在样本空间进行计算;最后,以最大化后验概率的方法推导出RML-kNN多标签分类模型。理论分析和实验论证表明,在SubSet Accuracy上最高达到0.9612,相比ML-kNN最多有2.25%的提升;在Hamming Loss上比RM-kNN有明显降低,最低达到0.0022;在Micro-FMeasure上最高可达到0.9767,相比ML-kNN最高可有2.88%的提升。实验结果表明,RML-kNN充分考虑了标签间相关性,分类效果优于ML-kNN算法。 相似文献
13.
针对二元关联法(BR)未考虑标签之间相关性,容易造成分类器输出在训练集中不存在或次数较少标签的不足,提出了基于贝叶斯模型的多标签分类算法(MLBM)和马尔可夫型多标签分类算法(MMLBM)。首先,建立仿真模型分析BR算法的不足,考虑到标签的取值应由属性置信度和标签置信度共同决定,提出MLBM。其中,通过传统的分类算法计算获得属性置信度,以及通过训练集得到标签置信度。然后,考虑到MLBM在计算属性置信度时必须考虑所有已分类的标签,分类器的性能容易受无关或弱关系的标签影响,所以使用马尔可夫模型简化置信度的计算提出了MMLBM。理论分析和仿真实验表明,与BR算法相比,MMLBM的平均分类精度在emotions数据集上提高约4.8%,在yeast数据集上提高约9.8%,在flags数据集上提高约7.3%。实验结果表明,当数据集中实例的标签基数较大时,相对于BR算法,MMLBM的准确性有较大的提升。 相似文献
14.
为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后,对降维后的训练样本集进行聚类处理,即用聚类质心代表每种类型的文件;最后,针对训练样本分布不均匀可能造成的分类误差,提出基于距离加权的KNN算法。实验结果表明,改进算法在样本数较多的情况下,能降低分类的计算复杂度,并保持了较高的识别正确率;而且该算法不依赖文件类型的特征标识,应用范围更为广泛。 相似文献
15.
针对复杂的室内环境和在传统K最近邻法(KNN)算法中认为信号差相等时物理距离就相等两个问题,提出了一种新的接入点(AP)选择方法和基于缩放权重的KNN室内定位算法。首先,改进AP的选择方法,使用箱形图过滤接收信号强度(RSS)的异常值,初步建立指纹库,剔除指纹库中丢失率高的AP,使用标准偏差分析RSS的变化,选择干扰较小的前n个AP;其次,在传统的KNN算法中引入缩放权重,构建一个基于RSS的缩放权重模型;最后,计算出获得最小有效信号距离的前K个参考点坐标,得到未知位置坐标。定位仿真实验中,仅对AP选择方法进行改进的算法平均定位误差比传统的KNN算法降低了21.9%,引入缩放权重算法的平均定位误差为1.82 m,比传统KNN降低了53.6%。 相似文献
16.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。 相似文献
17.
针对增量式监测算法(IMA)的冗余搜索问题,提出一种基于IMA改进的移动对象连续k近邻(Continuous k Nearest Neighbor, CkNN)查询处理新算法。采用增量式查询处理机制;利用距离相近的查询其查询结果大部分相同这一特性,在以查询点为中心进行网络扩展之前,首先执行一个预处理过程,分析相近的其他查询的扩展树,并重用其中的有效部分,从而避免了对道路网的盲目扩展;且在节点的网络扩展中,通过应用具有相同扩展方向的其他查询的扩展结果,不仅减少了对道路网的重复扩展,还节省了计算代价。实验结果表明,所提算法同传统算法相比较, 缩短了查询响应时间,提高了运行效率,并且适用于不同类型的k近邻查询。 相似文献
18.