首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
李航  王进  赵蕊 《智能系统学报》2017,12(5):624-639
近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集。在11个不同规模的数据集上进行实验,结果表明,该算法具有较好的分类性能,较低的时间复杂度且具备良好的处理大规模数据集的能力。  相似文献   

2.
标签传播算法(LPA)是一种高效地处理大规模网络的社区发现算法,由于其近乎线性的时间复杂度而受到广泛关注。然而,该算法每个节点的标签依赖于其邻居节点,其迭代速度和聚类有效性对标签信息的更新顺序非常敏感,影响了社区发现结果的准确性和稳定性。基于该问题,提出了一种基于加权聚类集成的标签传播算法。该算法利用多次标签传播算法的结果作为基聚类集,并用模块度评估每个基聚类的重要性,使其作为节点相似性度量的权值形成加权相似性矩阵,最后通过层次聚类得出最终的社区划分结果。在实验分析中,该算法和其他5个具有代表性的标签传播算法的改进算法在真实数据集上进行了比较,展示了新算法能有效地提高标签传播算法的社区发现精度。  相似文献   

3.
提出一种基于受限约束范围标签传播的半监督学习算法。首先利用相似性矩阵计算得出概率转移矩阵,进而通过概率转移矩阵得出受限约束范围。然后在约束范围内利用半监督学习框架下的标签传播算法计算基于路径的相似性,路径相似性决定了标签传播的重要路径。由于只使用几条重要的传播路径使得算法中省去计算每一条路径的相似度,计算复杂度大大减少。最终使得标签在带标签数据与未标签数据之间通过几条重要的路径之间传播。实验已经证明此算法的有效性。  相似文献   

4.
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。  相似文献   

5.
标签传递算法是一种半监督分类方法,由于该算法存在要求数据分类结果符合流行假设、数据维数较高时计算复杂度高等问题,在文本分类中效果较差。针对这些问题,经过对LDA主题模型和标签传递算法原理及复杂度的分析,将两者结合,提出一种基于LDA主题模型的标签传递算法LPLDA。该算法用LDA主题模型中的主题表示文本数据,一方面使用LDA主题模型表示文本保证分类结果符合流行假设,另一方面有效减少标签传递算法相似度计算时间。经过实验证明,该算法在标记数据少于待测样本时,分类效果优于传统的有监督分类方法。  相似文献   

6.
针对传统谱聚类算法在聚类过程中所出现的高计算复杂度、噪声敏感,以及聚类簇形态偏斜等问题,结合当前大规模数据聚类的特点与需求,本文建立基于约束优化传播的改进大规模数据半监督式谱聚类模型。该模型首先利用先验成对点约束信息构建微型相似性矩阵,在此基础上采用Gabow算法提取该微型相似性矩阵所对应连通图的各强连通分支,继而提出面向各强连通分支的新型约束优化传播算法以获取整个数据集的点对相似度,最后通过奇异值分解并运用加速k-means算法获得大规模数据的聚类结果。在多个标准测试数据集上的实验表明,相比于该领域其它前期研究成果,本文所提聚类模型具有更高的聚类准确率和更低的计算复杂度,更适合大规模数据的聚类应用。  相似文献   

7.
本文针对近邻传播聚类中存在的复杂度高问题,提出了局部敏感哈希的近邻传播聚类算法,根据局部敏感哈希先将相似数据哈希到同一桶中,在对每个桶中的数据进行聚类。实验结果表明,该算法降低了复杂度,提高了准确率。  相似文献   

8.
传统基于支持向量机的不平衡数据分类算法包含矩阵运算,无法应用于大规模的不平衡数据集。针对这种情况,提出基于差分孪生卷积神经网络的大规模不平衡数据分类算法。设计差分卷积机制增强卷积神经网络的深度结构表示能力,在不改变滤波器数量的情况下提高模型的判别能力。通过差分孪生卷积神经网络分别优化每个类的特征图,每个类关联多个超平面,根据输入样本与超平面的距离决定输出样本的类标签。基于多组不平衡数据集的实验结果表明,该算法实现了较好的分类性能。  相似文献   

9.
基于限制性四叉树LOD大规模地形预处理算法   总被引:2,自引:0,他引:2       下载免费PDF全文
LOD(Level Of Detail,层次细节)技术是解决大规模地形实时渲染的关键技术之一,通过这种技术可以较好地简化场景的复杂度,减少图形显示的失真度,满足一定的实时性要求。传统的算法将四叉树和LOD技术相结合将大规模数字高程模型数据(DEM)进行分块,并对块内数据按照分辨率的大小分层存储。通过对四叉树的研究,在限制性四叉树的基础上引入预处理算法,提高了地形读取速度,增强了实时显示效果。该算法是基于限制性四叉树的一种高效的规则网格划分方法,内存开销少,降低了CPU的负担。实验结果表明该算法提高了地形导入的效率,能实现大规模地形的实时漫游。  相似文献   

10.
利用少量标签数据获得较高聚类精度的半监督聚类技术是近年来数据挖掘和机器学习领域的研究热点。但是现有的半监督聚类算法在处理极少量标签数据和多密度不平衡数据集时的聚类精度比较低。基于主动学习技术研究标签数据选取,提出了一个新的半监督聚类算法。该算法结合最小生成树聚类和主动学习思想,选取包含信息较多的数据点作为标签数据,使用类KNN思想对类标签进行传播。通过在UCI标准数据集和模拟数据集上的测试,结果表明提出的算法比其他算法在处理多密度、不平衡数据集时有更高精度且稳定的聚类结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号