首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于K-Means的文本层次聚类算法研究   总被引:6,自引:0,他引:6  
尉景辉  何丕廉  孙越恒 《计算机应用》2005,25(10):2323-2324
提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。  相似文献   

2.
在图像分类中,视觉词典的质量直接影响着图像分类的结果,随着用户的要求提高,K-means聚类算法所构建的视觉词典已无法满足用户对图像分类的需求,为了得到高效的视觉词汇码本,针对构建视觉词典的算法进行研究,通过K-means算法和层次聚类算法的结合来达到这一目的。混合聚类算法采用K-means算法对数据样本进行初步聚类,得到一个粗略的划分;引入信息熵的属性加权,利用信息熵度量某个属性的关键性,信息熵越大的属性对聚类结果的影响越小,计算加权后的类间欧式距离,将距离相近的两个类进行合并;在空间金字塔模型框架中,将改进的混合聚类方法应用到视觉词典的构建中。实验结果表明,结合信息熵的层次聚类算法能有效提高空间金字塔模型的分类准确率。  相似文献   

3.
基于多阶抽样谱图聚类彩色图像分割   总被引:1,自引:0,他引:1  
针对谱聚类应用于图像分割时权矩阵的谱难以计算的实际问题,设计了一个图像多阶抽样谱图聚类算法.首先,给出了采样数定理及其证明,并推导出与聚类类别数和最小聚类数相关的最小采样数目;其次,根据最小采样数数目,对像素点进行均匀采样,并利用谱聚类对采样点进行聚类,设计一个罚函数,通过多次抽样,消除抽样对谱聚类模型稳定性的影响;最后,定义了像素点和类之间的距离,对剩余的点按距离最近原则进行聚类.实验结果表明了算法的有效性.  相似文献   

4.
针对传统Mashup服务推荐算法在关键字聚合搜索和网络构建等方式中计算复杂度过高的问题,提出一种基于语义标签的植入引导式层次聚类Mashup服务推荐算法。首先,为提高聚类算法的收敛精度,提高算法运行效率来满足大型数据搜索对算法简化的需求,采用数据预处理和植入易于获取具有代表性的样本数据对聚类进行引导,防止层次聚类算法顶层集分类失败导致的算法聚类失败。其次,利用改进的聚类算法结合实际的Mashup服务数据库,设计了植入引导式层次聚类Mashup服务推荐算法。最后,通过通过仿真对比表明,基于语义的植入式半监督层次聚类Mashup服务推荐算法的精度要好于对比算法,验证所提算法的有效性。  相似文献   

5.
王圆方 《软件》2020,(2):201-204
针对SMOTE算法在合成少数类新样本时存在的不足,提出了一种基于层次聚类算法改进的SMOTE过采样法H-SMOTE。该算法首先对少数类样本进行层次聚类,其次根据提出的簇密度分布函数,计算各个簇的簇密度,最后在各个簇中利用改进的SMOTE算法进行过采样,提高合成样本的多样性,得到新的平衡数据集。通过对UCI数据集的实验表明,H-SMOTE算法的分类效果得到明显的提升。  相似文献   

6.
现有的多视图聚类算法往往缺乏对各视图可靠度的评估和对视图进行加权的能力,而一些具备视图加权的多视图聚类算法则通常依赖于特定目标函数的迭代优化,其目标函数的适用性及部分敏感超参数调优的合理性均对实际应用有显著影响。针对这些问题,提出一种基于视图互信息加权的多视图集成聚类(MEC-VMIW)算法,主要过程可分为两个阶段,即视图互加权阶段与多视图集成聚类阶段。在视图互信息加权阶段,对数据集进行多次随机降采样,以降低评估加权过程的问题规模,进而构建多视图降采样聚类集合,根据不同视图的聚类结果之间的多轮互评得到视图可靠度评估,并据此对视图进行加权;在多视图集成聚类阶段,对各个视图数据构建基聚类集合,并将多个基聚类集合加权建模至二部图结构,利用高效二部图分割算法得到最终多视图聚类结果。在若干个多视图数据集上的实验结果验证了所提出的多视图集成聚类算法的鲁棒聚类性能。  相似文献   

7.
刘静姝  王莉  刘惊雷 《计算机应用》2020,40(12):3413-3422
为了解决样本数较大时,传统谱聚类算法执行特征分解消耗时间过大的问题,提出了一种无需特征分解的快速谱聚类算法,通过乘法更新迭代来降低时间开销。首先,利用Nyström方法进行随机采样,建立了采样矩阵和原始矩阵之间的关系;其次,基于乘法更新原理实现矩阵指示器矩阵的迭代更新;最后,在理论上对所设计算法进行了正确性和收敛性分析。在广泛使用的五个真实数据集和三个人工合成数据集上进行测试。实验结果表明,在真实数据集上,所提算法的标准互信息(NMI)平均值为0.45,与k-means聚类算法相比提高了12.50%;运行时间为61.73 s,与传统谱聚类算法相比减少了61.13%;而且表现性能优于层次聚类算法,验证了该算法的有效性。  相似文献   

8.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

9.
传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于改进密度峰值聚类的采样算法IDP-SMOTE。首先,采用Box-Cox变换和σ准则对密度峰值聚类算法进行改进,实现了聚类中心和离群点的自动判别;然后,将改进的密度峰值聚类算法与SMOTE升采样算法相结合,去除噪声数据,并基于少数类样本的局部密度和邻近距离,在子类的范围内合成采样数据。该算法有效避免了升采样导致的边界模糊,改善了类内不平衡及边界样本难以学习的问题,同时实现了自动聚类和重采样,防止了人为因素干扰。通过实验对比,验证了提出算法的有效性和自适应性。  相似文献   

10.
蔡君  余顺争 《计算机应用研究》2013,30(12):3560-3563
根据网络节点的局部拓扑信息构建稀疏相似网络。基于稀疏相似网络, 提出了一种改进后的随机聚类采样算法对网络社团进行探测。在人工和真实网络上, 将算法与未改进的随机聚类采样算法以及几种典型的社团探测算法进行了准确率和时间复杂度的比较。实验结果表明, 该方法在时间复杂度上具有明显的优势, 并且具有较好的准确率。  相似文献   

11.
针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际数据进行分析,以发现不同类别卖方的销售信用特点。  相似文献   

12.
针对Nyström方法在谱聚类应用中存在聚类效果不稳定、样本代表性较弱的问题,提出基于加权集成Nyström采样的谱聚类算法.首先利用统计杠杆分数区别数据间的重要程度,对数据进行加权.然后基于权重采用加权K-means中心点采样,得到多组采样点.再引入集成框架,利用集群并行运行Nyström方法构建近似核矩阵.最后利用岭回归方法组合各个近似核矩阵,产生比标准Nyström方法更准确的低秩近似.在UCI数据集上的测试实验表明,文中算法取得较理想的聚类结果.  相似文献   

13.
探地雷达(GPR)图像双曲波提取是分析地下目标位置和结构的重要方法,但在真 实环境中,由于噪声和杂波的干扰,使得提取出的双曲波存在结构不完整、碎片化和形状异 常等问题,不利于数据分析和三维建模等后续操作。为此,提出了一种基于多标签层次聚类 的双曲波提取方法(MHCE)。首先通过信息熵评价像素邻域的稳定性,构造了基于信息熵的 距离度量来进行层次聚类;然后利用聚类后的邻接空间进行多标签聚类以降低杂波和噪声对 双曲波提取的影响;最后结合多标签聚类结果的拟合形状和纹理方向提取双曲波。实验表明, 该方法对于真实GPR 图像双曲波具有较好的鲁棒性,能够获得规范化的双曲波形状和位置 参数。  相似文献   

14.
针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题, 提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering, ADHSBHD). 首先引入HDBSCAN聚类算法, 将少数类和多数类分别聚类, 将全局离群点和局部离群点的交集视为噪声集, 在剔除噪声样本之后对原数据集进行处理, 其次, 根据少数类样本中每簇的平均距离, 采用覆盖面更广的采样方法自适应合成新样本, 最后删除一部分多数类样本集中的对分类贡献小的点, 使数据集均衡. ADHSBHD算法在7个真实数据集上进行评估, 结果证明了其有效性.  相似文献   

15.
层次聚类的簇集成方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
聚类集成比单个聚类方法具有更高的鲁棒性和精确性,它主要由两部分组成,即个体成员的产生和结果的融合。针对聚类集成,首先用k-means聚类算法得到个体成员,然后使用层次聚类中的单连接法、全连接法与平均连接法进行融合。为了评价聚类集成方法的性能,实验中使用了ARI(Adjusted Rand Index)。实验结果表明,平均连接法的聚类集成性能优于单连接法和全连接法。研究并讨论了融合方法的聚类正确率和集成规模的关系。  相似文献   

16.
文章提出了一种基于k均值聚类的视频关键帧提取算法。该算法在视频的镜头分割算法之上,通过层次聚类对视频内容进行初步划分,之后结合k均值聚类算法对初步提取的关键帧进行直方图特征对比去掉冗余帧,最终确定视频的关键帧序列。经过大量的实验数据证明,该算法能够提取出冗余度较低、代表性较强的关键帧,一定程度上为视频关键帧提取提供了有效的方法。  相似文献   

17.
A hybrid clustering procedure for concentric and chain-like clusters   总被引:1,自引:0,他引:1  
K-means algorithm is a well known nonhierarchical method for clustering data. The most important limitations of this algorithm are that: (1) it gives final clusters on the basis of the cluster centroids or the seed points chosen initially, and (2) it is appropriate for data sets having fairly isotropic clusters. But this algorithm has the advantage of low computation and storage requirements. On the other hand, hierarchical agglomerative clustering algorithm, which can cluster nonisotropic (chain-like and concentric) clusters, requires high storage and computation requirements. This paper suggests a new method for selecting the initial seed points, so that theK-means algorithm gives the same results for any input data order. This paper also describes a hybrid clustering algorithm, based on the concepts of multilevel theory, which is nonhierarchical at the first level and hierarchical from second level onwards, to cluster data sets having (i) chain-like clusters and (ii) concentric clusters. It is observed that this hybrid clustering algorithm gives the same results as the hierarchical clustering algorithm, with less computation and storage requirements.  相似文献   

18.
基于聚类的语料库分词评价方法研究   总被引:3,自引:0,他引:3  
对大规模汉语文本语料库分词正确率的评价提出了新的见解,即在分层抽样基础上对文本样本进行聚类.通过聚类可提高检验精度或减少样本量.该方法采用了一种新的样本相似性度量公式,该公式综合考虑了样本向量间的距离和样本向量各分量之间的线性相关性.通过对聚类结果的动态评价,调整聚类的类别数和相似性因子,提高了聚类的效率和质量.实验表明该方法在评价大规模语料库分词正确率时取得了很好的效果。  相似文献   

19.
针对具有多种覆盖需求的柔性制造车间RFID网络规划问题,以部署成本、阅读器干扰与阅读器效能为多优化目标,提出一种分层聚类、冗余消减与梯度下降方法集成的RFID网络规划方法,采用分层聚类算法确定RFID初始数量与部署位置,采用冗余阅读器消减算法优化RFID数量,采用梯度下降算法优化RFID部署位置从而实现网络规划多目标优化。实验研究表明,提出的方法在多目标综合性能方面优于传统基于分层聚类方法、遗传算法、粒子群与冗余消减混合方法的RFID网络规划方法,验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号