首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 328 毫秒
1.
针对分类变量相似度定义存在的不足, 提出一种新的相似度定义. 利用新的相似度定义, 将数据集抽象为无向图, 将聚类过程转化为求无向图连通分量的过程, 进而提出一种基于连通分量的分类变量聚类算法. 为了定量地分析该算法的聚类效果, 针对类别归属已知的数据集, 提出一种新的聚类结果评价指标. 实验结果表明, 所提出的算法具有较高的聚类精度和聚类效率.  相似文献   

2.
同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响.为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法.该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合.实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度.  相似文献   

3.
土地利用一级类别分类TM与ASTER数据适用性分析   总被引:1,自引:0,他引:1       下载免费PDF全文
空间分辨率15 m的ASTER数据与30 m的TM数据都可用于土地利用一级类别分类,针对哪种数据及分类方法更实用的问题,计算了一级类别类内光谱距离分布,分析类别聚类性能,分别采用基于统计的最大似然法和基于规则的区域多中心法进行分类比较,实验表明:① 多数土地一级类别宜采用TM数据,其分类精度较ASTER数据高约4%;② TM数据一级类别有较好的聚类性能,对于聚类性能较差的类别宜采用基于规则的分类方法。  相似文献   

4.
空间分辨率15 m的ASTER数据与30 m的TM数据都可用于土地利用一级类别分类,针对哪种数据及分类方法更实用的问题,计算了一级类别类内光谱距离分布,分析类别聚类性能,分别采用基于统计的最大似然法和基于规则的区域多中心法进行分类比较,实验表明:①多数土地一级类别宜采用TM数据,其分类精度较ASTER数据高约4%;②TM数据一级类别有较好的聚类性能,对于聚类性能较差的类别宜采用基于规则的分类方法.  相似文献   

5.
张林  刘辉 《自动化学报》2012,38(10):1709-1713
面向 Illumina GoldenGate 甲基化微阵列数据提出了一种基于模型的聚类算法. 算法通过建立贝塔无限混合模型, 采用 Dirichlet 过程作为先验, 实现了基于数据和模型的聚类结构的建立, 实验结果表明该算法能够有效估计出聚类类别个数、 每个聚类类别的混合权重、每个聚类类别的特征等信息, 达到比较理想的聚类效果.  相似文献   

6.
一种基于群体智能的客户行为分析算法   总被引:33,自引:0,他引:33  
提出了一种基于群体智能的客户行为分析算法.首先将客户的消费模式作为平面上的一个点随机分布于平面区域内;然后依据基于群体智能的聚类方法,选用由小到大的群体相似系数进行聚类分析;最后,在平面区域内采用递归算法收集聚类结果,获得不同消费特征的客户群体.文中还提出了算法的并行策略,提高了算法对大数据量的适应性.该文以电信移动客户话费数据作为实验数据,并将算法结果与其它经典聚类算法的结果进行比较分析.分析结果表明:这种基于群体智能的客户行为分析算法能够满足客户聚类和分类的要求,特别是在大客户分析及一对一营销中特别客户的分析方面该算法有直观、类别特征明显等特点.  相似文献   

7.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

8.
针对数据量巨大、类别多、真实类别数未知、样本数量不均衡、类内变化多的无标签人脸图像分类问题,提出基于附加间隔Softmax特征的近似等级排序人脸聚类算法。使用附加间隔Softmax损失结合Inception-ResNet-V1网络训练人脸识别模型来提取深度人脸特征,并应用于近似等级排序聚类。在LFW人脸数据集、LFW与视频模糊人脸的混合数据集上进行实验,结果表明该模型在人脸识别准确率、误识率为0.1%时的验证率均优于其他模型,近似等级排序聚类在F1度量得分优于其他聚类算法,具有更强的鲁棒性和应用价值。  相似文献   

9.
虚拟环境下大数据智能并行聚类方法研究   总被引:1,自引:1,他引:0  
为了减少虚拟环境下大数据运行时间,数据运行时能够反映出一定的规律性和特殊的分类性,需要对虚拟环境下大数据进行智能并行聚类。当前大数据聚类方法是根据K-均值聚类方法不断地进行大数据样本分类的调整,经过多次计算调整后达到数据并行聚类的效果,但每当有新的大数据流入时,都需要对当前全部数据进行K-均值聚类,计算过程复杂,聚类效率低。为此,提出了一种基于MapReduce的虚拟环境下大数据智能并行聚类方法。首先在虚拟环境下大数据中抽取小规模数据集并确定大数据簇的质心,采用Single法对所抽样的小规模数据进行聚类,获得虚拟环境下大数据属性的均值,利用最小距离分类规则将大数据属性的均值快速地向数据簇的真实中心移动,依据Davies-bouldin指标假设一个数据簇离散度参数,在此参数值中选出大数据智能并行聚类相似度最大值,最后利用聚类相似度最大值得到Davies-bouldin指数,以Davies-bouldin指数为基础将多个类别的质心间距以及聚类离散度指定阈值合并为一个类并进行迭代计算,得到数据最佳聚类中心位置,由此完成虚拟环境下大数据智能并行聚类。仿真实验结果证明,所提方法提高了大数据智能并行聚类的灵活性和普遍适用性,减少了聚类时间,并适合应用于教育技术领域,不仅可以使教育技术网络数据更加合理化,而且更加规范化。  相似文献   

10.
提出一种优化传统协同聚类中模糊点类别归属的改进算法,该算法引入基于清晰半径的新相似性距离公式,用超球体中心区域代替传统算法中的类中心,在各子集初始聚类结果的基础上,对容易导致类别归属错误的模糊点重新计算隶属度,得到较为清晰的聚类结果。实验结果显示,改进算法能很大程度地减少边界上的模糊点个数及纠正分类错误,清晰半径的引入还能弱化各子集之间协同系数的差异,使得参数设置更为简单。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号