首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
借助于近似极大值函数的凝聚函数,将传统数据聚类问题转化为无约束优化问题求解.首先利用一阶必要条件,推导出数值属性下数据聚共中心的计算格式;其次采用类属性分解方法,提出计算类属性数据对象之间距离的新方法,井在此基础上给出混合属性下数据聚类中心的计算格式和一个能处理数值型和分类型混合数据集的凝聚聚类算法;最后选取不同初始聚类中心,使用凝聚聚类算法对英语借词进行了聚类实验和分析.结果表明,凝聚聚类算法在计算效率和计算效果方面均优于模糊k-prototypes聚类算法.  相似文献   

2.
采用一种改进后的决策树归纳聚类算法和交互式CLTree(Clustering based on decision Trees)剪枝,对商业数据的某些问题实现了聚类挖掘。对交易数据的实际酸类分新表明,该方法不仅可以处理数值型属性,还可以处理枚举型属性。实验结果表明,该方法在处理很合类型数据时具有良好的挖掘效果。对商业数据聚类分新,可以得到合理的市场分段,预测顾客的购买行为。  相似文献   

3.
聚类作为一种无监督的学习方法,利用对数据的分析从中发掘有用的信息。聚类质量的高低通常取决于聚类方法所使用的相似性度量方法和实现方式。文章中提出了一种有效的面向高维数值型数据的聚类方法——新的线性相似性度(LM),可以较好地识别开难于区分的数值型数据。通过与三种经典方法比较,实验结果显示该类方法对数值型高维数据有较高的灵敏度。  相似文献   

4.
在聚类分析中,如何选择恰当的聚类个数是一个非常复杂而又必须面对的问题.尽管针对数值型数据聚类个数的选择算法已经进行了广泛地研究,但如何确定符号型数据的聚类个数仍然是一个富有挑战性的问题.结合划分和层次聚类的思想,提出一种符号数据聚类个数的确定算法.在UCI数据集上的实验结果表明该方法是有效的.  相似文献   

5.
聚类是数据挖掘中重要的功能算法,其主要的功能是发现数据中潜在的知识.目前文献发表的聚类算法多数仅限于处理单一数值型数据或者分类型数据,其主要原因是含有多种类型的混合型数据间的相似性很难度量.本文提出了一种混合数据相似性度量方法:对于分类型属性,利用互信息构建贝叶斯信念网络,利用贝叶斯信念网络构建关系层次,继而为层次附上距离,形成关系层次距离,而对于数值型属性则利用标准化的曼哈顿距离来度量其相似性,最后结合分类型属性与数值型属性来对整个数据集进行相似性的度量.在此基础上,设计实现了用于混合型数据聚类算法CRHD,并通过UCI中的多个数据集和已有算法进行仿真实验对比,证明了CRHD算法的有效性.  相似文献   

6.
非平衡数据集是指数据集中的某类样本数量远大于其他样本的数量。对于此类数据,类分布的不平衡会直接导致很多分类算法的失效。文中基于K-means聚类,Silhouette指标和M-近邻下采样提出一种新的数据平衡方法(K-S-M)。该方法首先用K-means算法对多数类样本进行多次聚类并选取最优聚类个数,然后采用M-近邻下采样对聚类后的数据进行采样,将采样后的点最终构成平衡数据,并对得到的平衡数据进行癫痫性发作的自动检测。实验结果表明,文中所提方法可以很好地处理非平衡数据,减少数据信息损失,同时可以提高非平衡数据分类的有效性。  相似文献   

7.
【目的】针对k-Means聚类算法及MinMax k-Means聚类算法需要人为提前给定聚类数量而导致数据划分准确率偏低以及MinMax k-Means算法聚类效果受类簇边缘点影响较大等不足提出解决方案。【方法】将k-Means和MinMax k-Means算法的目标函数相结合,建立多目标优化模型,提出基于多目标优化方法的k-Means算法。分析簇数异常情况下最小中心方差与最大簇内方差之间的关系。【结果】发现当分类簇数大于最优簇数时,最小中心方差小于最大簇内方差,据此提出了基于多目标优化方法的k-Means自适应算法。【结论】数值实验表明:提出的自适应算法在人工数据集和UCI标准数据集均具有较好的自适应性且聚类效果较优。  相似文献   

8.
针对传统聚类算法无法解决区间型数据聚类的问题,文章提出一种基于区间核的聚类算法(Clustering method based on interval kernel,IK-clustering,IK-C)。该方法首先求解区间型数据的区间中值和区间宽度,结合区间宽度和区间中值构造区间核,并采用平衡因子调节二者所占的比重,以有效衡量两个区间型样本的相似性,从而构造区间数据聚类算法。实验结果表明,文章提出的基于区间核的聚类算法在聚类均方差测度上比传统其他区间型数据聚类算法减小了0.019-0.132,说明本文提出的方法能够对区间型数据进行更为有效的聚类,得到了较好的聚类结果。  相似文献   

9.
近邻传播算法(AP)不需要事先指定聚类数目,在程序运行过程中,能够自动识别聚类中心及聚类数目。在同一批数据集上,AP算法聚类结果稳定,鲁棒性好。除此之外,AP聚类算法可以采用多种距离度量方式,聚类结果精确。针对近邻传播算法(AP)不能对异构数据进行聚类的问题,提出一种基于张量距离的高阶AP聚类算法。该算法首先利用张量表示异构数据对象,然后将张量距离引入AP聚类算法,用来度量异构数据对象在张量空间的相似度。张量距离的引入,不但能够度量异构数据对象在数值上的差异,同时能够度量异构数据对象在高阶空间中位置的差异性,有效的捕捉异构数据对象的分布特征。实验结果表示,提出的高阶AP算法能够有效的对异构数据对象进行聚类。  相似文献   

10.
k-prototypes是处理包含数值属性和分类属性混合数据主要的聚类算法,但由于对初始点的随机选择极易使聚类结果陷入局部最优,导致聚类结果的偏差.为改善聚类结果对初始点的依赖,采用遗传算法对初始点进行全局最优搜索.改进后的方法有更高的稳定性和对大数据集更快的收敛速度.数据集仿真结果表明改进算法正确、有效.  相似文献   

11.
K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。  相似文献   

12.
一种确定最佳聚类数的新算法   总被引:1,自引:0,他引:1  
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.  相似文献   

13.
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义.  相似文献   

14.
提出了一种改进的和声搜索算法并应用到聚类分析中.首先,将状态反馈机制引入到和声搜索算法中,通过判断和声记忆库中"最优"和声和"最差"和声之间的差异,来动态调整和声记忆库考虑概率和移动步长,使算法能够快速地收敛到全局最优解.通过更新和声向量中精度变量对应的聚类中心来最小化目标函数值,获得数据样本的最优划分.其次,提出了一种数据样本真实聚类中心数的确定方法,当输入样本数大于真实聚类中心数时,通过计算能够自动地确定数据样本真实聚类中心数目.最后,应用4种性能指标来比较所提算法与蚁群聚类算法和原始和声搜索聚类算法的性能.结果表明,所提算法的性能优于另两种算法.  相似文献   

15.
介绍了一种融合多尺度形态学、蚁群聚类、模糊C-均值(FCM)聚类的新的彩色图像分割方法。该算法首先利用多尺度形态学提取图像边缘,再利用蚁群聚类算法的全局搜索性和鲁棒性的优点并结合边缘信息,确定聚类中心和聚类个数,将其作为FCM聚类的初始聚类中心和聚类个数,克服了FCM算法自身并不能确定聚类中心需要人为设定的缺陷。实验结果表明,该算法可以准确地分割出目标,是一种有效的图像分割方法。  相似文献   

16.
基于模糊c-均值算法和遗传算法的新聚类方法   总被引:1,自引:1,他引:1  
为了得到最佳聚类数和相应的每一类中的样本,文中首先介绍了一种新聚类方法,用该方法构造了一个既考虑类与类之间的分散程度、又考虑同一类紧凑程度的目标评价函数;再运用模糊c-均值算法(FCM)进行迭代,求得每一类的中心和隶属度值;然后运用遗传算法搜索全局极值点;最后运用该算法对我国全要素生产力进行了模糊分类.  相似文献   

17.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。  相似文献   

18.
给出了一种新的处理海量数据的聚类算法WIDE(window-density clustering algorithm).它通过网格方法将数据之间的相互关联局部化,通过窗口技术来提高算法的效率,通过密度方法提高聚类的精度.以窗口为中介将网格方法和密度方法融合在一起是算法的主要思想.在此基础上对算法进行了扩展,在功能方面实现了混合型数据聚类、含障碍物数据聚类和增量数据聚类;在速度方面实现了分布式并行聚类.WIDE算法能够在局域网中的多台计算机上并行工作,效率高,计算复杂度为O(N),且能够发现任意形状的聚类,对噪声不敏感.  相似文献   

19.
平衡迭代规约层次聚类(balanced iterative reducing and clustering using hierarchies, BIRCH)算法是一个综合的层次聚类算法。但BIRCH算法为叶子节点中的簇设置统一的空间阈值,根据数据对象与簇之间的距离来决定数据对象的插入位置,从而忽略了簇与簇之间的关系;此外,算法在分裂节点时,选取距离最远的2个聚类特征作为子簇,其他聚类特征会根据与这2个聚类特征之间的距离关系分裂为另外的子簇,造成处于簇与簇之间的样本数据错误分类,这样会忽略聚类特征之间的关系。针对BIRCH算法的这2个问题,提出了基于阈值的自适应算法,用于解决原算法统一空间阈值的问题;并在针对聚类特征关系的问题上,结合朴素贝叶斯算法对原算法进行改进。对改进后BIRCH算法与传统的算法进行仿真实验。结果表明,改进算法在损失效率的情况下,聚类效果得到了明显的改善,并且与其他算法相比,所提算法具有不错的表现性,而且具有跨数据集的鲁棒性。  相似文献   

20.
文章提出了2种基于佳点集遗传算法的模糊聚类新方法GgaFca和HGgaFca。GgaFca可用于发现指定簇数(c)的聚类中心,具有对初始输入不敏感、收敛快、精度高并可避免早熟的特点;而混合方法HGgaFcm是利用传统模糊c-均值(Fcm)聚类算法对GgaFca聚类结果的进一步提炼,实验结果表明它具有更好的聚类效果和综合性能,可适用于不同数据库下的模糊聚类挖掘研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号