首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 265 毫秒
1.
针对传统K-prototypes在计算分类属性的差异度时未考虑各个分类属性对聚类结果的影响程度,且算法容易受到噪声的干扰,无法处理数据中不够精确、不完整等不确定性问题,提出基于信息熵的粗糙K-prototypes聚类算法。在计算数据样本之间分类属性的差异度时,使用信息熵的理论,确定每个分类属性对于聚类分析结果的影响权重;引入粗糙理论,计算得到各样本与粗糙模之间的粗糙相异度,通过多次迭代计算,获得最终聚类结果。该算法结合信息熵和粗糙理论,可区别对待各分类属性,解决数据不精确引起的不确定性问题,4个UCI数据集上的实验分析结果验证了该算法的有效性。  相似文献   

2.
杨雪霞 《福建电脑》2011,27(6):9-10
大学图书馆读者数据中包含较多的数值型属性和类属性,因此细分聚类算法只能采用能够处理含有这两类数值属性的聚类算法,本文针对常用的混合属性数据聚类算法-模糊K-prototypes存在的初始参数选择困难等问题,提出了使用遗传算法为模糊K-prototypes寻找初始聚类中心的GA-FKP算法,克服了模糊K-prototyp...  相似文献   

3.
数值型和分类型混合数据的模糊K-Prototypes聚类算法   总被引:15,自引:0,他引:15  
陈宁  陈安  周龙骧 《软件学报》2001,12(8):1107-1119
由于数据库经常同时包含数值型和分类型的属性,因此研究能够处理混合型数据的聚类算法无疑是很重要的.讨论了混合型数据的聚类问题,提出了一种模糊K-prototypes算法.该算法融合了K-means和K-modes对数值型和分类型数据的处理方法,能够处理混合类型的数据.模糊技术体现聚类的边界特征,更适合处理含有噪声和缺失数据的数据库.实验结果显示,模糊算法比相应的确定算法得到的结果准确度高.  相似文献   

4.
针对模糊C均值(FCM)算法聚类数需要预先设定的问题,提出了一种新的模糊聚类有效性指标。首先,计算簇中每个属性的方差,给方差较小的属性赋予较大的权值,给方差较大的属性赋予较小的权值,得到一种基于属性加权的FCM算法;然后,根据FCM改进算法得到的隶属度矩阵计算类内紧致性和类间分离性;最后,利用类内紧致性和类间分离性定义一个新的聚类有效性指标。实验结果表明,该指标可以找到符合数据自然分布的类的数目。基于属性加权的FCM算法可以识别不同属性的重要程度,增加聚类结果的准确率,使用FCM改进算法得到的隶属度矩阵定义的有效性指标,能够发现正确的聚类个数,实现聚类无监督的学习过程。  相似文献   

5.
陈韡  王雷  蒋子云 《计算机应用》2010,30(8):2003-2005
通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英语借词数据的聚类分析中。实验结果表明,与K-prototypes算法相比,改进后的算法具有更好的稳定性和更高的精度。  相似文献   

6.
针对K-prototypes聚类算法处理混合型入侵检测数据时易陷入局部最优且对初始值敏感的问题,提出了一种基于K-prototypes与模糊评判相结合的入侵检测方法,利用K-prototypes对数据进行统计归类,在聚类中建立模糊评判模型,从统计和特征两方面对数据进行双重判定。实验结果表明两种算法的有效结合,可以提高任一种算法单独使用时的检测性能,有效地提高了检测率,降低了误检率。  相似文献   

7.
结构化模糊K-prototypes聚类算法   总被引:2,自引:0,他引:2  
尽管综合了K-means和K-modes的K-prototypes算法已能有效地处理符号数据,但用聚类中的符号模(modes)来表示聚类中的数据均值将引起大量的信息丢失。为此,本文提出了一种适合于混合类型数据的结构化模糊K-prototypes算法(SFKP),在不增加时空开销的情况下提高聚类能力。实际数据集上的实验结果显示,SFKP算法能够进行更加有效的聚类。  相似文献   

8.
针对粗糙K均值算法的执行效率较低和对数据对象的处理不准确,本文提出了基于加权距离计算的自适应粗糙K均值算法。该算法首先在粗糙集理论应用的基础上修正数据集合的隶属度函数,其次结合属性约简方法,根据数据属性对聚类效果的影响因子设置权值,在欧氏距离中引入权值系数来初始化簇的中心点,最后通过K值递增的改进算法对数据集进行正态检验来验证每个簇的数据是否符合高斯分布模型,从而能够自适应地确定K值。实验结果表明,改进后的算法相比原算法在能保证一定执行效率的同时,能获得较高的聚类精确度,且对高维数据集也有较强的适应性,从而表明该算法是有效可行的。  相似文献   

9.
一般空间模糊聚类算法没有区分各属性之间的不平衡性和讨论分类数何时为最佳,针对这一问题,提出了一种加权空间模糊动态聚类算法。该算法首先利用层次分析法得到各属性的权值;然后将权值与空间模糊动态聚类法相结合;最后利用概率统计中的F-分布来确定最佳分类,以提高空间模糊聚类算法的智能性。将文中算法与基于模糊等价关系的传递闭包方法进行比较,试验表明,该算法聚类准确率要明显高于未加权的模糊聚类算法。  相似文献   

10.
基于约简数据集的FCM聚类算法   总被引:1,自引:0,他引:1  
为了解决模糊C-均值(FCM)聚类算法在使用欧氏距离计算样本与类中心点的距离时计算量大的问题,提出了一种基于属性约简的FCM聚类算法.该算法根据粗糙集理论对初始数据进行属性约简,消除数据对象中的冗余值,然后再对约简后的属性集进行模糊聚类.实验结果表明,该算法能有效减少FCM算法的距离函数计算量,在不降低聚类精度的前提下,提高了FCM算法的执行效率.  相似文献   

11.
Clustering aims to partition a data set into homogenous groups which gather similar objects. Object similarity, or more often object dissimilarity, is usually expressed in terms of some distance function. This approach, however, is not viable when dissimilarity is conceptual rather than metric. In this paper, we propose to extract the dissimilarity relation directly from the available data. To this aim, we train a feedforward neural network with some pairs of points with known dissimilarity. Then, we use the dissimilarity measure generated by the network to guide a new unsupervised fuzzy relational clustering algorithm. An artificial data set and a real data set are used to show how the clustering algorithm based on the neural dissimilarity outperforms some widely used (possibly partially supervised) clustering algorithms based on spatial dissimilarity.  相似文献   

12.
数据标签是一种提高增量数据聚类效率的简单而有效的方法.数据标签就是分配每个新增数据点到与之最相似的簇的过程.符号数据分析的难点之一在于缺少一种恰当的方法来定义数据点与数据簇之间的相似性.为此,将簇代表定义为簇中所有属性的属性值及其在簇中的频率构成的列表,用信息熵的变化来定义“点-簇”不相似性.基于此不相似性度量,设计了一个符号型增量数据标签算法来分配无标记数据到恰当的簇.在公开数据集和文本语料上的对比实验表明,该数据标签算法不但数据标记精度高、时间开销小,而且有较好的可伸缩性.  相似文献   

13.
Fuzzy c-means (FCM) algorithm is one of the most popular methods for image segmentation. However, the standard FCM algorithm must be estimated by expertise users to determine the cluster number. So, we propose an automatic fuzzy clustering algorithm (AFCM) for automatically grouping the pixels of an image into different homogeneous regions when the number of clusters is not known beforehand. In order to get better segmentation quality, this paper presents an algorithm based on AFCM algorithm, called automatic modified fuzzy c-means cluster segmentation algorithm (AMFCM). AMFCM algorithm incorporates spatial information into the membership function for clustering. The spatial function is the weighted summation of the membership function in the neighborhood of each pixel under consideration. Experimental results show that AMFCM algorithm not only can spontaneously estimate the appropriate number of clusters but also can get better segmentation quality.  相似文献   

14.
Gath–Geva (GG) algorithm is one of the most popular methodologies for fuzzy c-means (FCM)-type clustering of data comprising numeric attributes; it is based on the assumption of data deriving from clusters of Gaussian form, a much more flexible construction compared to the spherical clusters assumption of the original FCM. In this paper, we introduce an extension of the GG algorithm to allow for the effective handling of data with mixed numeric and categorical attributes. Traditionally, fuzzy clustering of such data is conducted by means of the fuzzy k-prototypes algorithm, which merely consists in the execution of the original FCM algorithm using a different dissimilarity functional, suitable for attributes with mixed numeric and categorical attributes. On the contrary, in this work we provide a novel FCM-type algorithm employing a fully probabilistic dissimilarity functional for handling data with mixed-type attributes. Our approach utilizes a fuzzy objective function regularized by Kullback–Leibler (KL) divergence information, and is formulated on the basis of a set of probabilistic assumptions regarding the form of the derived clusters. We evaluate the efficacy of the proposed approach using benchmark data, and we compare it with competing fuzzy and non-fuzzy clustering algorithms.  相似文献   

15.
Clustering is to group similar data and find out hidden information about the characteristics of dataset for the further analysis. The concept of dissimilarity of objects is a decisive factor for good quality of results in clustering. When attributes of data are not just numerical but categorical and high dimensional, it is not simple to discriminate the dissimilarity of objects which have synonymous values or unimportant attributes. We suggest a method to quantify the level of difference between categorical values and to weigh the implicit influence of each attribute on constructing a particular cluster. Our method exploits distributional information of data correlated with each categorical value so that intrinsic relationship of values can be discovered. In addition, it measures significance of each attribute in constructing respective cluster dynamically. Experiments on real datasets show the propriety and effectiveness of the method, which improves the results considerably even with simple clustering algorithms. Our approach does not couple with a clustering algorithm tightly and can also be applied to various algorithms flexibly.  相似文献   

16.
基于多属性的空间连续模糊聚类算法的血管分割   总被引:1,自引:1,他引:0       下载免费PDF全文
血管系统的3维显示对于图像导航神经外科和手术计划非常重要。提出了一种基于多属性的空间连续模糊聚类算法的血管分割算法来提取时飞磁共振血管造影(TOF MRA)图像中的血管,该聚类算法同时利用了图像的灰度信息和几何信息来提取血管,而目前已有算法仅采用灰度信息。在该算法中又提出了一个融合了灰度和几何形状的不相似性度量准则, 由于几何形状的采用,使得该算法可以区分具有相似灰度但位于不同几何形状组织里的像素。为了验证该算法,分别对2维和3维图像进行了分割,实验结果表明,该算法能够获得更好的分割结果。  相似文献   

17.
提出了一种基于新相异度量的模糊K-Modes算法。该算法假定不同属性对聚类结果有不同程度的影响,定义了新的属性值函数,以基于划分相似度的聚类精确度作为聚类结果的评价准则。通过真实数据的实验结果表明,新的基于相异度量的模糊K-Modes算法比传统的模糊K-Modes算法有更好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号