共查询到19条相似文献,搜索用时 578 毫秒
1.
2.
数据挖掘中聚类方法比较研究 总被引:5,自引:1,他引:5
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。 相似文献
3.
基于k最近邻网络的数据聚类算法 总被引:1,自引:0,他引:1
聚类研究在数据挖掘研究领域中占有十分重要的地位。虽然目前已有很多数据聚类算法,但精度仍不够理想。文中提出一个基于结构化相似度的网络聚类算法(SSNCA),试图从网络聚类角度进一步提高数据聚类精度。具体解决方案是,将待聚类的向量数据集转化为k最近邻网络,并用SSNCA对该网络进行聚类。将SSNCA与c-Means、仿射传播进行比较,实验表明文中算法得到的目标函数稍差,但聚类精度要明显高于这两个算法。 相似文献
4.
魏丽 《数字社区&智能家居》2007,(11):637-639
聚类分析技术是数据挖据中的一种重要技术。本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法.并从多个方面对这些算法的性能进行比较。 相似文献
5.
子空间聚类是高维数据聚类的一种有效手段,子空间聚类的原理就是在最大限度地保留原始数据信息的同时用尽可能小的子空间对数据聚类。在研究了现有的子空间聚类的基础上,引入了一种新的子空间的搜索方式,它结合簇类大小和信息熵计算子空间维的权重,进一步用子空间的特征向量计算簇类的相似度。该算法采用类似层次聚类中凝聚层次聚类的思想进行聚类,克服了单用信息熵或传统相似度的缺点。通过在Zoo、Votes、Soybean三个典型分类型数据集上进行测试发现:与其他算法相比,该算法不仅提高了聚类精度,而且具有很高的稳定性。 相似文献
6.
聚类分析方法及工具应用研究 总被引:2,自引:0,他引:2
聚类是数据挖掘领域的一个重要的研究方向。本文介绍了聚类的基本概念及主要方法,通过具体实例对当今国际上先进的数据挖掘工具(SPSS和DBiner)聚类的性能进行了对比,最后得出了结论。 相似文献
7.
8.
面向大数据集管理的数据聚类方法研究在模式识别、故障诊断和数据挖掘等领域具有重要的研究意义。传统的大数据聚类算法采用混合差分进化的粒子群算法,因数据信息流分量之间的交叉作用而出现的类间交叉项干扰影响了聚类分量的正确判断,聚类效果不好。提出了一种基于时频聚集交叉项干扰抑制的大数据聚类算法。在面向传播学视域下物联网大数据库中生成大数据聚类的信息特征向量,对任意两个分簇矢量进行近邻样本的隶属度训练,在时间滑动窗口模型中进行信息调度,采用高频分量抑制方法实现对时频聚集交叉项的干扰抑制,通过频域卷积相似度融合处理,采用粒子群优化算法进行聚类适应度计算,以实现数据聚类算法改进。仿真结果表明,采用该算法进行大数据聚类,具有较好的抗干扰性和自适应性,聚类准确度较高。 相似文献
9.
基于用户模式聚类的智能信息推荐算法 总被引:1,自引:0,他引:1
基于数据挖掘的智能信息推荐日益成为一个重要的研究课题。针对现有智能信息推荐算法存在的不足,提出了一种基于用户模式聚类的智能信息推荐算法(IRUMC)。该算法将相似的用户模式聚类到一起,生成用户聚类模式,然后将用户访问操作与用户聚类模式进行匹配,最后形成推荐集。它比较适合新用户、访问站点较少的用户和有新颖性信息需求的用户。实验结果表明,该算法是有效的。 相似文献
10.
数据挖掘常用聚类算法研究 总被引:2,自引:0,他引:2
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。 相似文献
11.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能.进一步对聚类算法提出了期望。 相似文献
12.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能,进一步对聚类算法提出了期望。 相似文献
13.
On Clustering Validation Techniques 总被引:63,自引:0,他引:63
Maria Halkidi Yannis Batistakis Michalis Vazirgiannis 《Journal of Intelligent Information Systems》2001,17(2-3):107-145
Cluster analysis aims at identifying groups of similar objects and, therefore helps to discover distribution of patterns and interesting correlations in large data sets. It has been subject of wide research since it arises in many application domains in engineering, business and social sciences. Especially, in the last years the availability of huge transactional and experimental data sets and the arising requirements for data mining created needs for clustering algorithms that scale and can be applied in diverse domains.This paper introduces the fundamental concepts of clustering while it surveys the widely known clustering algorithms in a comparative way. Moreover, it addresses an important issue of clustering process regarding the quality assessment of the clustering results. This is also related to the inherent features of the data set under concern. A review of clustering validity measures and approaches available in the literature is presented. Furthermore, the paper illustrates the issues that are under-addressed by the recent algorithms and gives the trends in clustering process. 相似文献
14.
数据聚类是数据挖掘中的重要研究内容。现实世界中的数据往往同时具有连续属性和离散属性,但现有大多数算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法丢失聚类信息和降低聚类质量。一些能处理混合属性的算法又往往处理的属性过多,导致计算量的大增。提出了一种基于BIRCH算法的混合属性数据的聚类算法;在UCI数据集上的实验表明,文中提出的算法具有较好的性能。 相似文献
15.
一种隶属关系不确定的可能性模糊聚类方法 总被引:5,自引:0,他引:5
模糊聚类是聚类分析的一个重要分支,模糊C-均值聚类算法及其改进算法都是一种基于概率约束的聚类方法,所采用隶属度的取值形式体现了数据集的绝对隶属程度,常常出现不理想的聚类结果.对此,提出了不确定隶属的概念,在此基础上,通过提出两个基于相对隶属程度的判断准则参数,设计出一种新的基于隶属关系不确定的可能性模糊聚类新算法,并给出了具体算法实现.新算法将迭代过程中数据集对聚类簇隶属的可能性与不确定性关系引入目标函数中,达到明显的优化聚类结果的功效.理论分析和实验结果表明,相对其他聚类算法,新算法具有更高的聚类正确率. 相似文献
16.
离群点发现是数据挖掘研究的一个重要方面。根据数据流的特点,给出了一种基于K-均值聚类和凝聚聚类的离群点发现方法,先用K-均值聚类对数据流进行处理,生成中间聚类结果,然后用凝聚聚类对这些中间结果进行再次选择,最后找出可能存在的离群点。 相似文献
17.
18.
Interval Set Clustering of Web Users with Rough K-Means 总被引:1,自引:0,他引:1
Data collection and analysis in web mining faces certain unique challenges. Due to a variety of reasons inherent in web browsing and web logging, the likelihood of bad or incomplete data is higher than conventional applications. The analytical techniques in web mining need to accommodate such data. Fuzzy and rough sets provide the ability to deal with incomplete and approximate information. Fuzzy set theory has been shown to be useful in three important aspects of web and data mining, namely clustering, association, and sequential analysis. There is increasing interest in research on clustering based on rough set theory. Clustering is an important part of web mining that involves finding natural groupings of web resources or web users. Researchers have pointed out some important differences between clustering in conventional applications and clustering in web mining. For example, the clusters and associations in web mining do not necessarily have crisp boundaries. As a result, researchers have studied the possibility of using fuzzy sets in web mining clustering applications. Recent attempts have used genetic algorithms based on rough set theory for clustering. However, the genetic algorithms based clustering may not be able to handle the large amount of data typical in a web mining application. This paper proposes a variation of the K-means clustering algorithm based on properties of rough sets. The proposed algorithm represents clusters as interval or rough sets. The paper also describes the design of an experiment including data collection and the clustering process. The experiment is used to create interval set representations of clusters of web visitors. 相似文献