首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 578 毫秒
1.
陈宇 《福建电脑》2007,(7):27-29
随着电子信息的不断积累,如何从这些海量信息中有效地提取用户感兴趣的知识已经成为当前数据挖掘的重要研究课题.而聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类问数据的相似度尽可能小.从而挖掘类中的难以发现的隐含知识模式,而成为研究热点。本文总结了在数据挖掘中的聚类算法,针对聚类中所存在的问题进行了归纳,并对未来的研究进行了展望。  相似文献   

2.
数据挖掘中聚类方法比较研究   总被引:5,自引:1,他引:5  
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。  相似文献   

3.
基于k最近邻网络的数据聚类算法   总被引:1,自引:0,他引:1  
聚类研究在数据挖掘研究领域中占有十分重要的地位。虽然目前已有很多数据聚类算法,但精度仍不够理想。文中提出一个基于结构化相似度的网络聚类算法(SSNCA),试图从网络聚类角度进一步提高数据聚类精度。具体解决方案是,将待聚类的向量数据集转化为k最近邻网络,并用SSNCA对该网络进行聚类。将SSNCA与c-Means、仿射传播进行比较,实验表明文中算法得到的目标函数稍差,但聚类精度要明显高于这两个算法。  相似文献   

4.
聚类分析技术是数据挖据中的一种重要技术。本文介绍了数据挖掘对聚类的典型要求和聚类方法的分类,研究分析了聚类的主要算法.并从多个方面对这些算法的性能进行比较。  相似文献   

5.
子空间聚类是高维数据聚类的一种有效手段,子空间聚类的原理就是在最大限度地保留原始数据信息的同时用尽可能小的子空间对数据聚类。在研究了现有的子空间聚类的基础上,引入了一种新的子空间的搜索方式,它结合簇类大小和信息熵计算子空间维的权重,进一步用子空间的特征向量计算簇类的相似度。该算法采用类似层次聚类中凝聚层次聚类的思想进行聚类,克服了单用信息熵或传统相似度的缺点。通过在Zoo、Votes、Soybean三个典型分类型数据集上进行测试发现:与其他算法相比,该算法不仅提高了聚类精度,而且具有很高的稳定性。  相似文献   

6.
聚类分析方法及工具应用研究   总被引:2,自引:0,他引:2  
聚类是数据挖掘领域的一个重要的研究方向。本文介绍了聚类的基本概念及主要方法,通过具体实例对当今国际上先进的数据挖掘工具(SPSS和DBiner)聚类的性能进行了对比,最后得出了结论。  相似文献   

7.
基于余弦相似度的文本空间索引方法研究   总被引:6,自引:0,他引:6  
基于相似度的数据空间索引在数据挖掘及数据可视化等方面有着重要的应用.本文以新闻的标题为研究对象,提出了以CrossAVL为基础的文本对象层次式聚类方法以及文本信息空间索引算法FastMap-MDS,有效地保持了文本对象间的相似信息.实验表明,该方法具有较高的效率和精度.  相似文献   

8.
面向大数据集管理的数据聚类方法研究在模式识别、故障诊断和数据挖掘等领域具有重要的研究意义。传统的大数据聚类算法采用混合差分进化的粒子群算法,因数据信息流分量之间的交叉作用而出现的类间交叉项干扰影响了聚类分量的正确判断,聚类效果不好。提出了一种基于时频聚集交叉项干扰抑制的大数据聚类算法。在面向传播学视域下物联网大数据库中生成大数据聚类的信息特征向量,对任意两个分簇矢量进行近邻样本的隶属度训练,在时间滑动窗口模型中进行信息调度,采用高频分量抑制方法实现对时频聚集交叉项的干扰抑制,通过频域卷积相似度融合处理,采用粒子群优化算法进行聚类适应度计算,以实现数据聚类算法改进。仿真结果表明,采用该算法进行大数据聚类,具有较好的抗干扰性和自适应性,聚类准确度较高。  相似文献   

9.
基于用户模式聚类的智能信息推荐算法   总被引:1,自引:0,他引:1  
何波  杨武  张建勋  王越 《计算机工程与设计》2006,27(13):2360-2361,2374
基于数据挖掘的智能信息推荐日益成为一个重要的研究课题。针对现有智能信息推荐算法存在的不足,提出了一种基于用户模式聚类的智能信息推荐算法(IRUMC)。该算法将相似的用户模式聚类到一起,生成用户聚类模式,然后将用户访问操作与用户聚类模式进行匹配,最后形成推荐集。它比较适合新用户、访问站点较少的用户和有新颖性信息需求的用户。实验结果表明,该算法是有效的。  相似文献   

10.
数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

11.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能.进一步对聚类算法提出了期望。  相似文献   

12.
聚类在数据挖掘中扮演着重要角色,本文分析了数据挖掘对聚类的性能要求,详细分析了几类主聚类算法及其性能,进一步对聚类算法提出了期望。  相似文献   

13.
On Clustering Validation Techniques   总被引:63,自引:0,他引:63  
Cluster analysis aims at identifying groups of similar objects and, therefore helps to discover distribution of patterns and interesting correlations in large data sets. It has been subject of wide research since it arises in many application domains in engineering, business and social sciences. Especially, in the last years the availability of huge transactional and experimental data sets and the arising requirements for data mining created needs for clustering algorithms that scale and can be applied in diverse domains.This paper introduces the fundamental concepts of clustering while it surveys the widely known clustering algorithms in a comparative way. Moreover, it addresses an important issue of clustering process regarding the quality assessment of the clustering results. This is also related to the inherent features of the data set under concern. A review of clustering validity measures and approaches available in the literature is presented. Furthermore, the paper illustrates the issues that are under-addressed by the recent algorithms and gives the trends in clustering process.  相似文献   

14.
BIRCH混合属性数据聚类方法   总被引:2,自引:1,他引:1       下载免费PDF全文
数据聚类是数据挖掘中的重要研究内容。现实世界中的数据往往同时具有连续属性和离散属性,但现有大多数算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法丢失聚类信息和降低聚类质量。一些能处理混合属性的算法又往往处理的属性过多,导致计算量的大增。提出了一种基于BIRCH算法的混合属性数据的聚类算法;在UCI数据集上的实验表明,文中提出的算法具有较好的性能。  相似文献   

15.
一种隶属关系不确定的可能性模糊聚类方法   总被引:5,自引:0,他引:5  
模糊聚类是聚类分析的一个重要分支,模糊C-均值聚类算法及其改进算法都是一种基于概率约束的聚类方法,所采用隶属度的取值形式体现了数据集的绝对隶属程度,常常出现不理想的聚类结果.对此,提出了不确定隶属的概念,在此基础上,通过提出两个基于相对隶属程度的判断准则参数,设计出一种新的基于隶属关系不确定的可能性模糊聚类新算法,并给出了具体算法实现.新算法将迭代过程中数据集对聚类簇隶属的可能性与不确定性关系引入目标函数中,达到明显的优化聚类结果的功效.理论分析和实验结果表明,相对其他聚类算法,新算法具有更高的聚类正确率.  相似文献   

16.
基于K-均值聚类和凝聚聚类的离群点查找方法   总被引:2,自引:1,他引:1       下载免费PDF全文
离群点发现是数据挖掘研究的一个重要方面。根据数据流的特点,给出了一种基于K-均值聚类和凝聚聚类的离群点发现方法,先用K-均值聚类对数据流进行处理,生成中间聚类结果,然后用凝聚聚类对这些中间结果进行再次选择,最后找出可能存在的离群点。  相似文献   

17.
聚类是数据挖掘研究领域的一种重要数据预处理方法,其目的是从无标签数据集中获得有价值数据集的内在分布结构,进而简化数据集的描述.历经几十年的研究,针对不同应用和数据特性己出现了千余种不同的聚类算法,但不同的聚类算法都有其特定的适用范围和不足.传统的聚类算法大致可分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等.通过对传统聚类方法的回顾和总结,文章重点介绍了近年来出现的同步聚类算法、信念传播聚类算法和密度峰值聚类算法,并针对以上聚类算法的应用及发展方向进行了论述.  相似文献   

18.
Interval Set Clustering of Web Users with Rough K-Means   总被引:1,自引:0,他引:1  
Data collection and analysis in web mining faces certain unique challenges. Due to a variety of reasons inherent in web browsing and web logging, the likelihood of bad or incomplete data is higher than conventional applications. The analytical techniques in web mining need to accommodate such data. Fuzzy and rough sets provide the ability to deal with incomplete and approximate information. Fuzzy set theory has been shown to be useful in three important aspects of web and data mining, namely clustering, association, and sequential analysis. There is increasing interest in research on clustering based on rough set theory. Clustering is an important part of web mining that involves finding natural groupings of web resources or web users. Researchers have pointed out some important differences between clustering in conventional applications and clustering in web mining. For example, the clusters and associations in web mining do not necessarily have crisp boundaries. As a result, researchers have studied the possibility of using fuzzy sets in web mining clustering applications. Recent attempts have used genetic algorithms based on rough set theory for clustering. However, the genetic algorithms based clustering may not be able to handle the large amount of data typical in a web mining application. This paper proposes a variation of the K-means clustering algorithm based on properties of rough sets. The proposed algorithm represents clusters as interval or rough sets. The paper also describes the design of an experiment including data collection and the clustering process. The experiment is used to create interval set representations of clusters of web visitors.  相似文献   

19.
聚类算法研究   总被引:165,自引:1,他引:165  
对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号