首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
针对目前区间数据模糊聚类研究中区间距离定义存在的局限性,引入能够考虑区间数值分布特征的Wasserstein距离测度,提出基于Wasserstein距离测度的单指标和双指标自适应模糊聚类算法及迭代模型。通过仿真实验和CR指数,证实了该类模型的优势。该算法在海量、堆积如山的数据挖掘中有着重要的实践意义。  相似文献   

2.
模糊聚类是数据挖掘中一个重要聚类算法。当前,基于数据流模型的聚类算法已有了广泛的研究,但这些算法均为硬聚类,尚未见数据流上进行模糊聚类的文献。提出一种针对数据流模型的加权模糊聚类算法,基于真实数据集合和人工数据集的实验表明该算法比传统的模糊聚类算法具有更好的聚类性能。  相似文献   

3.
针对现代电子数据迅速膨胀,传统的审计方式已经无法应对海量的业务数据,试图将数据挖掘中的聚类和关联规则算法引入审计领域.在研究聚类与关联规则算法的含义及相关算法—K-Means和Apriori算法的基础上,提出了一种基于聚类与关联规则的审计模型,并以某市城镇医疗保险的审计为例,首先利用聚类分析进行数据筛选,然后利用关联规则挖掘海量数据之间潜在的关系,为审计提供线索.文章通过案例分析为数据挖掘在信息舞弊识别领域的应用提供参考.  相似文献   

4.
基于核方法的并行模糊聚类算法   总被引:1,自引:0,他引:1  
介绍并分析了模糊C-均值聚类算法、基于核方法的模糊C-均值聚类算法以及硬聚类算法.将硬聚类算法和模糊聚类算法结合起来,利用硬聚类算法初始化聚类中心,有效的减少模糊聚类算法的迭代次数.针对海量数据处理问题,将改进后的算法并行化,有效地提高了数据处理速度和效率,并在分布式互联PC环境下进行了性能测试.测试结果表明,基于核方法的并行模糊聚类算法具有很好的规模增长性和加速比.  相似文献   

5.
在数据挖掘过程中,对多维数据进行聚类分析是非常必要的,该文通过对多维数据之间模糊关系的分布特性分析,提出了基于差异度的逐维模糊聚类算法DBMFCA,通过逐步递推计算收敛到稳定的模糊聚类模式。算法已应用在金融危机预警系统中。  相似文献   

6.
随着数据信息的积累,如何从这些海量信息中有效地提取所需要的知识成为当前数据挖掘的重要内容。聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类间数据的相似度尽可能小,已成为研究热点。本文总结在数据挖掘中的聚类算法,针对聚类中所存在的问题进行归纳,并对未来的研究进行了展望。  相似文献   

7.
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

8.
数据挖掘常用聚类算法研究   总被引:2,自引:0,他引:2  
信息社会的发展,使数据量以前所未有的速度在增长,因此从海量数据中获取有用的知识和信息就变得越来越重要。数据挖掘是一种综合多领域知识而形成的数据分析技术,能够从大量数据中获取有价值的知识并为决策提供支持。聚类分析算法是数据挖掘中的一个核心内容,也是目前研究的一个热点。该文首先讲述了基于划分的聚类算法、基于分层的聚类算法、基于密度的聚类算法和基于网格的聚类算法等常用的聚类分析算法,并分析了其特点;然后通过举例详细描述了最近邻聚类算法的操作过程。聚类算法的总结,对聚类的研究和发展具有积极意义。  相似文献   

9.
我国水文数据挖掘技术研究的回顾与展望   总被引:9,自引:0,他引:9  
水文科学研究的领域面临来自许多方面的不确定性和非确知问题。引入数据挖掘的理论与技术,结合水文科学发展的需要,充分应用以计算机技术为基础的现代信息技术,研究水文数据挖掘的理论、技术和方法,为解决水文科学研究面临的问题提供了新的思路。当前,水文数据挖掘研究还处于起步阶段,研究内容多集中在水文数据的单项和局部数据的模拟与处理方面,对基于水文数据库的全局性多因素数据挖掘涉及很少,在数据挖掘技术与水文数据适应性方面所进行的研究也还很不够。为了充分发挥数据挖掘发现知识的作用,需要在水文主题数据库和多维数据立方、水文序列的分类、聚类和关联规则挖掘技术及优化算法以及水文序列的相似性、周期性和其它序列模式挖掘方面开展进一步研究,并向形成水文数据挖掘软件及数据平台方向发展。  相似文献   

10.
陈宇 《福建电脑》2007,(7):27-29
随着电子信息的不断积累,如何从这些海量信息中有效地提取用户感兴趣的知识已经成为当前数据挖掘的重要研究课题.而聚类作为数据挖掘的重要工具,通过将数据划分成多个类,使得类内数据尽可能相似,而类问数据的相似度尽可能小.从而挖掘类中的难以发现的隐含知识模式,而成为研究热点。本文总结了在数据挖掘中的聚类算法,针对聚类中所存在的问题进行了归纳,并对未来的研究进行了展望。  相似文献   

11.
聚类算法综述   总被引:8,自引:2,他引:6  
伍育红 《计算机科学》2015,42(Z6):491-499, 524
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要的组成部分,网格聚类技术已经被广泛应用于数据分析、图像处理、市场研究等许多领域。网格聚类算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 介绍了数据挖掘理论,对网格聚类算法进行了深入的分析研究。在研究了传统网格聚类算法的基础上,提出了一些改进的网格聚类算法,这些算法相比传统网格聚类算法有更好的聚类质量和效率。在分析了传统的多密度聚类算法的基础上,提出了基于网格的多密度聚类算法(Grid-based Clustering Algorithm for Multi-density)[1],该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,同时对聚类结果进行了人工干预。研究结果表明,基于网格的多密度聚类算法不仅能够对数据集进行正确的聚类,同时还能有效地弥补孤立点检测,有效地解决了传统多密度聚类算法不能有效识别孤立点和噪声的缺陷。基于网格的多密度聚类算法比传统的共享近邻SNN算法精度高,适合于均匀密度数据集、大部分多密度数据集,并且可以发现任意形状的聚类,对噪声数据和数据输入顺序不敏感,但对小部分多密度数据集的聚类结果不理想[1]。  相似文献   

12.
将自组织映射神经网络(SOM)与FCM结合,利用SOM的并行计算能够减少模糊C均值算法在处理海量数据时的聚类时间,可以提高聚类算法的速度和效果,同时使用该算法对校园网Web日志进行数据挖掘,能够对用户行为进行分析,从而提出相应的方法,更好地提高服务效率和管理质量。  相似文献   

13.
一种基于模拟退火和遗传算法的模糊聚类方法   总被引:4,自引:1,他引:3  
首先,对模糊C-均值聚类算法做了简要分析和评论,根据其特点,提出了一种基于模拟退火和遗传算法的聚类分析方法,算法中采用了适合于模糊聚类的树型编码方案。实验表明,该算法可克服系统对数据集及初始聚类中心的敏感性,避免陷入局部极小,在模式识别、数据挖掘等领域有着广泛的应用前景。  相似文献   

14.
聚类是数据挖掘的主要问题之一,聚类算法能够在没有任何数据先验知识的情况下对数据进行分群,从而找到数据中的有价值的信息,近年来数据挖掘在电信领域的应用越来越广泛,但是由于数据量、数据类型、计算复杂度等原因,聚类算法应用的却不多.提出一种新的适合于分布式计算的最小生成树算法,结合适合的相似度度量,设计了一种用于解决海量数据...  相似文献   

15.
本文对电力负荷预测的研究主要运用了数据挖掘中的聚类分析。构架了一种基于CURE聚类算法的电力负荷预测模型,对短期电力负荷数据进行有效的预测。并通过海量数据存储,数据挖掘和决策信息的支持,可有效地克服数据有限性,不完整性及影响因素复杂性对预测结果的影响,发挥独特优势、实现经济价值。  相似文献   

16.
离群点检测是数据挖掘一个重要内容,它为分析各种海量的、复杂的、含有噪声的数据提供了新的方法。对离群数据挖掘几类主要的方法进行了分析和评价,并在此基础上了提出了一种基于遗传聚类的离群点检测算法。该算法结合了遗传算法全局搜索的优点和K-均值方法局部收敛速度快的特点,取得较好效果。实验验证该算法很好地检测到数据集中的离群点,同时还完成了数据集的聚类。具有较好的实用性。  相似文献   

17.
研究探索了包括目标理解、准备数据、数据预处理、建立模型、评估解释、知识应用等水文数据挖掘的六个过程。并采用公共的数据处理和挖掘算法,实现各过程之间数据无缝连接,形成了松散耦合的水文数据挖掘系统体系框架。在实施水文数据挖掘过程中,将数据挖掘的一些数据处理方式应用到了水文领域,同时也采用了水文领域中的一些数据处理技术,实现了数据挖掘领域与专业领域的数据处理和评价方式融合。通过选取江苏省国家水文数据库中的两个不同代表性区域的水文资料,严格按照水文数据挖掘的过程控制,以水文相似年查找为突破口,实施数据挖掘。在全方位地对结果分析、对比和评价后发现,以数据挖掘的方法,采用聚类分析中分层聚类的凝聚算法,进行水文相似年查找所发现的结果与水文领域专家知识基本相符。  相似文献   

18.
基于数据挖掘的电网高峰负荷预测系统   总被引:1,自引:0,他引:1  
分析电网高峰负荷运行规律,以数据挖掘为核心技术,搭建数据仓库平台,在此基础上给出一种混合策略的神经网络的高峰负简预测系统,该系统将模糊聚类、L-M神经网络等综合技术融合一体,可以从海量负荷数据中挖掘出有用知识为电网高峰负荷预测服务。  相似文献   

19.
聚类分析是数据挖掘中一个重要研究内容。传统的聚类算法可划分为硬聚类和模糊聚类两大类,提出一种基于对象集上的相容关系的聚类算法,该算法通过极大相容簇来对数据对象集进行分类,使得同一对象可以属于不同的簇,而每个簇又有自己独有的成员对象,从而得到既不同于硬聚类也不同于模糊聚类的聚类效果。实验进一步表明了该算法的聚类的合理性。  相似文献   

20.
一种优化的基于网格的聚类算法   总被引:5,自引:0,他引:5  
聚类是数据挖掘领域中一个重要的研究课题.与其它算法相比,基于网格的聚类算法可以高效处理低维的海量数据.然而,由于划分的单元数与数据的维数呈指数增长,因此对于维数较高的数据集,生成的单元数过多,导致算法的效率较低.本文基于CD—Tree设计了新的基于网格的聚类算法,该算法的效率远高于传统的基于网格聚类算法的效率.此外,本文设计了一种剪枝优化策略,以提高算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法在数据集的大小及维度的可伸缩性方面均有显著提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号