首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 843 毫秒
1.
提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,减少数据挖掘算法对数据库直接调用的次数,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。可以加快知识发现过程,提高数据挖掘效率,实现对于大型数据库的知识发现。最后设计了SQL-C4.5算法,该算法实现了利用数据抽取器为决策树算法C4.5抽取必要的统计数据,实现了C4.5决策树的构建。  相似文献   

2.
基于数据挖掘的知识获取与发现   总被引:9,自引:0,他引:9  
利用数据挖掘技术,提出一种从局部模式向全局模式进行数据融合的模型,并对局部模式的数据挖掘进行了探讨,提出基于事实的物理维度和基于事实数据信息的两种不同出发点的分类聚类模型与算法,并对两者作出了比较,结果是在实际应用中均能较好地解决问题,能起到辅助决策的功能。  相似文献   

3.
数据挖掘中聚类方法比较研究   总被引:5,自引:1,他引:5  
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。  相似文献   

4.
基于粗糙集理论的数据挖掘算法研究   总被引:13,自引:1,他引:12  
本文提出一种基于粗糙集理论的数据挖掘模型,从实际数据出发,运用不同简化层次的算法,导出每个层次上的信息集,最后得到规则集,在进行推理和决策分析时,按照一定算法进行匹配得出结论。还给出了模拟例子说明如何建立和运用这种数据挖掘模型。  相似文献   

5.
本文提出一种基于粗糙集理论的数据挖掘模型,从实际数据出发,运用不同简化层次的算法导出每个层次上的信息集,最后得到规则集。在进行推理和决策分析时,按照一定算法进行匹配得出结论。另外,还给出了模拟例子说明如何建立和运用这种数据挖掘模型。  相似文献   

6.
时态数据挖掘是数据挖掘中一个日益重要的研究课题。本文针对时态数据中的多维关系模型,提出了一种新的时态数据建模算法。  相似文献   

7.
现阶段的数据挖掘研究工作主要集中于挖掘核心算法方面,忽视了对数据预处理的研究。本文将数据预处理无缝集成于数据仓库的构建过程中,提出了一种数据预处理过程模型,对企业成功实施数据挖掘应用做出了有益的探索。  相似文献   

8.
数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测,该文介绍了一人数据挖掘工具的设计,以Apriori算法为核心,实现了数据挖掘中基于数据库的几种常用挖掘方法,包括基于关系数据库的数据挖掘,不完整数据库中的数据挖掘和根据兴趣度测量来挖掘感兴趣知识的异常关联规则挖掘。  相似文献   

9.
流数据的聚类算法是当前数据挖掘的研究热点之一。本文在分析两层流数据聚类框架的基础上,引入了动微簇、成长簇等概念和FRG思想,提出了Growstream算法,更能反映出流数据的动态特性。  相似文献   

10.
基于数据挖掘的瓦斯灾害信息融合模型的研究   总被引:1,自引:0,他引:1  
数据挖掘和信息融合是2种功能不同的处理数据的过程,2种方法虽然原理不同,但在功能上可以相互弥补。介绍了基于数据挖掘技术建立信息融合模型的原理和算法,研究了基于模糊粗糙集的数据挖掘算法建立瓦斯灾害信息融合模型的方法,并对所建模型进行误差曲线仿真分析。  相似文献   

11.
数据流本身的特点使得静态挖掘方法不再满足要求。国内外学者已提出许多新的挖掘数据流频繁模式的方法和技术。对这些技术和算法进行了综述。首先介绍数据流的概念和特点,分析国内外的研究现状,总结了数据流中挖掘频繁模式的特点,并列出挖掘方法的常用技术和基于这些技术的代表性算法,最后讨论了将来的研究方向。  相似文献   

12.
数据流频繁模式挖掘研究进展   总被引:21,自引:3,他引:21  
现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战.如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引起了国内外研究者的广泛关注.本文深入分析数据流中的频繁模式挖掘,对其特点和算法进行较为全面的总结和分类论述,并讨论了存在的主要问题和未来的研究方向.  相似文献   

13.
数据流挖掘算法研究综述   总被引:18,自引:3,他引:15  
蒋盛益  李庆华  李新 《计算机工程与设计》2005,26(5):1130-1132,1169
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。  相似文献   

14.
概念漂移数据流挖掘算法综述   总被引:1,自引:0,他引:1  
丁剑  韩萌  李娟 《计算机科学》2016,43(12):24-29, 62
数据流是一种新型的数据模型,具有动态、无限、高维、有序、高速和变化等特性。在真实的数据流环境中,一些数据分布是随着时间改变的,即具有概念漂移特征,称为可变数据流或概念漂移数据流。因此处理数据流模型的方法需要处理时空约束和自适应调整概念变化。对概念漂移问题和概念漂移数据流分类、聚类和模式挖掘等内容进行综述。首先介绍概念漂移的类型和常用概念改变检测方法。为了解决概念漂移问题,数据流挖掘中常使用滑动窗口模型对新近事务进行处理。数据流分类常用的模型包括单分类模型和集成分类模型,常用的方法包括决策树、分类关联规则等。数据流聚类方式通常包括基于k- means的和非基于k- means的。模式挖掘可以为分类、聚类和关联规则等提供有用信息。概念漂移数据流中的模式包括频繁模式、序列模式、episode、模式树、模式图和高效用模式等。最后详细介绍其中的频繁模式挖掘算法和高效用模式挖掘算法。  相似文献   

15.
邓维维  彭宏 《计算机科学》2007,34(9):125-127
数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。  相似文献   

16.
由于数据流不同于传统静态数据的特点,对其进行有效的分析和挖掘遇到了极大的挑战。本文对近年来数据流挖掘方面的进展进行了综述,介绍数据流的基本概念、数据流模型和对数据流的概要描述,总结数据流挖掘中常用的算法,最后结合其在不同领域中的应用对数据流挖掘的意义进行分析。  相似文献   

17.
DSM-FI: an efficient algorithm for mining frequent itemsets in data streams   总被引:4,自引:4,他引:0  
Online mining of data streams is an important data mining problem with broad applications. However, it is also a difficult problem since the streaming data possess some inherent characteristics. In this paper, we propose a new single-pass algorithm, called DSM-FI (data stream mining for frequent itemsets), for online incremental mining of frequent itemsets over a continuous stream of online transactions. According to the proposed algorithm, each transaction of the stream is projected into a set of sub-transactions, and these sub-transactions are inserted into a new in-memory summary data structure, called SFI-forest (summary frequent itemset forest) for maintaining the set of all frequent itemsets embedded in the transaction data stream generated so far. Finally, the set of all frequent itemsets is determined from the current SFI-forest. Theoretical analysis and experimental studies show that the proposed DSM-FI algorithm uses stable memory, makes only one pass over an online transactional data stream, and outperforms the existing algorithms of one-pass mining of frequent itemsets.
Suh-Yin LeeEmail:
  相似文献   

18.
基于数据流的移动数据挖掘研究综述*   总被引:1,自引:1,他引:0  
无线网络和移动设备的应用为我们带来巨大的便利,可以随时随地获得信息,同时它也引发了对高效数据流分析工具的需求。移动数据挖掘是在普适环境下的数据流挖掘,从连续的数据流中发现知识。讨论了数据流、数据流管理系统和移动数据挖掘以及它们的特点,介绍了该领域的一些研究成果,突出了面临的挑战和一些相应的策略,并对这些策略进行了比较,最后展望了这一领域的研究前景。  相似文献   

19.
A data stream is a massive and unbounded sequence of data elements that are continuously generated at a fast speed. Compared with traditional approaches, data mining in data streams is more challenging since several extra requirements need to be satisfied. In this paper, we propose a mining algorithm for finding frequent itemsets over the transactional data stream. Unlike most of existing algorithms, our method works based on the theory of Approximate Inclusion–Exclusion. Without incrementally maintaining the overall synopsis of the stream, we can approximate the itemsets’ counts according to certain kept information and the counts bounding technique. Some additional techniques are designed and integrated into the algorithm for performance improvement. Besides, the performance of the proposed algorithm is tested and analyzed through a series of experiments.  相似文献   

20.
韩萌  丁剑 《计算机应用》2019,39(3):719-727
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号