共查询到20条相似文献,搜索用时 843 毫秒
1.
提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,减少数据挖掘算法对数据库直接调用的次数,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。可以加快知识发现过程,提高数据挖掘效率,实现对于大型数据库的知识发现。最后设计了SQL-C4.5算法,该算法实现了利用数据抽取器为决策树算法C4.5抽取必要的统计数据,实现了C4.5决策树的构建。 相似文献
2.
基于数据挖掘的知识获取与发现 总被引:9,自引:0,他引:9
利用数据挖掘技术,提出一种从局部模式向全局模式进行数据融合的模型,并对局部模式的数据挖掘进行了探讨,提出基于事实的物理维度和基于事实数据信息的两种不同出发点的分类聚类模型与算法,并对两者作出了比较,结果是在实际应用中均能较好地解决问题,能起到辅助决策的功能。 相似文献
3.
数据挖掘中聚类方法比较研究 总被引:5,自引:1,他引:5
数据挖掘是近年来信息产业界非常热门的研究方向,聚类分析是数据挖掘中的核心技术。聚类算法已被广泛深入地研究,其间产生了许多不同的适用于数据挖掘的聚类算法,但这些算法仅适用于特定的问题及用户。为了更好地使用这些算法,文中对数据挖掘领域的聚类分析方法及代表算法进行了分析,提出了数据挖掘对聚类的典型要求,并基于这些要求对数据挖掘中常用的聚类算法作了比较,以便于人们更容易、更快速地选择一种适用于具体问题的聚类算法。 相似文献
4.
基于粗糙集理论的数据挖掘算法研究 总被引:13,自引:1,他引:12
本文提出一种基于粗糙集理论的数据挖掘模型,从实际数据出发,运用不同简化层次的算法,导出每个层次上的信息集,最后得到规则集,在进行推理和决策分析时,按照一定算法进行匹配得出结论。还给出了模拟例子说明如何建立和运用这种数据挖掘模型。 相似文献
5.
本文提出一种基于粗糙集理论的数据挖掘模型,从实际数据出发,运用不同简化层次的算法导出每个层次上的信息集,最后得到规则集。在进行推理和决策分析时,按照一定算法进行匹配得出结论。另外,还给出了模拟例子说明如何建立和运用这种数据挖掘模型。 相似文献
6.
时态数据挖掘是数据挖掘中一个日益重要的研究课题。本文针对时态数据中的多维关系模型,提出了一种新的时态数据建模算法。 相似文献
7.
现阶段的数据挖掘研究工作主要集中于挖掘核心算法方面,忽视了对数据预处理的研究。本文将数据预处理无缝集成于数据仓库的构建过程中,提出了一种数据预处理过程模型,对企业成功实施数据挖掘应用做出了有益的探索。 相似文献
8.
9.
10.
基于数据挖掘的瓦斯灾害信息融合模型的研究 总被引:1,自引:0,他引:1
数据挖掘和信息融合是2种功能不同的处理数据的过程,2种方法虽然原理不同,但在功能上可以相互弥补。介绍了基于数据挖掘技术建立信息融合模型的原理和算法,研究了基于模糊粗糙集的数据挖掘算法建立瓦斯灾害信息融合模型的方法,并对所建模型进行误差曲线仿真分析。 相似文献
11.
数据流本身的特点使得静态挖掘方法不再满足要求。国内外学者已提出许多新的挖掘数据流频繁模式的方法和技术。对这些技术和算法进行了综述。首先介绍数据流的概念和特点,分析国内外的研究现状,总结了数据流中挖掘频繁模式的特点,并列出挖掘方法的常用技术和基于这些技术的代表性算法,最后讨论了将来的研究方向。 相似文献
12.
13.
数据流挖掘算法研究综述 总被引:18,自引:3,他引:15
流数据挖掘是数据挖掘的一个新的研究方向,已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上,对现有数据流挖掘算法的主要思想方法进行了总结,并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。 相似文献
14.
概念漂移数据流挖掘算法综述 总被引:1,自引:0,他引:1
数据流是一种新型的数据模型,具有动态、无限、高维、有序、高速和变化等特性。在真实的数据流环境中,一些数据分布是随着时间改变的,即具有概念漂移特征,称为可变数据流或概念漂移数据流。因此处理数据流模型的方法需要处理时空约束和自适应调整概念变化。对概念漂移问题和概念漂移数据流分类、聚类和模式挖掘等内容进行综述。首先介绍概念漂移的类型和常用概念改变检测方法。为了解决概念漂移问题,数据流挖掘中常使用滑动窗口模型对新近事务进行处理。数据流分类常用的模型包括单分类模型和集成分类模型,常用的方法包括决策树、分类关联规则等。数据流聚类方式通常包括基于k- means的和非基于k- means的。模式挖掘可以为分类、聚类和关联规则等提供有用信息。概念漂移数据流中的模式包括频繁模式、序列模式、episode、模式树、模式图和高效用模式等。最后详细介绍其中的频繁模式挖掘算法和高效用模式挖掘算法。 相似文献
15.
数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。 相似文献
16.
17.
Online mining of data streams is an important data mining problem with broad applications. However, it is also a difficult
problem since the streaming data possess some inherent characteristics. In this paper, we propose a new single-pass algorithm,
called DSM-FI (data stream mining for frequent itemsets), for online incremental mining of frequent itemsets over a continuous
stream of online transactions. According to the proposed algorithm, each transaction of the stream is projected into a set
of sub-transactions, and these sub-transactions are inserted into a new in-memory summary data structure, called SFI-forest
(summary frequent itemset forest) for maintaining the set of all frequent itemsets embedded in the transaction data stream
generated so far. Finally, the set of all frequent itemsets is determined from the current SFI-forest. Theoretical analysis
and experimental studies show that the proposed DSM-FI algorithm uses stable memory, makes only one pass over an online transactional
data stream, and outperforms the existing algorithms of one-pass mining of frequent itemsets.
相似文献
Suh-Yin LeeEmail: |
18.
19.
A data stream is a massive and unbounded sequence of data elements that are continuously generated at a fast speed. Compared with traditional approaches, data mining in data streams is more challenging since several extra requirements need to be satisfied. In this paper, we propose a mining algorithm for finding frequent itemsets over the transactional data stream. Unlike most of existing algorithms, our method works based on the theory of Approximate Inclusion–Exclusion. Without incrementally maintaining the overall synopsis of the stream, we can approximate the itemsets’ counts according to certain kept information and the counts bounding technique. Some additional techniques are designed and integrated into the algorithm for performance improvement. Besides, the performance of the proposed algorithm is tested and analyzed through a series of experiments. 相似文献
20.
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。 相似文献