首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
对样本数据进行函数挖掘是GEP研究的一个重要内容.传统的GEP算法往往容易陷入局部最优,为了解决这个问题,本文在动态种群生成策略的基础上,提出了基于动态种群的GEP函数挖掘算法(FMGEP-DP).实验表明,无论是在噪声数据不大的情况下,还是对于函数类型未知且复杂的数据,与传统的GEP和GP相比,FMGEP-DP的收敛速度要快,函数挖掘成功率要高.  相似文献   

2.
改进Apriori挖掘算法的网格实现   总被引:2,自引:0,他引:2  
殷剑锋  徐建城  李伟强 《计算机仿真》2010,27(2):145-148,268
科学和工商业应用需要分析分布在各异构站点的海量数据。传统的关联规则挖掘算法探讨的对象基本上都是集中式的数据集,对分布式的动态数据库群无能为力,因而迫切需要对分布式数据挖掘算法进行研究探讨。在研究OGSA面向服务的体系结构基础上,将网格技术与数据挖掘技术有机地结合在一起,提出了一种基于网格的分布式关联规则挖掘方法。是改进Apriori挖掘算法在网格环境下的具体应用。仿真实验表明方法具备网格的并行挖掘特性,能够成功实现位于多个异构站点E的分布式数据挖掘,且挖掘速度和运算效率较之集中式Apriori挖掘算法有较大幅度的提高。  相似文献   

3.
基于基因表达式编程的频繁函数集挖掘   总被引:12,自引:1,他引:11  
函数挖掘旨在从观测数据中发现有效的函数关系,传统的函数挖掘以发现单个函数为挖掘目标,难以处理复杂数据集.为解决上述问题,作者做了如下工作:(1)提出了描述能力更强的频繁函数集FFS概念;(2)提出并实现了基于基因表达式编程的频繁函数集挖掘算法FFSM(3)在GEP中采用了精度阈值队列策略PTQ,有效地提高了FFSM的成功率;(4)用实验证实了FFS更强的描述能力和PTQ的有效性,其中,在挖掘高精度复杂函数时PTQ使FFSM的成功率提高了55倍.  相似文献   

4.
在数据挖掘研究中,频繁闭项目集挖掘成为重要的研究方向.目前已有的频繁闭项目集挖掘算法主要针对单机环境,有关分布式环境下的全局频繁闭项目集挖掘算法的研究尚不多见.针对无共享体系结构数据水平分布的情况,提出了一种分布式快速挖掘全局频繁闭项目集增量式更新算法,算法通过对各节点候选频繁项目集进行预处理,有效地降低网络通信量,提高全局频繁闭项目集挖掘算法的效率,该算法充分利用前次挖掘结果来发现新的全局频繁闭项目集,具有较高的效率.理论分析和实验结果表明算法是有效的.  相似文献   

5.
基于基因表达式编程的抗噪声数据的函数挖掘方法   总被引:29,自引:0,他引:29  
用传统基因表达式编程(GEP)适应度机制挖掘函数关系容易受到噪声干扰,导致结果失真.为此做了如下探索:①借鉴生物具有的“趋利避害”天性,提出了GEP的“弱适应模型”,以实现在含噪声的数据集上挖掘函数关系;②提出新概念“带内集”、“带外集”并用于划分训练数据集;③设计了在弱适应模型下基于相对误差计算适应度的算法REFA;④用详尽的实验验证了REFA的有效性,当测量数据的噪声率为3.33%时,与传统方法相比,REFA方法的成功率提高了3倍,产生结果的平均相对误差从7.899%降低到2.320%.  相似文献   

6.
大数据环境下高效用项集挖掘算法中过多的候选项集极大地降低了算法的时空效率,提出了一种减少候选项集的数据流高效用项集挖掘算法。首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;最终,从候选模式中选出高效用模式。基于真实数据流的实验结果表明,本算法的时空效率与内存占用比均优于其他数据流的高效用模式挖掘算法。  相似文献   

7.
军用加密数据为了达到保密的目的,人为设定了较多的加密规则,打破了数据之间常规的关联性.在进行军用数据挖掘建立关联规则时,由于数据关联规则被人为隐藏,递归生成关联条件模式树的过程中,传统的FP-tree算法挖掘算法,由于加密数据的关联复杂性,会递归生成大量条件模式树,导致后期挖掘过程占用了大量的挖掘算法资源,挖掘效率较低.提出基于改进FP-tree的海量加密军用数据下频繁项目集挖掘算法,依据海量加密军用数据下频繁项目集挖掘原理,在FP-tree 算法的基础上,依据预剪枝策略减少挖掘节点,通过单向有序FP-tree防止每次存储当前挖掘出的频繁项目集之前都需要超集检验,建立项目表格,避免递归生成条件模式树浪费资源.将提出的改进FP-tree算法应用到海量加密军用数据下频繁项目集的挖掘中,获取的实验结果说明,改进FP-tree算法在提高加密军用数据频繁项目集挖掘速度及准确率方面具有较高的优越性.  相似文献   

8.
基于GEP的多层关联规则挖掘算法及其应用   总被引:1,自引:1,他引:0  
为了在Web使用挖掘中挖掘网站服务器日志数据库的热点Web页面访问集及发现其关联规则,提出了一种新的基于GEP(gene expression programming,基因表达式编程)的适用于挖掘多层关联规则的算法.将泛化技术应用于GEP作为它的适应性函数度量,引入GEP强大的自搜索功能,进化到较优的种群后,再利用传统的支持度一置信度的方法在子数据库的多个层及层间挖掘频繁项及关联规则.该算法改进了传统多层关联规则挖掘框架,实验结果表明了该算法在大数据库中的有效性和高效性.  相似文献   

9.
本文重点研究了数据流挖掘中存在概念漂移情形的连续属性处理算法。数据流是一种增量、在线、实时的数据模型。VFDT是数据流挖掘中数据呈稳态分布情形下最成功的算法之一;CVFDT是有效解决数据流挖掘中概念漂移问题的算法之一。基于CVFDT,本文提出了有效地解决数据流挖掘中存在概念漂移情形的连续属性处理问题的扩展哈希表算法HashCVFDT。该算法在属性值插入、查找和删除时具有哈希表的快速性,而在选取每个连续属性的最优化划分节点时解决了哈希表不能有序输出的缺点。  相似文献   

10.
由于数据集规模、维数,以及复杂程度的不断提高,导致对其离群点的挖掘难度越来越大,提出了基于邻域密度的局部离群点挖掘算法.首先依据节点计算性能对高维数据进行区域分割,通过各个维度的数据分布来评价区域分割的效果.然后采取核密度来描述局部密度,根据高斯分布得到数据出现次数,进一步计算出数据邻域密度.再由邻域及密度关系计算得到各数据离群度,从而判断异构数据中的离群点.最后针对可能存在的离群误判情况,采取离群分数计算,为增强此过程的检测性能,利用权重进行剪枝处理.人工与UCI数据集上的仿真结果表明,当数据量和数据维数改变时,算法对离群点挖掘的准确度几乎不受影响,挖掘时间和覆盖率指标也显著优于其它方法;同时对于不同类型和复杂度的异构数据,算法仍然保持良好的挖掘准确度和效率.  相似文献   

11.
一种基于GEP的分类规则挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于一种新的自动程序设计方法基因表达式程序设计(GEP),通过设计适应函数、初始化群体的优化、增加新的遗传算子以及采用演化策略中的(λ+μ)淘汰策略等对原始GEP算法进行有效的改进,设计出一种新的数据挖掘算法。采用UCI机器学习知识库中的数据集对该算法进行了实验,并通过与C4.5及文献[3]的比较,检验了该算法的准确性。  相似文献   

12.
基于基因表达式编程的知识发现--沿革、成果和发展方向   总被引:27,自引:1,他引:27  
综述了基于基因表达式编程(Gene Expression Programming,GEP)的知识发现技术的沿革、特色和成果。剖析了GEP中通过简单编码解决复杂问题的关键技术。特别介绍了在这一领域的工作成果,如基于GEP的多项式因式分解,频繁函数挖掘,抗噪声数据的函数挖掘,太阳黑子预测等。对进一步开展基于GEP的知识发现技术的发展策略提出了自己的见解。  相似文献   

13.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

14.
分布在因特网上的物流资源具有地理分散和职权自治的特性,资源结构和接口难以统一。该文以网格、Agent和增量挖掘技术为基础,提出了不通过资源整合就能够实现全局信息挖掘的方法。分析了基于Web的物流资源网格系统,将其划分为物流域的集合实施分级管理。提出了新的面向网格的信息挖掘模型并设计了域内动态资源挖掘算法和域间请求式资源挖掘算法。该模型解决了不同物流系统之间的信息挖掘难题,算法中引入的增量挖掘技术提高了域间资源挖掘效率。  相似文献   

15.
Distributed data mining implements techniques for analyzing data on distributed computing systems by exploiting data distribution and parallel algorithms. The grid is a computing infrastructure for implementing distributed high‐performance applications and solving complex problems, offering effective support to the implementation and use of data mining and knowledge discovery systems. The Web Services Resource Framework has become the standard for the implementation of grid services and applications, and it can be exploited for developing high‐level services for distributed data mining applications. This paper describes how distributed data mining patterns, such as collective learning, ensemble learning, and meta‐learning models, can be implemented as Web Services Resource Framework mining services by exploiting the grid infrastructure. The goal of this work was to design a distributed architectural model that can be exploited for different distributed mining patterns deployed as grid services for the analysis of dispersed data sources. In order to validate such an approach, we presented also the implementation of two clustering algorithms on the developed architecture. In particular, the distributed k‐means and distributed expectation maximization were exploited as pilot examples to show the suitability of the implemented service‐oriented framework. An extensive evaluation of its performance was provided. Copyright © 2011 John Wiley & Sons, Ltd.  相似文献   

16.
王静  张建伟  梁海军 《计算机工程与设计》2012,33(4):1514-1517,1552
通过对空中交通运输管理中目前常用的轨迹预测算法的研究比较和分析,提出了利用遗传算法的从历史数据中进行函数挖掘的思想.针对四维轨迹数据特征的分析和传统的单一函数挖掘的局限性,提出了基于基因表达式编程的频繁函数集挖掘的建模方法.该模型方法通过对历史飞行数据进行遗传算法的操作挖掘出数据集中对应的函数关系集合,用较好的函数模型预测未来航迹.以某一航班雷达数据为训练集做实验,结果表明了应用该方法的准确性和可用性.  相似文献   

17.
基因表达式编程(GEP)算法是一种具有强大函数发现能力的新型进化算法。GEP在函数发现时如何确定合适的数值常量对算法的性能具有很大影响。提出了一种基于协同进化基因表达式编程的函数发现算法(GEP-DE),该算法的最大改进在于一种新的常量优化方法:在每一代中将函数发现的过程分为两个阶段:第一阶段,由标准GEP算法结合固定常量集确定函数结构;第二阶段,使用差分进化算法(DE)对第一阶段得出的函数结构的常量进行优化。实验结果表明,GEP-DE算法比重要文献中的常量处理方法其效果有较大提升,并且算法的综合性能也优于最新重要文献提出的GEP算法。  相似文献   

18.
基于时间衰减模型的数据流频繁模式挖掘   总被引:1,自引:0,他引:1  
吴枫  仲妍  吴泉源 《自动化学报》2010,36(5):674-684
频繁模式挖掘是数据流挖掘中的重要研究课题. 针对数据流的时效性和流中心的偏移性特点, 提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法. 该算法通过动态构建全局模式树, 利用时间指数衰减函数对模式树中各模式的支持数进行统计, 以此刻画界标窗口内模式的频繁程度; 进而, 为有效降低空间开销, 设计了剪枝阈值函数, 用于对预期难以成长为频繁的模式及时从全局树中剪除. 本文对出现在算法中的重要参数和阈值进行了深入分析. 一系列实验表明, 与现有同类算法MSW相比, 该算法挖掘精度高(平均超过90%), 内存开销小, 速度上可以满足高速数据流的处理要求, 且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号