首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 52 毫秒
1.
NB-MAFIA: 基于N-List的最长频繁项集挖掘算法   总被引:1,自引:0,他引:1  
本文在深度优先搜索的框架上, 引入基于项集前缀树节点链表的项集表示方法N-List, 提出一个高效的最长频繁项集挖掘算法NB-MAFIA。N-List的高压缩率和高效的求交集方法可以实现项集支持度的快速计算, 同时采用对搜索空间的剪枝策略和超集检测策略来提高算法效率。在多个真实和仿真数据集上, 通过实验评估了NB-MAFIA和两个经典算法。实验结果表明NB-MAFIA在多数情况下优于其他算法, 尤其在真实和稠密数据集上优势更为明显。  相似文献   

2.
中文文本挖掘中最长频繁序列的发现算法   总被引:1,自引:0,他引:1  
本文对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的发现所有最长频繁序列的算法.该算法基于"找最长字共现"的原则,可以准确地将文本中的词汇切分出来.  相似文献   

3.
XML文档本身和用户频繁查询的数据日益增大,如何根据用户的需求对这些海量数据进行查询处理是当今研究的热点之一。本文基于蚁群算法的思想,分两步挖掘XML文档的频繁序列及用户查询的相关性,从而提高了查询处理的效率。  相似文献   

4.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

5.
【目的】研究模式挖掘领域中的频繁序列挖掘技术,由于序列模式挖掘存在指数级的搜索空间,且传统的SAT求解算法无法高效求解大规模数据集的缺点,因此研究符号表示和操作技术,用来避免冗余计算。【方法】提出基于SAT的频繁序列挖掘的符号OBDD算法,基于深度优先算法的思想,首先将频繁序列挖掘问题构建为SAT模型,其次对变量进行排序并将约束子句分类后分别描述为OBDD,利用OBDD的"与"操作得到满足SAT的所有频繁序列模式。【结果】实例结果表明,该方法准确可行。【结论】该方法能有效缩减搜索空间,提高求解效率。  相似文献   

6.
在研究已有算法的基础上提出了一种频繁序列挖掘算法IDSG.该算法通过在频繁项(而不是频繁项集,即无需先求出所有频繁项集)间建立关联图,并在垂直数据库表达的基础上,借助简单的时态连接得到频繁序列完全集.整个过程只需扫描原始数据库两遍,有效减少磁盘I/O.另外,优化策略的正确运用,有助于减少候选序列的个数.分析及实验表明,较之同类算法,算法IDSG在效率上有了明显提高.  相似文献   

7.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

8.
针对光纤接入(fiber to the x,FTTx)网络规划中频繁路径挖掘问题,在经典算法FP-Growth,SPADE的基础上,结合格理论,利用频繁项集扩展枚举树作为搜索空间,并引入位图方便扩展运算和支持度计算,提出了一个改进的频繁序列挖掘算法FSM+。详细介绍了该算法的相关性质和基本理论,阐述了该算法的基本思想和实现伪码。在VC++6.0和单机的环境下,利用不同规模用户装机数据集和最小支持度比较了该算法与SPADE,FP-Growth算法的性能和准确性。实验证明,FSM+算法在小规模数据集下性能优势并不明显,但在大数据集下其计算性能分别是SPADE,FP-Growth的5倍和7倍多,挖掘结果与SPADE,FP-Growth算法相同。从而在实际网络规划过程中,快速计算信任度较高的频繁模式,并与人工经验干预相结合,来进一步保证预测路径准确有效。  相似文献   

9.
数据流中一种有效的当前频繁序列挖掘方法   总被引:1,自引:0,他引:1  
给出了一种基于滑动窗口挖掘频繁序列算法。该算法给出了ε-近似序列集的定义,利用一种压缩的数据结构GSP-tree来存储和维护整个滑动窗口中各分区的近似序列集,并通过合并各分区的近似序列集来响应用户当前的查询请求。  相似文献   

10.
为了降低Web日志频繁序列模式挖掘误差,提出基于支持向量机的Web日志频繁序列模式挖掘方法。构建Web日志频繁序列模式检测序列,采用自相关特征分布式融合方法进行序列重组,提取序列模式的统计特征量,对其特征分布值进行信息融合。建立Web日志频繁序列模式融合式调度模型,采用支持向量机分析方法进行Web日志频繁序列模式挖掘的自适应学习与寻优控制,实现Web日志频繁序列模式挖掘。仿真结果表明,采用该方法进行Web日志频繁序列模式挖掘的误差较低,收敛性较好。  相似文献   

11.
传统的恶意代码动态分析方法大多基于序列挖掘和图匹配来进行恶意代码检测,序列挖掘易受系统调用注入的影响,图匹配受限于子图匹配的复杂性问题,并且此类方法并未考虑到样本的反检测行为,如反虚拟机.因此检测效果越来越差.本文设计并提出一种基于程序语义API依赖图的真机动态分析方法,在基于真机的沙箱中来提取恶意代码的API调用序列,从而不受反虚拟机检测的影响.本文的特征构建方法是基于广泛应用于信息理论领域的渐近均分性(AEP)概念,基于AEP可以提取出语义信息丰富的API序列,然后以关键API序列依赖图的典型路径来定义程序行为,以典型路径的平均对数分支因子来定义路径的相关性,利用平均对数分支因子和直方图bin方法来构建特征空间.最后采用集成学习算法-随机森林进行恶意代码分类.实验结果表明,本文所提出的方法可以有效分类恶意代码,精确度达到97.1%.  相似文献   

12.
提出了一种在Windows平台下检测变形病毒及未知病毒的新方法——以PE文件调用的WinAPI序列为特征,采用数据挖掘技术(OOA挖掘)来检测变形病毒及未知病毒.实验结果表明,本文所实现DMAV系统具有很好的鲁棒性和智能性,其中OOA规则生成器有效地解决了特征提取的优化问题。  相似文献   

13.
现有的Web日志频繁访问路径挖掘算法往往不能在追求时间效率的同时准确挖掘出符合用户浏览顺序的频繁路径.提出了有效挖掘Web日志中频繁访问路径的算法,将事务数据库转换为Web访问路径树,根据支持度进行剪枝构造最长前缀频繁子路径树,然后进行频繁路径挖掘,实验证实了此方法的有效性,并分析了支持度设置对频繁路径生成的影响.  相似文献   

14.
许多新型恶意代码往往是攻击者在已有的恶意代码基础上修改而来,因此对恶意代码的家族同源性分析有助于研究恶意代码的演化趋势和溯源.本文从恶意代码的API调用图入手,结合图卷积网络(GCN),设计了恶意代码的相似度计算和家族聚类模型.首先,利用反汇编工具提取了恶意代码的API调用,并对API函数进行属性标注.然后,根据API对恶意代码家族的贡献度,选取关键API函数并构建恶意代码API调用图.使用GCN和卷积神经网络(CNN)作为恶意代码的相似度计算模型,以API调用图作为模型输入计算恶意代码之间的相似度.最后,使用DBSCAN聚类算法对恶意代码进行家族聚类.实验结果表明,本文提出的方法可以达到87.3%的聚类准确率,能够有效地对恶意代码进行家族聚类.  相似文献   

15.
基于免疫危险理论的手机恶意软件检测模型   总被引:1,自引:0,他引:1  
为了提高智能手机恶意软件检测的自适应性和有效性,该文提出了基于免疫危险理论的手机恶意软件检测模型,该模型由4个部分组成:数据采集、危险信号生成、共刺激信号生成和预警部分,针对不同的恶意软件,采用微分方法表达危险信号,由自适应抗原提呈细胞产生相应的共刺激信号,最后对恶意软件产生预警.通过实验验证了该文模型的自适应性和有效性.  相似文献   

16.
一个基于时间窗口的入侵检测算法   总被引:1,自引:0,他引:1  
入侵检测是计算机安全机制的一个重要组成部分 ,由于它需要从大量的系统审计数据中进行准确、高效的分析 ,因而适宜用数据挖掘的方法来发现规则 .本文给出了一个基于时间窗口的数据挖掘算法来发现入侵行为 ,在文章末对算法的优缺点进行了讨论  相似文献   

17.
一种针对Android平台恶意代码的检测方法及系统实现   总被引:1,自引:0,他引:1  
针对Android恶意代码泛滥的问题,综合静态和动态分析技术,设计实现了Android恶意代码检测系统.在静态分析部分,提取Android程序中的权限、API调用序列、组件、资源以及APK结构构建特征向量,应用相似性度量算法,检测已知恶意代码家族的恶意代码样本;在动态分析部分,通过修改Android源码、重新编译成内核镜像,使用该镜像文件加载模拟器,实时监控Android程序的文件读写、网络连接、短信发送以及电话拨打等行为,基于行为的统计分析检测未知恶意代码.经过实际部署测试,所提检测方法具有较高的检测率和较低的误报率.所开发Android恶意代码检测系统已经在互联网上发布,可免费提供分析检测服务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号