首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了达成好的文本分类和文本挖掘效果,往往需要使用大量的标识数据。然而数据标识不但操作复杂,而且成本昂贵。为此,在基于支持向量机的分类技术框架下,在文本分类和文本挖掘中引入未标识数据,具体的执行通过基于背景知识和基于主动学习两种方法展开。实验结果表明,基于背景知识的文本挖掘方法在基线分类器性能较强的情况下可以发挥优秀的文本挖掘性能,而基于主动学习的文本挖掘方法在一般的情况下就可以改善文本挖掘的性能指标。  相似文献   

2.
首先,分类空间co-location模式挖掘算法,着重对一些典型挖掘算法的思想、特点和不足进行分析.其次,提出co-location挖掘算法的一般模式,应用同一示例,对3种基于前缀树结构的挖掘算法进行分析和比较,总结基于前缀树结构挖掘算法的实质.最后是对基于前缀树结构挖掘算法的实验评价.  相似文献   

3.
在所有数据挖掘任务中,关联规则挖掘是一种非常重要的挖掘任务。而频繁模式挖掘是关联规则挖掘的关键步骤。其中,基于树搜索方式的挖掘方法是频繁模式挖掘的主要方法。本文综述了该方法所使用的搜索空间树、搜索方式和剪枝技术,对开发基于树搜索方式的频繁模式挖掘算法具有重要意义。  相似文献   

4.
转移规则挖掘算法的提出对于关联挖掘算法等原有数据挖掘算法做了重要补充.然而,目前的转移规则挖掘算法由于选取挖掘对象的不当,往往使转移规则缺乏代表性,导致规则无参考价值.在分析原有转移规则挖掘方法不足的基础上,提出了两种改进的方法:基于关联挖掘的转移规则发现和基于概率关系数据模式的转移规则挖掘,并把这两种方法和现有的转移规则挖掘算法融合到一起,构造一个更为有效和可行的新的基于时序数据库的转移规则挖掘算法.  相似文献   

5.
基于Web的数据挖掘技术   总被引:10,自引:0,他引:10  
陈二忠  姜丽华 《微机发展》2003,13(12):61-64
由于Web数据所具有的半结构化特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。基于Web的数据挖掘主要分为:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。文中综述了基于Web的数据挖掘技术,并且介绍了一种全新的技术XML。XML的推广和使用,对于推动Web挖掘和知识获取具有重要的意义。如何进一步的开发Web数据挖掘,充分利用Web资源,还有待于进一步的研究。Web数据挖掘的研究具有极大的挑战性同时又具有极大的开发潜力。  相似文献   

6.
随着电子商务的发展状大,缺乏个性化服务成为制约电子商务发展的关键问题。基于web数据挖掘的电子商务挖掘系统可以满足电子商务未来发展趋势的需要。该文以一组数据为实例阐述了基于web数据挖掘的协同过滤挖掘算法是如何进行数据表示、近邻查询以及挖掘产生这三个阶段的有效实施的。  相似文献   

7.
软件漏洞挖掘是网络攻防技术的重要组成部分。首先介绍了逆向工程技术的起源、作用和基于逆向工程的软件漏洞挖掘技术的研究路线;然后描述了四种基于逆向工程的软件漏洞挖掘技术的原理、特性、适用范围和优缺点;最后给出一个实例,示范如何基于逆向工程技术挖掘helpctr程序中存在的缓冲区溢出软件漏洞。  相似文献   

8.
提出一种基于按序产生子集的关联规则挖掘算法,适合于挖掘长频繁项目集;算法基于自顶向下搜索策略,采用按序产生子集的方法生成频繁候选项,在挖掘过程中减少了冗余候选项和重复计算,提高了挖掘效率。通过模拟实验数据与现有经典挖掘算法进行性能测试比较,结果表明当它挖掘长频繁项目集时不仅快速而且有效。  相似文献   

9.
基于云计算的用户浏览偏爱路径挖掘算法   总被引:2,自引:0,他引:2       下载免费PDF全文
从Web日志中挖掘用户浏览偏爱路径是一个重要的研究课题。目前的挖掘算法注重客观访问频度,忽略了用户对这一频繁访问路径是否感兴趣。在分析目前用户偏爱路径挖掘算法存在的问题的基础上,结合网站拓扑结构图修正基于频度的用户偏爱路径的衡量标准,提出了有用偏爱度的概念,从而剔除由于页面放置和链接等因素对挖掘的影响;针对目前基于单一节点的挖掘系统的计算能力不足的问题,利用云计算的分布式处理和虚拟化技术的优势,给出了一种基于云计算的数据处理方法,在此基础上挖掘用户浏览偏爱路径。实验表明,该算法针对大数据量的日志进行挖掘,准确率和效率比普通基于频度进行用户浏览偏爱路径挖掘的算法有所提高。  相似文献   

10.
频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。  相似文献   

11.
将关系数据库中基于最小相关阈值的挖掘问题转为Top-K强相关项目对的挖掘,利用关系数据库的结构信息,有效地估计合适的阈值,提出基于阈值估计的Top-K强相关项目对挖掘算法。借助定理证明的形式在理论上推导该算法,并基于自主开发的仿真平台和权威数据库样本进行仿真实验。该算法能高效、快速地得到挖掘结果。  相似文献   

12.
秦东霞  姚遥 《电脑学习》2012,2(1):31-34
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。  相似文献   

13.
干预规则挖掘的任务分类和三项技术进展   总被引:3,自引:2,他引:1  
介绍了亚复杂系统中干预规则的基本概念和挖掘方法,提出了干预规则挖掘技术的分类准则,综述了三项干预规则挖掘技术的最新进展,包括疾病状态干预技术、基于数据流的未知干预发现技术和基于并行事件序列的干预规则挖掘。在实践基础上分析了干预规则挖掘的难点,展望了进一步的研究工作。  相似文献   

14.
基于粗集的朴素贝叶斯分类算法及其应用   总被引:1,自引:0,他引:1       下载免费PDF全文
朴素贝叶斯方法是数据库分类知识挖掘领域一项基本技术,具有广泛的应用。论文针对朴素贝叶斯方法的限制,提出了基于粗集理论的贝叶斯的分类知识挖掘方法。该方法首先基于粗集理论的属性约简能力,根据数据库中条件属性和决策属性之间的依赖关系,进行属性的约简处理,然后基于朴素贝叶斯方法进行分类知识挖掘。实验结果表明,基于粗集理论的贝叶斯分类方法改善了贝叶斯分类方法中属性之间独立的限制,简化了挖掘模型,使挖掘性能具有明显的优化。  相似文献   

15.
陆晓野  陈玮 《计算机系统应用》2012,21(4):250-253,197
在对大型网络进行关键节点挖掘方面,传统方法效率低下。针对这一缺陷,提出了一种基于社区的关键节点挖掘算法,首先对社区发现算法进行改进,然后提出基于节点频度中心度的挖掘算法。实验结果表明,新算法对社区进行关键节点挖掘时,不仅挖掘的影响度得到保证,而且效率显著提高。  相似文献   

16.
对现有的基于MapReduce的并行频繁项集挖掘算法进行了研究, 提出一种基于后缀项表的并行闭频繁项集挖掘算法, 通过后缀项表的引入及以闭频繁项集挖掘的形式, 减少组分间的数据传送量, 提高挖掘效率。实验表明, 该算法可以有效缩短平均挖掘时间, 对于高维大数据具有较好的性能。  相似文献   

17.
基于对数据挖掘,特别是关联规则挖掘的研究,本文提出了基于遗传算法的关联规则挖掘方法,根据关联规则挖掘的特点,提出了对遗传算法中数据的编码模块的改进方案,特别是通过对早熟问题的分析,将改进的自适应Pc,Pm算法应用到遗传算法中来,从而提高了算法的效率。最后给出了完整的基于遗传算法的关联规则挖掘算法。  相似文献   

18.
流程模型挖掘是基于系统运行记录下的事件日志来还原特征对应流程模型的技术。目前已有的挖掘方法多是基于由系统分解出的不同模块之间交互频繁且模块包含特征较少的场景。在挖掘包含较多特征、交互不频繁的流程模型方面,目前的方法存在一定的局限性。鉴于此,文中提出了基于接口变迁的交互流程模型挖掘方法。首先,利用现有的挖掘方法来挖掘模块内部的特征序,确定初始模块网;其次,遍历事件日志以查找疑似接口变迁;然后,通过挖掘特征网来确定接口变迁,并对接口变迁增加接口库所;最后,基于开放Petri网,利用合成网的观点将交互模块合成为一个完善的流程模型Petri网。通过实例分析,验证了该挖掘方法的有效性。  相似文献   

19.
基于Web的数据挖掘技术   总被引:7,自引:1,他引:7  
基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题.本文综述了基于Web的数据挖掘技术,介绍了Web数据挖掘目前最流行的分类:Web内容挖掘、Web结构挖掘和Web访问挖掘,根据Web数据挖掘的最近研究现状,小结了几个研究热点.由于Web数据所具有的半结构化特性,使得Web数据挖掘更为复杂,不同于传统的基于数据库的数据挖掘.最后介绍一种全新的技术XML,XML的出现为解决Web数据挖掘的难题带来了机会.Web数据挖掘的研究具有极大的挑战性,同时又具有极大的开发潜力.  相似文献   

20.
《软件工程师》2019,(1):1-7
通过挖掘商品评论中的评价对象,可以得知用户更关心商品哪些方面的属性,从而帮助企业改进商品,帮助用户选择商品。因此,商品评价对象的挖掘具有重要的意义。本文提出了一种用于商品评价对象挖掘的领域词典构建方法:首先基于LDA模型,提出了一种领域基础词典的构建方法;然后,分别提出了基于词汇之间的PMI值和基于依存句法分析的领域词典扩充方法。本文基于京东商城的洗衣液产品真实评论数据集,使用构建的词典分别进行了一级标签评价对象挖掘和二级标签评价对象挖掘的实验。实验结果表明,本文提出的方法在进行评价对象挖掘时具有良好的性能;相比一级标签评价对象,扩充后的词典对二级标签评价对象挖掘的效果有更好的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号