首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
马兰  王京杰  陈焕 《计算机应用》2019,39(2):488-493
针对广域信息管理系统(SWIM)服务共享中的数据安全问题,分析了SWIM业务流程中的安全隐患,提出了一种基于潜在狄利克雷分配(LDA)主题模型和内容挖掘的恶意数据的过滤方法。首先对SWIM四种业务数据进行大数据分析,然后通过LDA模型对业务数据进行特征抽取完成内容挖掘,最后利用KMP匹配算法在主串中查找模式串,从而检测出含有恶意关键字的SWIM业务数据。在Linux内核中对该检测方法进行测试,实验结果表明该方法能够有效地对SWIM业务数据进行内容挖掘,与潜在语义分析(LSA)和基于概率统计的潜在语义分析(pLSA)的方法相比也具有更好的检测性能。  相似文献   

2.
因果关系抽取是自然语言处理(NLP)中的一种关系抽取任务,它通过构造事件图来挖掘文本中具有因果关系的事件对,已经在金融、安全、生物等领域的应用中发挥重要作用。首先,介绍了事件抽取和因果关系等概念,并介绍了因果关系抽取主流方法的演变和常用数据集;然后,列举了当前主流的因果关系抽取模型,并且在分别对基于流水线的模型和联合抽取模型进行详细分析的基础上,对比了各种方法和模型的优缺点;此外,对各模型的实验性能及相关实验数据进行了归纳分析;最后,给出了当前的因果关系抽取的研究难点和未来的重点研究方向。  相似文献   

3.
随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术是必然的发展趋势。本文根据Web挖掘的特点,运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,以便使数据提取更加准确。  相似文献   

4.
基于web挖掘的用户服务研究   总被引:3,自引:0,他引:3  
数据丰富而知识贫乏导致了知识发现和数据挖掘领域的出现。基于Web的数据挖掘,是从Web海量的数据中自动、智能地抽取隐藏于这些数据中的知识,分析了Web挖掘技术的概念、特点、技术等。根据Web数据挖掘最流行的分类,可以分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘。其中Web使用挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理。该文根据Web数据挖掘的最近研究状况,主要论述了一个更新的频繁路径集的挖掘浏览模式在Web用户个性化服务中的应用,同时,还对发现的知识讨论了其在在线服务中的应用并给出了相应算法。  相似文献   

5.
李彩虹 《信息与电脑》2023,(11):198-200
目前,对于计算机垂直领域的研究尚处于探索阶段,缺少一种能够针对特定领域数据进行挖掘的方法。基于此,构建了计算机领域知识库,并基于关键短语抽取方法对计算机垂直领域进行知识抽取,提高了计算机术语和专业技术管理效率,可为计算机产业发展提供技术支持。  相似文献   

6.
一个基于XML的WEB数据收集模型的研究   总被引:15,自引:0,他引:15  
目前研究的热门领域Web数据挖掘是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴含的、未知的、有潜在应用价值模式的提取。其一般的过程可表示为:信息的发现、信息的选择和预处理、分析过程、产生结果犤1犦。WEB上的数据收集是对WEB数据挖掘的一种支持技术,是WEB数据挖掘的第一步。该文提出了一种基于XML技术的WEB数据收集模型,并实现了其中的一些主要功能。同时针对模型系统的不足做了一些有意义的改进探索。  相似文献   

7.
数据立方体和频繁项集挖掘分别是数据仓库和数据挖掘领域的重要技术,已开展了大量的相关研究工作,取得了较好的进展.数据立方体和频繁项集挖掘依据各自的数据单元和项集构造了类似的代数格(Lattice)结构;数据立方体的等价类上界单元与频繁项集挖掘的闭项集也是相对应的.如果能够论证二者的统一性,则可以为彼此提供更广泛的研究思路,有利于两种技术的相互促进,如:在数据库中利用冰山立方体计算实现频繁项集挖掘来避免数据迁移、利用频繁项集挖掘算法优化数据立方体计算等.之前的工作没有将二者系统地结合起来研究,也没有建立二者之间较为完整的联系.本文在深入研究数据立方体的计算和频繁项集挖掘的过程后,将二者有效地结合在一起,提出了统一的计算框架,给出了二者众多计算性质和方法之间的映射关系,进行了相关概念泛化,具体地建立了冰山立方体、浓缩立方体和商立方体等主要数据立方体计算与相应频繁项集挖掘方法的对应关系.通过算法和实验进一步论证统一计算的有效性:(1)将频繁项集挖掘事务集导入关系数据库,用冰山立方体计算方式进行频繁项集挖掘,从而在数据库中用标准的或扩展的SQL可以实现对关系表进行频繁项集挖掘;(2)验证了浓缩立...  相似文献   

8.
Web挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息,用于Web挖掘的最有效的数据就是点击流,现在对点击流数据进行建模和分析所采用的方法要么过分强调挖掘算法,要么过分强调实用性。基于此,笔者提供了一种将挖掘算法与商业智能(BI)相结合的统计建模方法。  相似文献   

9.
论文以酒店在线评论数据为研究对象,对酒店在线评论数据的特征挖掘进行了研究。论文首先从酒店在线评论数据的获取出发,经过数据清洗、词性分析、特征抽取、指标确定、特征筛选、特征确定、特征校验几个环节,实现了酒店在线评论数据特征挖掘的目的。论文以词频为基础,融合了词性分析、聚类分析等方法,利用词频数(TF)、词频率(TF1)、词频权重(TTW)、评论频率(DF)、逆文档频率(IDF)和TF1-IDF等指标对候选特征词进行降维,得出酒店在线评论数据的特征,并对特征词进行校验,完成了酒店在线评论数据的特征挖掘的过程。论文将为以评论为依据的客户分类、酒店分类、智能推荐奠定基础。  相似文献   

10.
王彤彤  强龙江王航 《计算机科学》2006,33(B12):130-132,145
信息挖掘技术是当代计算机领域的热门话题,Internet/Web技术的快速普及和迅猛发展,产生出了海量的信息,如何在这个全球最大的数据集合中发现有用信息成为数据挖掘研究的热点。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,备受关注。目前,Web挖掘的研究正处于发展阶段,尚无统一的结论,本文结合当前Web挖掘的状况,介绍了一个基于Agent的Web挖掘模型,重点分析了Web挖掘的方法,概要介绍了Web数据挖掘在三个研究领域的研究现状及发展。  相似文献   

11.
开源数据库-重症特别护理信息集MIMIC数据库包含了大量的医学数据,自它发布之日起,便得到了众多研究人员的青睐。但低效的挖掘方法很难发现内部的隐含信息,这使得MIMIC数据库得不到很好的利用,造成了资源的浪费。探索新兴的挖掘方法进行知识发现便显得异常重要。文中对围绕MIMIC数据库的各种挖掘方法进行综述,重点阐述了新出现的机器学习和深度学习方法。同时将传统统计学模型与新出现的人工智能技术包括机器学习和深度学习技术进行比较分析。结果发现相比传统的统计学模型,机器学习和深度学习技术在预测病人的早期死亡率、发现疾病影响因素等方面普遍效果更好,这有助于改善医疗质量、帮助医生进行辅助诊断,在一定程度上也减少了病人的医疗费用。  相似文献   

12.
数据采掘与知识发现:回顾和展望   总被引:20,自引:0,他引:20  
如何从大规模数据库中发掘深层次的知识和信息,而不仅仅是那些从传统数据 库查询方法所获得的平凡内容,这方面的研究正受到越来越多的关注.作为一门独立于应用 的研究课题,它已成为众多研究领域的热点内容,已经有相当多的应用报道并取得了丰硕的 成果.本文试就数据采掘和知识发现的各方面内容:如采掘过程、方法、算法和应用等,作 一个完整的回顾,文章也讨论了这一领域未来的工作和挑战.  相似文献   

13.
面向服务的知识发现体系结构研究与实现   总被引:11,自引:0,他引:11  
杨立  左春  王裕国 《计算机学报》2005,28(4):445-457
知识发现服务(Knowledge Discovery Service,KDS)作为一种数据、计算、语义密集型的高层服务应用。用户通常需要具备非常全面的知识才能正确使用.如何实现一个面向最终用户的、智能的、有质量保证的KDS架构面临很多困难.现有的研究提出了利用数据挖掘本体和预测执行时间的方法来帮助用户选择正确并且高质量的KDS.但是数据挖掘本体只是对数据挖掘的方法进行枚举,无法保证服务的质量,而预测执行时间的方法不能体现KDS本身的特点,因而难以获得满意的服务效果.为了更有效地辅助最终用户在面向服务的体系结构(Service Oriented Architecture,SOA)上自助地实现知识发现应用,该文提出了一种新的面向服务的知识发现体系结构——SOA4KD,将用户的知识发现需求分为内容需求和质量需求,并提出了扩展的知识发现任务本体EKDTO。以自然语言的方式进行用户意图获取;在考虑到KDS的服务特性的前提下,充分分析了KDS自身的特点,提出了KDS质量本体KDSQO,采用元学习来进行选择最适合的KDS.相对于目前的体系结构,提出了为最终用户提供高质量知识发现服务的一些新方法和技术,为面向服务的知识发现系统设计与实现提供了一个新的参考模型.  相似文献   

14.
数据挖掘工具DMTools的设计与实现   总被引:3,自引:0,他引:3       下载免费PDF全文
介绍了一个通用的数据工具DMTools。它实现了基于数据库的知识发现的主要过程,可视分析,数据预处理,数据库的知识发现,数据挖掘,模型解释及模型评估算。主要介绍了这个系统的体系结构和各愉的功能。使用本工具。可从各行业的历史业务数据库中挖掘出隐含的有价值的知识,用于决策支持。  相似文献   

15.
DNA序列数据挖掘技术   总被引:4,自引:1,他引:4       下载免费PDF全文
朱扬勇  熊赟 《软件学报》2007,18(11):2766-2781
DNA序列数据是一类重要的生物数据.研究DNA序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于DNA序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了DNA序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的DNA序列数据挖掘方法设计阶段.阐述了DNA序列数据挖掘的基础是序列相似性,评述了DNA序列数据挖掘领域所采用的关键技术,包括DNA序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出DNA序列数据挖掘进一步研究的热点问题,包括DNA序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等.  相似文献   

16.
Intelligent tutoring systems (ITSs) acquire rich data about students' behavior during learning; data mining techniques can help to describe, interpret and predict student behavior, and to evaluate progress in relation to learning outcomes. This paper surveys a variety of data mining techniques for analyzing how students interact with ITSs, including methods for handling hidden state variables, and for testing hypotheses. To illustrate these methods we draw on data from two ITSs for math instruction. Educational datasets provide new challenges to the data mining community, including inducing action patterns, designing distance metrics, and inferring unobservable states associated with learning.  相似文献   

17.
医院数据库是一个复杂数据库,包括电子病历、医学影像、病理参数、化验结果等,电子病历是用电子设备保存、管理、传输和重现的数字化的病人医疗记录,难以直接进行数据挖掘,使用医学文本数据挖掘的方法,帮助医生分析隐藏在病历数据中的信息和对治疗方案进行研究,再使用集成视图将疾病相关的所有病历数据信息集成显示在一起,可以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断,对现有的HIS进行改进和完善。  相似文献   

18.
提出了知识发现状态空间统一模型,将结构化数据挖掘与复杂类型数据挖掘联系起来,成为知识发现领域的一种统一框架理论,为复杂类型数据挖掘提供理论指导,并给出了该模型在图像挖掘中的应用实例。  相似文献   

19.
刘晓平 《计算机仿真》2006,23(4):103-105,113
数据挖掘是从大量原始数据中抽取隐藏知识的过程。大部分数据挖掘工具采用规则发现和决策树分类技术来发现数据模式和规则,其核心是归纳算法。与传统统计方法相比,基于机器学习技术得到的分类结果具有较好的可解释性。在针对特定的数据集进行数据挖掘时,如果缺乏相应的领域知识,用户或决策者就很难确定选择何种归纳算法。因此,需要尝试各种算法。借助MLC++,决策者能够轻而易举地比较不同分类算法对特定数据集的有效性,从而选择合适的分类算法。同时,系统开发人员也可以利用MLC++设计各种混合算法。  相似文献   

20.
The efficient mining of large, commercially credible, databases requires a solution to at least two problems: (a) better integration between existing Knowledge Discovery algorithms and popular DBMS; (b) ability to exploit opportunities for computational speedup such as data parallelism. Both problems need to be addressed in a generic manner, since the stated requirements of end-users cover a range of data mining paradigms, DBMS, and (parallel) platforms. In this paper we present a family of generic, set-based, primitive operations for Knowledge Discovery in Databases (KDD). We show how a number of well-known KDD classification metrics, drawn from paradigms such as Bayesian classifiers, Rule-Induction/Decision Tree algorithms, Instance-Based Learning methods, and Genetic Programming, can all be computed via our generic primitives. We then show how these primitives may be mapped into SQL and, where appropriate, optimised for good performance in respect of practical factors such as client–server communication overheads. We demonstrate how our primitives can support C4.5, a widely-used rule induction system. Performance evaluation figures are presented for commercially available parallel platforms, such as the IBM SP/2.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号