首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
网络已经成为人们获取知识的一个重要途径.然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情.通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求.针对这个问题,Web信息检索领域出现了一个新的研究方向--主题驱动的Web资源发现.介绍了通用搜索引擎的基本结构、工作原理及现状.阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨.对通用搜索引擎和主题Web挖掘的关系进行了分析.  相似文献   

2.
基于子主题概念的Web主题挖掘   总被引:1,自引:0,他引:1  
为了帮助用户在Web上查找和编辑具体主题知识,本文给出一种基于子主题概念的挖掘算法。基本思想是:给定一个主题,通过搜索引擎返回的页面集合找出主题的子主题或核心概念,得到包含具体主题及子主题概念的页面,使用户无需浏览所有页面就能获取查询主题系统的、全面的知识。  相似文献   

3.
本文讨论了:Web的特点,介绍了Web挖掘的概念,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘,并以搜索引擎为重点说明了Web挖掘技术的应用。  相似文献   

4.
信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念.给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。  相似文献   

5.
信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念,给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。  相似文献   

6.
Web文本挖掘技术研究   总被引:221,自引:1,他引:220  
作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注,目前,Web挖掘的研究正处于发我统一的结论,需要国内外学者在理论上开展更多的讨论,同时,Web挖掘系统的开发对其研究也将起到很大推进作用,首先探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了  相似文献   

7.
网络资源的迅速增长使Web挖掘研究日益重要,文章介绍了Web挖掘的概念、流程以及分类,并从挖掘对象、方法、过程等方面分别对Web内容挖掘、Web结构挖掘、和Web使用挖掘进行详细的阐述.  相似文献   

8.
面向主题的WWW信息挖掘系统   总被引:3,自引:0,他引:3  
余晨  顾毓清 《计算机科学》2003,30(2):158-160
1 概述 WWW正以令人难以置信的速度飞速地发展,逐渐成为人们发布和获取信息的主要平台。虽然人们可以从WWW上获得大量信息,但由于WWW上的信息是无结构的、动态的、分散的,因此如何从WWW上高效地提取有用的信息仍是一个很有挑战性的课题。搜索引擎(如Excite、Google、Alta Vista)的广泛应用,使人们检索信息的效率大大提高。搜索引擎的工作原理是:由一个爬行器(Crawler)尽可能多地收  相似文献   

9.
Inherit/Feedback:一种新的Web主题挖掘方法   总被引:4,自引:0,他引:4  
经典链接分析方法(如PageRank和HITS)更多地关注的是网页的权威度,而不是其主题相关度,所以在引导主题搜索的过程中,很快就发生主题漂移.为此,在构建主题关联拓扑模型的基础上,提出了Inherit/Feedback方法,以用于Web主题挖掘.基本思想是:在搜索路径上,一个结点继承其父辈结点的主题相关度,并且将其主题相关度反馈给父辈结点.同时,提出了基于Inhefit/feedback的主题搜索算法(IFC).实验结果表明,这种方法能有效地引导主题搜索,适用于对领域型网站做深层次的搜索和挖掘.  相似文献   

10.
基于XML的Web内容挖掘逐渐成为Web数据挖掘的重要研究课题。论文定义了用户模型,通过三种途径建立用户模型,将XML和个性化技术应用到Web内容挖掘,设计了一个基于XML的个性化Web内容挖掘系统(PWCMS),并讨论了PWCMS的关键技术及实现。实践证明,将XML和个性化技术应用到Web内容挖掘是有效的。  相似文献   

11.
化学主题网络爬虫的设计和实现   总被引:1,自引:0,他引:1  
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。  相似文献   

12.
社交网络数据采集是开展社交网络分析的基础.针对当前面向主题的社交网络数据采集技术采集数据少、召回率低的问题,本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法,并将LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型应用于主题关键词的迭代扩展,并提出了一种基于用户生存值的高效扩展策略.实验结果表明本文提出的方法可以使面向主题的社交网络数据采集系统在保证一定准确率的情况下进一步获取主题相关数据.  相似文献   

13.
Web挖掘研究     
随着网络的飞速发展Web挖掘技术已成为一个研究热点。该文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤。最后给出了Web挖掘的研究方向。  相似文献   

14.
Web挖掘研究     
随着网络的飞速发展,Web挖掘技术已成为一个研究热点。该文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤,最后给出了Web挖掘的研究方向。  相似文献   

15.
主题网络爬虫研究综述   总被引:34,自引:0,他引:34  
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望.  相似文献   

16.
基于本体的Web文本挖掘与信息检索   总被引:1,自引:0,他引:1       下载免费PDF全文
艾伟  孙四明  张峰 《计算机工程》2010,36(22):75-77
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。  相似文献   

17.
加速评估算法:一种提高Web结构挖掘质量的新方法   总被引:13,自引:1,他引:13  
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。  相似文献   

18.
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善了现有漏洞库存在漏洞覆盖不全面、内容不丰富的问题。分析当前国内外主要漏洞库的结构特征,研究漏洞诸多属性间的关系,运用组群分类描述法构建漏洞库结构模型。在研究主题网络爬虫的基础上,提出一种面向漏洞主题的动态主题构建方案。介绍漏洞库维护系统的总体设计和实现方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号