共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
基于子主题概念的Web主题挖掘 总被引:1,自引:0,他引:1
为了帮助用户在Web上查找和编辑具体主题知识,本文给出一种基于子主题概念的挖掘算法。基本思想是:给定一个主题,通过搜索引擎返回的页面集合找出主题的子主题或核心概念,得到包含具体主题及子主题概念的页面,使用户无需浏览所有页面就能获取查询主题系统的、全面的知识。 相似文献
3.
顾晓燕 《数字社区&智能家居》2005,(2)
本文讨论了:Web的特点,介绍了Web挖掘的概念,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘,并以搜索引擎为重点说明了Web挖掘技术的应用。 相似文献
4.
许亚梅 《数字社区&智能家居》2009,5(8):6099-6101
信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念.给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。 相似文献
5.
许亚梅 《数字社区&智能家居》2009,(22)
信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念,给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。 相似文献
6.
Web文本挖掘技术研究 总被引:221,自引:1,他引:220
作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注,目前,Web挖掘的研究正处于发我统一的结论,需要国内外学者在理论上开展更多的讨论,同时,Web挖掘系统的开发对其研究也将起到很大推进作用,首先探讨了Web挖掘的有关理论,从Web挖掘的定义、Web挖掘与Web信息检索的关系、Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述,然后重点分析了 相似文献
7.
网络资源的迅速增长使Web挖掘研究日益重要,文章介绍了Web挖掘的概念、流程以及分类,并从挖掘对象、方法、过程等方面分别对Web内容挖掘、Web结构挖掘、和Web使用挖掘进行详细的阐述. 相似文献
8.
面向主题的WWW信息挖掘系统 总被引:3,自引:0,他引:3
1 概述 WWW正以令人难以置信的速度飞速地发展,逐渐成为人们发布和获取信息的主要平台。虽然人们可以从WWW上获得大量信息,但由于WWW上的信息是无结构的、动态的、分散的,因此如何从WWW上高效地提取有用的信息仍是一个很有挑战性的课题。搜索引擎(如Excite、Google、Alta Vista)的广泛应用,使人们检索信息的效率大大提高。搜索引擎的工作原理是:由一个爬行器(Crawler)尽可能多地收 相似文献
9.
Inherit/Feedback:一种新的Web主题挖掘方法 总被引:4,自引:0,他引:4
经典链接分析方法(如PageRank和HITS)更多地关注的是网页的权威度,而不是其主题相关度,所以在引导主题搜索的过程中,很快就发生主题漂移.为此,在构建主题关联拓扑模型的基础上,提出了Inherit/Feedback方法,以用于Web主题挖掘.基本思想是:在搜索路径上,一个结点继承其父辈结点的主题相关度,并且将其主题相关度反馈给父辈结点.同时,提出了基于Inhefit/feedback的主题搜索算法(IFC).实验结果表明,这种方法能有效地引导主题搜索,适用于对领域型网站做深层次的搜索和挖掘. 相似文献
10.
基于XML的Web内容挖掘逐渐成为Web数据挖掘的重要研究课题。论文定义了用户模型,通过三种途径建立用户模型,将XML和个性化技术应用到Web内容挖掘,设计了一个基于XML的个性化Web内容挖掘系统(PWCMS),并讨论了PWCMS的关键技术及实现。实践证明,将XML和个性化技术应用到Web内容挖掘是有效的。 相似文献
11.
化学主题网络爬虫的设计和实现 总被引:1,自引:0,他引:1
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 相似文献
12.
社交网络数据采集是开展社交网络分析的基础.针对当前面向主题的社交网络数据采集技术采集数据少、召回率低的问题,本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法,并将LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型应用于主题关键词的迭代扩展,并提出了一种基于用户生存值的高效扩展策略.实验结果表明本文提出的方法可以使面向主题的社交网络数据采集系统在保证一定准确率的情况下进一步获取主题相关数据. 相似文献
13.
谢海艇 《数字社区&智能家居》2009,5(8):6097-6098
随着网络的飞速发展Web挖掘技术已成为一个研究热点。该文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤。最后给出了Web挖掘的研究方向。 相似文献
14.
谢海艇 《数字社区&智能家居》2009,(22)
随着网络的飞速发展,Web挖掘技术已成为一个研究热点。该文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤,最后给出了Web挖掘的研究方向。 相似文献
15.
主题网络爬虫研究综述 总被引:34,自引:0,他引:34
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望. 相似文献
16.
17.
加速评估算法:一种提高Web结构挖掘质量的新方法 总被引:13,自引:1,他引:13
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。 相似文献