共查询到18条相似文献,搜索用时 78 毫秒
1.
基于子主题概念的Web主题挖掘 总被引:1,自引:0,他引:1
为了帮助用户在Web上查找和编辑具体主题知识,本文给出一种基于子主题概念的挖掘算法。基本思想是:给定一个主题,通过搜索引擎返回的页面集合找出主题的子主题或核心概念,得到包含具体主题及子主题概念的页面,使用户无需浏览所有页面就能获取查询主题系统的、全面的知识。 相似文献
2.
3.
Web结构挖掘中基于熵的链接分析法 总被引:1,自引:0,他引:1
在Web结构挖掘中,传统的HITS(hyperlinkinducedtopics search)算法被广泛应用来寻找搜索引擎返回页面中的Auto-rity页面和Hub页面.但是在网站中除了有价值的页面内容外,还有很多与页面内容无关的链接,如广告、链接导航等.由于这些链接的存在,应用HITS算法时就会导致某些广告网页或无关网页获得较高的Authority值和Hub值.为了解决这个问题,在原有HITS算法的基础上,引入了香农信息熵的概念,提出了基于熵的网页链接分析方法来挖掘网页结构.该算法的核心思想是用信息熵来表示链接文本所隐含的知识. 相似文献
4.
5.
传统的主题抽取方法单纯依靠分析网页内容的来自动获取网页主题,其分析结果并不十分精确.在WWW上,网页之间通过超链接来互相联系,而链接关系紧密的网页趋向于属于同一主题、基于这一思想,本文提出了一种利用Web链接结构信息来对主题抽取结果进行求精的方法,其通过所链接网页对本网页的影响来修正本网页的主题权值.本文还通过一个实际应用例子,分析了这一方法的特点。 相似文献
6.
爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。 相似文献
7.
8.
针对Web服务器日志中会话模式的页面属性为布尔量的特点,提出一种基于序列数的Web使用挖掘算法。该算法将用户会话模式转换成二进制数,然后用数字递增方式搜索候选频繁项;算法通过序列数的维来计算支持数,实现一次扫描用户会话模式,有效地提高了Web使用挖掘的效率。实验表明其效率比现有算法更快速而有效。 相似文献
9.
10.
Web搜索算法研究综述 总被引:1,自引:0,他引:1
介绍了PageRank和HITS两种最常见的算法,对基于链接结构分析的web搜索算法的研究进展进行了综述,主要包括:介绍了独立于查询的各种改进算法以及基于查询主题的有关算法,并分析上述算法的优缺点及其改进策略或方法,以及web搜索算法的关键技术和应用,最后是关于Web搜索算法存在的问题和研究展望。 相似文献
11.
There are hidden and rich information for data mining in the topology of topic-specific websites. A new topic-specific association rules mining algorithm is proposed to further the research on this area. The key idea is to analyze the frequent hyperlinked relati ons between pages of different topics. In the topic-specific area, if pages of onetopic are frequently hyperlinked by pages of another topic, we consider the two topics are relevant. Also, if pages oftwo different topics are frequently hyperlinked together by pages of the other topic, we consider the two topics are relevant.The initial experiments show that this algorithm performs quite well while guiding the topic-specific crawling agent and it can be applied to the further discovery and mining on the topic-specific website. 相似文献
12.
ZHANG Chun-ming 《数字社区&智能家居》2008,(30)
本文从介绍企业网站的web使用挖掘的意义入手,着重分析了web使用挖掘的数据源,探讨了Web使用挖掘的常用技术,以及Web使用挖掘的过程,企业网站的Web使用挖掘应具备的功能。 相似文献
13.
刘先熙 《数字社区&智能家居》2009,5(7):5086-5087,5095
随着Intemet/Web技术的快速普及和迅猛发展,各种信息可以以非常低的成本在网络上获得。如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。Web数据挖掘旨在发现隐藏在Web数据中潜在的有用知识、提供决策支持,已经成为数据挖掘领域中新兴的研究热点。该文主要从Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面阐述Web数据挖掘的基本知识。 相似文献
14.
刘先熙 《数字社区&智能家居》2009,(19)
随着Internet/Web技术的快速普及和迅猛发展,各种信息可以以非常低的成本在网络上获得,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。Web数据挖掘旨在发现隐藏在Web数据中潜在的有用知识、提供决策支持,已经成为数据挖掘领域中新兴的研究热点。该文主要从Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面阐述Web数据挖掘的基本知识。 相似文献
15.
加速评估算法:一种提高Web结构挖掘质量的新方法 总被引:13,自引:1,他引:13
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。 相似文献
16.
17.
Web数据挖掘 总被引:30,自引:4,他引:26
Web Mining is an important branch in Data Mining.It attracts more research interest for rapidly developing Internet. Web Mining includes(1)Web Content Mining;(g)Web Usage Mining;(3) Web structure Mining.In this paper we define Web Mining and present an overview of the various research issues,techniques and development efforts. 相似文献
18.
一种基于图结构挖掘WEB用户访问模式的方法 总被引:3,自引:0,他引:3
挖掘Web用户访问模式常用的技术有Web挖掘特有的路径分析技术和数据挖掘领域的传统技术。文章首先分析了现有路径分析技术的不足,然后从Web用户访问模式挖掘过程预处理的结果用户会话文件开始,提出了一种基于Web拓扑结构(图结构)挖掘用户访问模式的方法,提高了发现模式的精确性和效率,并在实验室对该方法进行了简单实现和实际日志数据的测试。 相似文献