首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
Web结构挖掘是对Web的链接结构进行分析。该文概述Web结构挖掘技术。列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。  相似文献   

2.
Web结构挖掘是对Web的链接结构进行分析。该文概述Web结构挖掘技术,列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。  相似文献   

3.
加速评估算法:一种提高Web结构挖掘质量的新方法   总被引:13,自引:1,他引:13  
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。  相似文献   

4.
为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的访问模式.数据预处理和日志挖掘算法是Web日志挖掘中的关键技术.文章就此进行了深入的研究,在已知用户访问路径的基础上,提出一种基于MFP算法的日志挖掘算法,并结合实例具体介绍了该算法的执行过程.  相似文献   

5.
随着网络与数据挖掘技术的发展,Web数据挖掘得到了较多的研究。本文从Web结构挖掘的角度出发,在分析了Web结构挖掘技术的基础上,研究了HITS算法。针对HITS算法的多主题性、无关页面、无关链接等问题,提出了HITS算法改进算法。  相似文献   

6.
Web页面包含了丰富的、动态的超链信息,挖掘超链及其周围的文档可以帮助用户找到感兴趣的、权威的内容。主要论述了基于超链的Web结构挖掘的方法,并对Web结构挖掘的一般方法HITS算法进行改进。采用这种改进算法,可以从任意页面集中计算出具有最大Authority权值和Hub权值的页面。从而把一个可信度的、权威的网站推荐给用户。  相似文献   

7.
Web日志挖掘预处理中的Frame页面过滤算法   总被引:12,自引:0,他引:12  
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

8.
基于链接相似度Web挖掘算法的研究与改进   总被引:1,自引:0,他引:1  
在Web挖掘分类模式基础上,研究和分析了基于链接分析的Web结构挖掘算法HITS(Hyperlink induced topic Search)。针对HITS算法在获取拓展集处理过程中只考虑基于根集网页链接出、入网页,不考虑出、入网页相似度的不足之处,提出了一种改进的DS-HITS(Document Similarity hyperlink induced topic search)算法。该算法在拓展集处理过程中引进多种反映网页相似度的权值,从而使获取的网页在核心和权威值方面明显得到改进。最后,基于Webla开源项目初始数据,对比了DS-HITS算法和HITS算法的搜索结果。  相似文献   

9.
随着社会和经济的快速发展,科技不断进步。笔者就Web日志挖掘系统的各部分工作情况进行了相应分析。一般来说,Web挖掘最基本的研究领域包括Web内容挖掘、结构挖掘、使用挖掘。基于此,阐述了从数据挖掘、Web数据挖掘到Web日志挖掘的一系列过程,专门介绍了该系统的一些算法。在上述内容的基础上,对该系统进行具体设计,并通过.NET实现该系统的功能。  相似文献   

10.
Web结构挖掘及其算法   总被引:10,自引:0,他引:10  
王艳华  张纪 《计算机工程》2005,31(Z1):125-127
随着网络和数据挖掘技术的发展,Web数据挖掘得到了较多的研究。该文从Web结构挖掘的角度出发,在分析了网络有向图的总体结构以及导航页面、目标页面和网络功能的基础上,研究了结构挖掘算法,针对Hub页面的多主题性、无关页面、无关链接等问题,提出了HITS算法的改进算法。  相似文献   

11.
基于Web挖掘的个性化网络学习系统设计   总被引:1,自引:0,他引:1  
设计了一种基于Web挖掘的个性化网络学习系统,该系统给出了Web内容挖掘、Web使用挖掘和Web结构挖掘的结果,并结合其推荐结果为学习者提供个性化的服务。并给出个性化推荐算法。  相似文献   

12.
介绍了Web使用挖掘的常用技术。针对Web服务器日志产生数据库的特点,在Web挖掘过程中使用二进制挖掘算法产生关联规则;通过二进制挖掘算法的实例,说明在Web使用挖掘中运用二进制挖掘算法能够提高挖掘效率。  相似文献   

13.
吴启明 《计算机工程》2010,36(13):84-86
为得到更好的Web社区划分,运用LSI方法,对Web页面的内容和结构信息分别进行基于潜在语义的社区挖掘,并对产生的社区进行集成。实验结果表明,Web双视图集成算法能够加强语义,使较小的社区划分被弱化,与单一的基于结构链接或内容的社区挖掘算法相比,具有更高的准确性。在信息检索的应用中发现,运用该算法检索特指性不强的关键词时,搜索效果有较明显改善。  相似文献   

14.
一种基于Web日志文件的信息挖掘方法   总被引:19,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

15.
本文在对Web日志挖掘理论和Apriori算法研究的基础上,设计和实现了Web访问日志挖掘系统,并将该挖掘系统应用于学院网络中心的"招生信息网"上,对Web服务器的日志记录进行了挖掘实验,找出用户的频繁访问路径,得到较为理想的结果。  相似文献   

16.
描述了Web日志数据预处理技术的一种改进技术——Frame过滤技术,对其关键部分与运作模式进行了研究与改进。讨论了Frame页面过滤预处理技术在Web页面挖掘中的效率问题,分析了决策树算法中最著名的算法——ID3算法,并用ID3算法对Frame过滤算法进行了改进,比较新旧算法的执行效率及算法结果质量,得出了新算法执行效率更高及质量更好的结论,从而搞高了对存在Frame页面的网站实施Web日志挖掘算法时挖掘结果的兴趣度。  相似文献   

17.
本文介绍了Web数据挖掘的概念及其分类,并对Web数据挖掘技术的研究进行概述。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。  相似文献   

18.
基于多粒度树模型的Web站点描述及挖掘算法   总被引:2,自引:0,他引:2  
田永鸿  黄铁军  高文 《软件学报》2004,15(9):1393-1404
随着Web所拥有的信息量和信息种类的急剧增长,Web站点挖掘对于自动实现特定主题的Web资源发现和分类具有重要的意义.然而现有的Web站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构3个方面分析了设计高效的Web站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的Web站点多粒度树描述模型,并描述了包括基于隐Markov树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度Web站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高16%的分类准确率,并减少了34.5%的处理时间.  相似文献   

19.
网页文本分类挖掘的几种算法研究   总被引:1,自引:0,他引:1  
李锐 《福建电脑》2008,24(10):36-36
文本挖掘应用广泛,是Web挖掘的一个重要分之。介绍了Web文本的定义、一般的文本分类挖掘过程及常见的几种分类算法。  相似文献   

20.
基于免疫遗传退火算法的Web关联规则挖掘方法*   总被引:1,自引:0,他引:1  
摘要:根据关联规则挖掘的要求与特点,结合免疫算法,遗传算法和模拟退火算法的优点,提出一个基于免疫遗传退火算法的Web关联规则挖掘方法。实验结果表明,与遗传算法和模拟退火算法相比,基于免疫遗传退火算法的关联规则发现在Web挖掘中具有一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号