首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
随着Internet的迅猛发展,网络信息呈爆炸式增长。Web信息检索是一个从Web海量数据中检索用户感兴趣信息的综合技术,它从一定程度上满足了用户对信息的需求,但返回页面的数量依然十分巨大。如何对搜索结果进行排序已成为影响搜索质量的一个重要问题。本文介绍了两种页面排序算法PageRank和HITS,并对网页排序算法的若干改进进行了讨论。  相似文献   

2.
针对小文本的Web数据挖掘技术及其应用   总被引:4,自引:2,他引:4  
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。  相似文献   

3.
从搜索流程的分词和页面排序出发,由于中文分词比较复杂,鉴于正向最大分词算法和逆向最大分词算法的优缺点,提出基于正向最大和逆向最大匹配的双向匹配算法,该算法在一定程度提高了分词的准确性。页面排序也是影响用户搜索效率的一个重要因素,而网页相关度和网页的链接都是直接影响网页权值的重要因素,因而提出一种基于网页相关性的PageRank算法。新的页面排序算法既防治了页面漂移的可能性,也防治了全部依赖网页相关性的排序结果。  相似文献   

4.
搜索引擎结果的重排序方法   总被引:7,自引:0,他引:7  
杨广翔  俞宁  谌莉 《计算机应用》2005,25(2):305-308
当前Web搜索引擎返回的搜索结果一般是按“超链分析”进行排序的。采用词频统计、词分布特征量等方法对Web搜索引擎的搜索结果的关键词相关度进行计算,并重新对搜索结果排序,可以使得搜索结果中有关的页面文集更加集中。从而方便了信息的使用,特别是在对于特定内容的信息搜索时。  相似文献   

5.
为了在大量网络Web页面中快速找到用户关心的内容,提出使用词汇之间的"相关度"来存储用户的个性化信息,应用能够在用户进行检索的过程中自动建立针对该用户的"词汇相关度"的算法设计了一个个性化元搜索引擎,并通过使用3种不同的利用词汇相关度对底层搜索引擎所返回的结果进行评估和个性化排序的算法进行实验.这里设计的个性化算法的灵敏度、抗干扰性、语义相关性分析3个指标的实验结果说明该算法最终会影响到网页的排序.基于统计方法的词汇相关度模型是一种有效的个性化信息检索技术,它可以大大提高搜索结果的质量.  相似文献   

6.
随着Web技术的迅速发展,提供个性化服务的搜索引擎技术受到用户的广泛关注,网页排序是其中的关键技术之一。本文利用PageRank算法对原有的Lucene网页排序进行了改进,设计并实现了关于手机信息搜索的个性化搜索引擎。实验结果证明,改进后的排序算法能够较好地提高信息检索的准确度,为用户带来了优于Lucene自身排序的搜索体验。  相似文献   

7.
Web页面包含了丰富的、动态的超链信息,挖掘超链及其周围的文档可以帮助用户找到感兴趣的、权威的内容。主要论述了基于超链的Web结构挖掘的方法,并对Web结构挖掘的一般方法HITS算法进行改进。采用这种改进算法,可以从任意页面集中计算出具有最大Authority权值和Hub权值的页面。从而把一个可信度的、权威的网站推荐给用户。  相似文献   

8.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

9.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

10.
Web页面主题相关性排序算法的研究   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了Web页面主题的分布的特点,对经典的页面排序算法进行了探讨,提出了一种基于内容和超链接分析并结合用户点击行为的相关性排序算法。该算法考虑了超文本标记、锚文本、文本内容等对相关性的影响,引入动态比较矩阵来计算相应的权重系数,能够客观分析网页所包含的主题信息,使检索结果排序更合理。实验表明,该算法能有效提高查准率,较好地解决了主题的漂移现象,且具有较好的性能。  相似文献   

11.
杨丹  申德荣  陈默 《计算机科学》2015,42(7):240-244
基于Web查询的地理位置、时间查询意图和用户偏好的个性化Web搜索可以改善Web搜索结果,更好地满足不同用户的信息需求。提出了GT-WSearch个性化Web搜索框架,它通过挖掘搜索结果、用户点击数据和对查询进行分析得到的用户概貌和查询概貌,来捕捉用户的地理-时间的意图和偏好,提高搜索质量。用户概貌表明了查询自身的地理-时间的特性。 GT-WSearch框架在排序函数中利用文档的地理位置、时间的相关度来进行个性化搜索。 最后将使用线性的相关度排序函数进行重新排序的搜索结果返回给用户。大量实验结果表明,所提出的个性化方法在提高Web搜索结果的质量中取得了明显的效果。  相似文献   

12.
随着Web信息的快速增长和人们对信息检索质量要求的提高,传统的搜索引擎已不能很好地满足人们的需求. 本文提出了一种个性化元搜索引擎模型.个性化是指模型可以针对不同的用户建立不同的用户兴趣模型,然后根据用户兴趣,模型对搜索结果进行过滤、重排序处理,使得显示给用户的搜索结果更具有针对性.本文阐述了各主要功能模块工作原理,并详细介绍了根据用户兴趣模型对搜索结果进行排序的算法,实验表明该算法能够有效地提高用户的检索质量.  相似文献   

13.
实时Web内容重复识别及排序系统的设计与实现   总被引:1,自引:0,他引:1  
为了解决现有Web信息检索结果中存在较多内容相似甚至相同页面的问题,给出了实时Web内容和结构信息提取的算法及内容重复识别的方法。利用Google提供的PageRank查询接口取得各个页面的PageRank值,结合特定用户的特征信息、查询请求及提取的各Web页内容及结构信息,完成了文档相似度比较,实现了实时页面的重复识别及二次排序,实验结果表明该方法达到了较好的效果。  相似文献   

14.
PageRank算法对页面评价太过客观,对不同重要程度的网页被授予相同的权重,并且在排序时,一些旧的页面经常出现在Web检索结果的前面,而新加入的高质量页面用户很难找到.针对Pagerank算法存在的这些缺陷,引入时间维加权概念,开发出TimedWPR算法,同时保证了两种页面的排序优化.该算法采用服务器反馈回来的网页修改时间表示网页年龄,并在此基础上对网络的组织结构和链接质量以及时间序列进行挖掘,从而克服现有Web超链接分析中的不足.  相似文献   

15.
为进一步解决在半结构化的Web页面中抽取Web碎片信息的困难,针对Web页面设计的目的是给用户显示相关的信息,浏览器只是呈现的中间手段,在抽取Web碎片信息时应该"以人为本",从"人"的视觉效果出发,将Web页面按照CSS视觉效果进行分块,提出一种基于CSS视觉分块的Web碎片信息抽取算法。以随机输入的1000个Web碎片信息站点作为实验对象,实验结果表明,算法具有良好的性能,达到了较高的召回率与查准率。  相似文献   

16.
随着Internet的迅猛发展,Web成为了人们获取信息的重要途径。但是,网页数量的与日剧增,信息量的爆炸式增长,也为人们的信息查询带来了不便。Web数据挖掘技术的引入提高了检索质量,特别是Web结构挖掘在搜索引擎中的应用,很好地帮助用户快速从搜索结果中锁定对自己真正有用的信息。本文对基于结构挖掘的排序算法进行了大量搜集分析,并进行了归纳总结。  相似文献   

17.
单个页面信息量远远大于特定用户对页面中的信息需求.为快速准确从当前页面中获取特定用户所需求的兴趣信息,提出了页面信息主动检索模型.该检索模型中,根据页面Block特点将当前Web页面转化成信息树,根据用户过去的浏览行为构造用户特征树,挖掘用户特征树产生用户需求信息集,然后从当前页面中检索需求的信息,获取用户兴趣信息集.详述了主动检索的基本原理,给出了相应的算法描述,并通过实验证明了该模型具有可行性.  相似文献   

18.
移动终端Web页面的优化处理研究   总被引:2,自引:0,他引:2  
移动终端的多样性及用户的个性化要求是传统Web页面遇到的挑战。为获得与电脑相一致的浏览效果,提出一个服务器端的Web页面自适应方法,通过优化系统处理生成自适应页面。该方法通过用户为设备设置Web页面上项的优先级,系统对页面项进行重新排序、显示和删除处理。测试结果表明,系统及自适应页面具有可用性。  相似文献   

19.
为了帮助用户在低带宽、高延迟的情况下快速切入自己需要的页面,并自动得到页面中自己感兴趣的部分,该文提出了一个基于Web Component的页面分解算法。算法首先将HTML页面格式化为XHTML形式,然后根据XHTML页面生成XMLDOMTree,从中分析、抽取Web Component作为独立实体,并给这些Web Component分配标识,最后在数据库中存储页面结构、Web Component及相关信息,用于构建个性化门户。  相似文献   

20.
大多数搜索引擎没有考虑到用户的个性和兴趣,大大降低了搜索的准确性。采用Web挖掘技术对存放在Web缓存中的历史页面进行挖掘,获取用户的兴趣信息,使用最优二叉树的形式来表示用户兴趣,利用获取的用户兴趣信息来构建个性化模型,并且利用智能Agent跟踪用户的兴趣变化,不断地对用户兴趣个性化模型进行更新。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号