首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 797 毫秒
1.
随着Internet的迅猛发展,网络信息呈爆炸式增长。Web信息检索是一个从Web海量数据中检索用户感兴趣信息的综合技术,它从一定程度上满足了用户对信息的需求,但返回页面的数量依然十分巨大。如何对搜索结果进行排序已成为影响搜索质量的一个重要问题。本文介绍了两种页面排序算法PageRank和HITS,并对肉页排序算法的若干改进进行了讨论。  相似文献   

2.
针对小文本的Web数据挖掘技术及其应用   总被引:4,自引:2,他引:4  
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。  相似文献   

3.
从搜索流程的分词和页面排序出发,由于中文分词比较复杂,鉴于正向最大分词算法和逆向最大分词算法的优缺点,提出基于正向最大和逆向最大匹配的双向匹配算法,该算法在一定程度提高了分词的准确性。页面排序也是影响用户搜索效率的一个重要因素,而网页相关度和网页的链接都是直接影响网页权值的重要因素,因而提出一种基于网页相关性的PageRank算法。新的页面排序算法既防治了页面漂移的可能性,也防治了全部依赖网页相关性的排序结果。  相似文献   

4.
搜索引擎结果的重排序方法   总被引:7,自引:0,他引:7  
杨广翔  俞宁  谌莉 《计算机应用》2005,25(2):305-308
当前Web搜索引擎返回的搜索结果一般是按“超链分析”进行排序的。采用词频统计、词分布特征量等方法对Web搜索引擎的搜索结果的关键词相关度进行计算,并重新对搜索结果排序,可以使得搜索结果中有关的页面文集更加集中。从而方便了信息的使用,特别是在对于特定内容的信息搜索时。  相似文献   

5.
为了在大量网络Web页面中快速找到用户关心的内容,提出使用词汇之间的"相关度"来存储用户的个性化信息,应用能够在用户进行检索的过程中自动建立针对该用户的"词汇相关度"的算法设计了一个个性化元搜索引擎,并通过使用3种不同的利用词汇相关度对底层搜索引擎所返回的结果进行评估和个性化排序的算法进行实验.这里设计的个性化算法的灵敏度、抗干扰性、语义相关性分析3个指标的实验结果说明该算法最终会影响到网页的排序.基于统计方法的词汇相关度模型是一种有效的个性化信息检索技术,它可以大大提高搜索结果的质量.  相似文献   

6.
Web页面包含了丰富的、动态的超链信息,挖掘超链及其周围的文档可以帮助用户找到感兴趣的、权威的内容。主要论述了基于超链的Web结构挖掘的方法,并对Web结构挖掘的一般方法HITS算法进行改进。采用这种改进算法,可以从任意页面集中计算出具有最大Authority权值和Hub权值的页面。从而把一个可信度的、权威的网站推荐给用户。  相似文献   

7.
随着Web技术的迅速发展,提供个性化服务的搜索引擎技术受到用户的广泛关注,网页排序是其中的关键技术之一。本文利用PageRank算法对原有的Lucene网页排序进行了改进,设计并实现了关于手机信息搜索的个性化搜索引擎。实验结果证明,改进后的排序算法能够较好地提高信息检索的准确度,为用户带来了优于Lucene自身排序的搜索体验。  相似文献   

8.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

9.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

10.
Web页面主题相关性排序算法的研究   总被引:3,自引:0,他引:3       下载免费PDF全文
分析了Web页面主题的分布的特点,对经典的页面排序算法进行了探讨,提出了一种基于内容和超链接分析并结合用户点击行为的相关性排序算法。该算法考虑了超文本标记、锚文本、文本内容等对相关性的影响,引入动态比较矩阵来计算相应的权重系数,能够客观分析网页所包含的主题信息,使检索结果排序更合理。实验表明,该算法能有效提高查准率,较好地解决了主题的漂移现象,且具有较好的性能。  相似文献   

11.
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Internet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。  相似文献   

12.
正则表达式的Web数据提取研究   总被引:1,自引:0,他引:1  
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Intemet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。  相似文献   

13.
面向Web的信息收集工具的设计与开发   总被引:8,自引:1,他引:8  
随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。  相似文献   

14.
随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。  相似文献   

15.
Web社区发现技术综述   总被引:23,自引:1,他引:22  
Web是一个复杂超文本所组成的巨大的信息源,而且以很快的速度在不断的扩大.针对这样一个不断变化的信息源,如何利用和发现Web中的有用信息变得具有挑战性.Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息.通过对社区信息的认识可以帮助我们总览Web的全貌.而将Web按照社区来组织有许多优点.社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者.社区还代表了Web的社会活动,因为Web就是一个社会性的网络.目前,许多社区的发现和维护是依靠人工来完成的,维护成本较高,修改也困难;此外,还存在着许多不为人知或者称为潜在的社区,而这些社区是无法通过人工来发现的.因此,许多研究都在致力于社区的自动或半自动发现技术.社区的发现主要采用基于Web图形的链接分析技术.在方法上大致上分为两类,一类是面向某个主题的社区发现,而另一个是无主题的社区发现技术.对于社区的发现技术做了较为全面的分析,并且总结了社区发现技术中依然存在的、挑战性的问题和未来的研究趋势.  相似文献   

16.
《Ergonomics》2012,55(11):989-1007
The vastness and diversity of the Internet make it an emerging choice as an information repository and dissemination mechanism for healthcare-related information. The objective of this research is to characterize empirically the use of the Internet by a variety of healthcare professionals as well as to gauge perceptions of the Internet as a tool for information retrieval. This was accomplished through use of a questionnaire explicitly designed to gauge usage and perceptions of the Internet. Differences were detected between individual occupations of healthcare professionals with respect to Internet use and opinions concerning possible enhancements to the Internet. It was found that users' subjective experiences with the World-Wide Web (WWW) were more important than self-reported user knowledge when indicating the value of enhancements to the search process on the WWW. The methodological implications of the research together with a conceptual framework for usability that captures the essence of Internet usability in healthcare are presented. Directions for future research are provided.  相似文献   

17.
孙艳  周学广  陈涛 《计算机工程》2011,37(19):266-269
新型宣传媒介的网络舆情存在大量非法信息。为此,提出一种意会关键词信息取证方法,对中文意会关键词进行定义、分类和量化,给出6种意会关键词提取算法,对提取的证据信息进行完整性处理。实验结果表明,6种算法的提取速度均在毫秒级,查准率和查全率分别达到92%和95%,从而保证在网页舆情监控下非法信息的取证效率。  相似文献   

18.
李彦 《微型电脑应用》2020,(3):19-21,30
信息科学技术的进步使得互联网信息技术的发展突飞猛进,其中网页设计作为互联网技术中的重要部分,应用先进技术提高工作效率与工作质量对网页设计具有重要意义。DIV+CSS技术在网页布局中的优势作用使得其在网页设计与开发中应用越来越广泛。基于此,首先对DIV+CSS技术进行概述,然后对其在网页布局中的优势与应用原理进行分析。  相似文献   

19.
随着网络的发展,越来越多的人们倾向于在网络上查询信息。对信息系统技术的研究与应用也成为人们关注的课题。对建立一个提供毕业生的网站进行了研究,介绍了如何使用ASP技术在Internet上构建一个信息系统,通过WWW动态地访问Web数据库中相关数据。  相似文献   

20.
随着互联网上的信息迅速增长,如何快速准确地寻找到信息越来越受到人们的重视。文中给出了几种计算用户兴趣度的方法,并利用其中一种计算用户兴趣度的方法,论述了基于兴趣度的Web页面关联规则。论述了关联规则和一般的Apriori算法,并利用了"壹支持数下K—关联规则",对一般的Apriori进行了改进,主要是将兴趣度用于Apriori算法中。实验结果证明,该方法用于在网上寻找用户感兴趣的信息具有较好的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号