首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
大规模搜索引擎检索系统框架与实现要点   总被引:12,自引:0,他引:12       下载免费PDF全文
随着Web规模的不断扩大,搜索引擎正成为因特网上最常用的应用之一。本文以天网搜索为实例,分析了大规模通用型中文搜索引擎检索系统的设计与实现技术。围绕检索效率和检索效果两个方面,本文介绍天网检索系统的集成框架结构和分布式架构,并分析了索引创建和索引检索中的相关实现技术。  相似文献   

2.
吴文娟  车明 《微处理机》2006,27(6):83-85
倒排文件是搜索引擎检索系统普遍采用的索引技术。在实验基础上,针对中文搜索引擎中索引的时效性和传统倒排索引在更新时的缺点,提出分组索引技术和一种追加索引的更新算法,可以有效提高搜索引擎的检索效率,同时不影响系统检索效果。  相似文献   

3.
基于Servlet的搜索引擎   总被引:1,自引:1,他引:0  
张文 《软件》2011,32(2):75-77
基于Servlet技术和数据结构中的哈希映射,以构建索引表的方式对网页关键字进行组织。根据客户端提供的关键字对索引表分析,得到搜索结果。由于搜索过程是访问缓存,因而有较高的搜索效率,在中小型服务器中可以广泛采用此技术作为站内搜索引擎,对于大中型服务器可以提供广域网web搜索服务。  相似文献   

4.
研究了Lucene搜索引擎框架在烟草行业的信息获取和搜索方面的系统应用。如何在异构的海量数据中获取与烟草行业相关的数据是实现烟草行业信息化管理技术的一个重要分支。通过对不同文件格式的数据处理、烟草行业相关站点的数据抓取、搜索引擎创建和数据检索四个模块框架来实现系统。Web页面基于Heritrix烟草信息数据抓取,其中的非结构化数据或者半结构化数据和不同的文件格式通过Tika工具统一转为为文本,通过Lucene对结构化和非结构化数据创建索引以实现数据检索,由此实现烟草信息搜索引擎系统的实现。  相似文献   

5.
随着计算机的广泛应用以及互联网的飞速发展,互联网流量呈现爆炸式增长的态势。为了应对日益严重的网络滥用以及网络安全事件,出于安全取证的需要,必须对互联网流量进行收集、存储和分析。互联网流量的监控需要及时统计网络流量的源地址、目的地址、源端口、目的端口、协议、时间戳等信息,以便进行流量统计和综合分析。但是网络流量信息是海量的,如何快速检索相关流量是一个挑战性问题。在搜索引擎中,为了处理海量数据检索,倒排索引是快速搜索技术的关键方法。文章把搜索引擎中的倒排索引方法和索引压缩算法应用到互联网网流信息检索中。通过实验测试和验证,在网流信息检索中,倒排索引以及索引压缩算法能够有效提高检索速度。  相似文献   

6.
搜索引擎的混合索引技术   总被引:5,自引:0,他引:5  
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。  相似文献   

7.
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep web)数据的关键一步.介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率.  相似文献   

8.
随着Web技术的迅速发展和信息量的增大,Web上有用信息的获取成了数据挖掘的研究热点之一。文章介绍了web数据挖掘和数据检索的技术特性,重点讨论了Web数据挖掘技术在Web数据检索服务中的应用。  相似文献   

9.
索引在飞行仿真系统数据库中的应用与优化   总被引:2,自引:0,他引:2  
仿真数据库在计算机飞行仿真系统中具有相当重要的地位,整个仿真的过程都是围绕仿真数据库中的数据进行的。仿真结果数据是仿真数据库中最重要的数据,并且是海量的数据,要求有高效的方法对这些数据进行访问、处理。针对此问题,对仿真数据库中的索引技术进行了重点研究。索引技术是数据库应用中提高数据检索最有效的方法,如何有效利用索引技术来优化数据库是提高飞行仿真系统性能的一个重点。结合飞行仿真数据库系统的开发和应用实践,对索引的建立和优化进行了深入研究,提出了仿真数据库中索引的应用策略,并应用到飞行仿真系统的仿真数据库中。仿真结果表明,提出的索引策略有效地提高了仿真数据库的性能。  相似文献   

10.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。  相似文献   

11.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度.Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引.但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈.在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题.  相似文献   

12.
数据库关键词检索技术是当前的一个重要研究方向,它结合了传统数据库结构化数据存储效率高和信息检索系统非结构化数据检索方便高效的优点。本文介绍一种基于语义的数据库关键词检索系统的设计与实现,该系统以企业级应用开发标准J 2EE为基础,结合数据库技术、语义Web技术和关键词检索技术,可实现关系数据库的语义理解和关键词检索。对系统实现涉及的主要技术点:倒排索引、概念相似度和语义计分公式进行了深入分析,提出一种改进的倒排索引结构和一个新的基于语义的信息检索计分公式。  相似文献   

13.
随着企业内部网络应用的深入,Intranet内部的信息资源越来越庞大,怎样为这些数据信息构建索引是我们面If缶的主要任务,而全文检索的产生解决了这一问题。目前越来越多的中小企业采用Linux系统作为Web平台,并且利用检索系统来管理内部繁多的文本和HTML文件。文章对www搜索引擎的全文检索及其相关技术进行了分析和讨论,实现了一个基于Linux环境的Intranet搜索引擎LISE(Linux Intranet Search Engine)。LISE利用了基于词表的索引方法,为用户提供了更加准确的信息,能满足多种中小企业用户的需求。  相似文献   

14.
随着互联网的普及和web上网页数量的迅猛增长,搜索引擎已经成为从网上获取信息的首选工具。然而,目前主流的搜索引擎利用关键词建立索引,根据检索结果和查询词的相关性从高到低排成一个很长的线性列表,而且检索结果中包含了大量的无用信息,因此对检索结果进行重新组织和挖掘成为了研究热点。本文介绍了检索结果聚类的应用背景,然后介绍了检索结果聚类的算法,最后介绍了检索结果聚类质量评测标准。  相似文献   

15.
地面自动气象站的时空密度不断增加,产生的观测数据量呈指数级增长,传统的关系型数据库在海量数据存储与检索方面存在能力不足、检索性能下降等问题。鉴于此,本文设计一种自动站分钟数据存储与检索系统。使用Quartz定时采集自动站分钟文件并解码入库;应用HBase分布式数据库建立分钟数据存储模型;针对多要素查询需求,应用Elasticsearch建立辅助索引,实现HBase的二级索引。系统测试结果表明,分钟数据入库平均耗时54.6 s,二级索引完整可靠,数据检索结果返回时效达到毫秒级,能够满足业务应用中对自动站分钟数据存储和检索时效的要求。  相似文献   

16.
杨鹏  叶少珍 《福建电脑》2005,(8):105-107
本文讨论了基于内容的海量信息检索特点及搜索引擎实现原理,在此基础上提出了一个基于关键词和语义融合的WEB搜索引擎框架及其总体设计,并说明该系统的主要具体实现。实验结果表明该搜索引擎系统中的语义融合对网络环境数据检索有一定的实际应用价值,改善了实际搜索结果的精确度。  相似文献   

17.
卢秉亮  朱健  张磊  郎勇 《微处理机》2007,28(1):75-77,81
Internet网络环境搜索引擎主要由三部分组成:搜索器、索引数据库和用户界面。检索器是搜索引擎中的核心和关键。通常的网络搜索引擎采用的是集合或模糊检索算法,其检索结果冗余大。主要介绍了搜索引擎索引数据库的结构;基于Spider的通用搜索器的实现;索引表的生成过程;精确检索原理、算法及实现。采用精确检索算法的搜索引擎,所搜索的信息冗余度小并且效率高。  相似文献   

18.
如何使电力生产管理系统给用户提供更高效的信息检索服务,是电力行业存在的一个问题。本项目参照传统的Web搜索引擎模式,结合本体、索引、预处理、模式图技术,开发的面向电力生产管理系统非结构化数据检索系统,系统采用B/S架构,用户输入关键字,发出检索请求,向用户返回根据排序策略发回的top-k分级的检索结果,提高了电力生产管理系统的查询效果。  相似文献   

19.
随着我国对地观测技术的发展,卫星遥感数据越来越多,传统空间关系数据库在时间范围、空间范围的快速查询及可扩展方面存在一定瓶颈.通过分析ElasticSearch搜索引擎框架,提出了一种基于改良GeoHash编码的时空索引方法,设计并实现了基于ElasticSearch的海量遥感数据检索技术,可以精确高效建立一维行键索引筛选遥感数据,提高查询处理效率.实验结果表明,该技术适合于组织管理与查询海量的遥感数据,查询性能优于传统关系数据库.  相似文献   

20.
该文在开源全文搜索引擎Lucene的基础上设计了一个结合本体与自然语言处理技术的语义检索系统。系统分析了如何对文本进行语义分析,设计了语义索引项以存储语义信息,并提出了使用语义信息的网页排序算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号