首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度.Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引.但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈.在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题.  相似文献   

2.
基于Lucene的搜索引擎在远程教育平台中的应用   总被引:1,自引:0,他引:1  
一个好的搜索引擎可以使用户高效地搜索到自己需要的信息.Lucene是一个用Java写的全文索引工具包,访问索引速度快,支持多用户访问,可以跨平台使用.分析Lucene的索引原理,实现了一个基于Lucene的远程教育平台的应用.  相似文献   

3.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

4.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

5.
对Lucene在搜索和索引中表现出来的特点做了研究,对基于Lucene的搜索策略做了阐述,并结合一个应用案例对搜索策略进行了说明。对于如何在分布式环境下建立强大的搜索引擎进行了探讨。  相似文献   

6.
MapReduce 在分布式搜索引擎中的应用   总被引:1,自引:0,他引:1  
吴文忠  易平 《计算机系统应用》2012,21(2):249-251,224
MapReduce是一种分布式的并行编程模式,它可以实现大型数据集的并行运算。Lucene是Apache下的搜索引擎开发包,当索引文件不断增大时,Lucene搜索便会出现瓶颈问题。通过利用MapReduce的思想,按城市划分策略将大量并发的搜索请求映射到对应的分布式服务器中进行Map操作,再结合Lucene,从对应索引服务器中查询后利用Reduce操作返回最终结果。实验结果表明,这不仅解决了大数据量查询的瓶颈问题,还将系统效率提高了66.7%。  相似文献   

7.
张俊  李鲁群  周熔 《微机发展》2013,(6):230-232
互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。Lucene是基于Java开发的源代码开放的全文检索工具包,具有高性能、可扩展等特性,是实现搜索引擎的核心组件。通过对Lucene的API进行分析,并在此基础上,构建了索引和搜索的模块,并对网上新闻内容进行实时地搜索。通过与普通搜索引擎对比,该新闻搜索引擎提高了搜索的精确性。  相似文献   

8.
《软件工程师》2015,(7):50-52
索引是搜索引擎的核心概念,优化索引提高使用效率是当前主要研究内容。文中研究了Lucene索引文件的内部结构,包括Lucene索引文件格式、文件组成、索引创建过程,并重点研究了段Segment文件的存储结构。经研究表明,创建单一且重用的文档实例以及提高使用的内存大小可有效提高索引使用效率。  相似文献   

9.
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

10.
基于Lucene的中文倒排索引技术的研究   总被引:2,自引:0,他引:2  
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

11.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

12.
一种基于Lucene的影片搜索引擎的研究和应用   总被引:1,自引:0,他引:1  
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。  相似文献   

13.
基于Lucene全文检索引擎的应用研究与实现   总被引:20,自引:0,他引:20  
Lucene全文检索技术是信息检索领域广泛使用的基本技术.它是一个优秀的开源全文本搜索技术框架.按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中.首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的校园网Web搜索引擎的设计与实现.  相似文献   

14.
本文在充分实验的基础上,利用Lucene技术实现了桌面批量文件全文搜索引擎,并通过检测词库工具显示Lucene索引数据,阐述了全文搜索的工作原理。  相似文献   

15.
随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网己经成为人类最重要的海量信源,信息迷航和信息过载已经成为日益严重的问题。就面向主题搜索引擎的关键技术进行研究,并提出一种基于Lucene的面向主题的搜索引擎解决方案,研究实现材料信息主题搜索引擎(FSEMI)。  相似文献   

16.
该文针对目前通用搜索引擎存在的不足,提出在建立普通倒排索引的基础上,再建立一个记录用户手动标注信息的综合倒排索引,并结合渠道奖励词频算法和文档关注度算法动态更新综合倒排索引,最后在Lucene环境下实现了一个体现用户个性的搜索引擎。  相似文献   

17.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

18.
基于Lucene的全文检索引擎研究与应用   总被引:5,自引:0,他引:5  
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号