首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

2.
基于Lucene全文检索应用研究   总被引:1,自引:0,他引:1  
通过Lucene API和PDFBox API实现对PDF文档的二次全文检索。为了实现精确的搜索关键词定位,本文设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似百度文库的全文检索效果。  相似文献   

3.
分析并采用J2EE中轻量级框架组合SSH(Spring+Struts+Hibernate),结合信息检索领域广泛使用的Lu-cene技术,研究并实现了一个适合用于海量数据的全文检索系统,为政府和企事业单位的门户网站信息搜索提供了一种有效的思路和实现方法。  相似文献   

4.
基于Lucene实现了一种高效的WEB全文检索框架Qlucene。该框架针对中小型WEB应用的硬件资源和数据量的实际情况,通过缓存机制和Index Reader无缝替换机制,在不丧失索引检索性能的同时,可以相对实时地进行索引的添加与更新。实践证明,Qlucene是一套Lucene在中小型WEB应用中的优秀解决方案。  相似文献   

5.
《软件工程师》2015,(7):50-52
索引是搜索引擎的核心概念,优化索引提高使用效率是当前主要研究内容。文中研究了Lucene索引文件的内部结构,包括Lucene索引文件格式、文件组成、索引创建过程,并重点研究了段Segment文件的存储结构。经研究表明,创建单一且重用的文档实例以及提高使用的内存大小可有效提高索引使用效率。  相似文献   

6.
基于Lucene全文检索引擎的应用研究   总被引:1,自引:0,他引:1  
Lucene是一个强大的全文索引引擎工具包,它的全文检索技术是信息检索领域广泛使用的基本技术,具有访问索引时间快、多用户访问、跨平台使用的特点.介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构、全文索引机制,然后将其引入具体应用,给出了一个基于Lucene全文检索技术的具体实例.  相似文献   

7.
基于Lucene 网页排序算法的改进   总被引:2,自引:1,他引:2  
在分析现有的词频位置加权排序法、Direct Hit算法、PageRank算法和Lucene的网页排序算法后,将这三种著名的算法思想运用到Lucene的网页排序算法中,并设计了一个基于Lucene的糖业专业搜索引擎,重点介绍该搜索引擎的检索功能。最后,通过在所设计好的糖业专业搜索引擎进行实验,验证改进后Lucene的网页排序算法,实验结果表明改进后的排序算法能够提高检索结果的质量,能够更准确地将结果信息反馈给用户。  相似文献   

8.
吴代文 《微型电脑应用》2011,27(8):39-41,73
通过Lucene API实现对PDF文档的一次全文检索,为了实现更精确的搜索关键词定位,设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似Google Book的图书检索效果。系统测试结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足站内用户快速检索的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

9.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

10.
基于Java界面设计框架Swing和开源全文检索引擎Lucene,设计与实现了一款实用桌面搜索引擎系统,利用该桌面搜索引擎系统可以快速实现本地文件的索引和检索.  相似文献   

11.
分析了Lucene的系统结构及检索原理,设计了一个基于Lucene的全文检索系统模型,并将该系统模型应用到自动答疑系统中进行实验。实验结果表明,以Lucene作为核心的检索系统不仅建立索引的效率高,而且检索速度也较快。  相似文献   

12.
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。  相似文献   

13.
基于Lucene全文检索引擎的应用研究与实现   总被引:20,自引:0,他引:20  
Lucene全文检索技术是信息检索领域广泛使用的基本技术.它是一个优秀的开源全文本搜索技术框架.按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中.首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的校园网Web搜索引擎的设计与实现.  相似文献   

14.
Lucene是一个全文索引引擎工具包,具有访问索引效率高、支持多用户访问、跨平台等优点.把Lucene的索引与全文检索数据库的索引进行比较来介绍Lucene的索引原理及其结构组成,并分析通用的检索系统的组成.最后提出了通用的基于Lucene的全文检索系统的设计以及对实现的关键技术进行了探讨.  相似文献   

15.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。  相似文献   

16.
一种基于Lucene的影片搜索引擎的研究和应用   总被引:1,自引:0,他引:1  
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。  相似文献   

17.
基于Lucene的中文分析器分词性能比较研究   总被引:1,自引:0,他引:1       下载免费PDF全文
义天鹏  陈启安 《计算机工程》2012,38(22):279-282
针对Lucene自带的中文分析器分词性能不理想并且难以选择第三方分析器的问题,研究多种基于Lucene的中文分析器,对语句分词、分词速度、建立索引的空间与时间、检索结果以及检索速度等方面进行比较。分析结果表明,在Lucene框架下,基于词典分词的Paoding分析器总体性能最优,Lucene自带的一元分析器分词速度最快,imdict与ICTCLAS4J分析器在算法效率上存在一定改进空间。  相似文献   

18.
基于领域本体和Lucene的语义检索系统研究   总被引:1,自引:0,他引:1  
王欢  孙瑞志 《计算机应用》2010,30(6):1655-1657
语义相似度是影响语义检索系统查准率和查全率的重要因素。设计了一种改进的语义相似度模型,用于量化概念间的关联程度,通过对相似度阈值的控制来调整查询扩展时扩展概念集的范围。在Lucene的基础上设计了一个基于领域本体的语义检索系统,该系统对提交的关键词组进行查询扩展后,将扩展关键词组导入文本检索引擎Lucene中,并把语义相似度作为检索结果排序算法的关键因素。实验结果表明,该语义相似度模型得出的相似度值更加接近专家经验值,系统的查询准确率与未加入查询扩展的Lucene系统相比有较大的提高。  相似文献   

19.
该文简要介绍了搜索引擎的基本概念以及Lucene的工作原理和结构,并根据一个实例说明了Lucene中创建索引的核心过程.并对Lucene相关基础排序算法的改进算法进行讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号