首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文在开源(OpenSource)项目JakartaLucene的基础上,结合多种开源文档格式分析工具,设计和实现了一种可扩展的全文检索框架,该框架可高效地对XML、HTML、NLSWord、PDF等格式的文档进行全文检索。整个框架完全基于开源工具包,可以有效地对信息系统的开发进行支持。  相似文献   

2.
Lucene是一款优秀的开源全文本搜索技术框架。首先介绍高性能的全文检索工具Lucene,详细分析Lucene的系统结构、程序运行逻辑和各个模块功能,以及在Lucene上的扩展;然后针对Lucene在不同类型文档解析方面的不足,提出一种通用的文档解析器框架,并给出具体的应用实例。  相似文献   

3.
随着信息化水平不断提高,如何从海量信息中快速查找到所需内容成为当前研究的热点。在分析了全文检索基本原理及Lucene系统结构的基础上,提出了MVC模式的全文检索模型,并实现了一套基于SSH框架技术和Lucene搜索引擎的全文检索系统。该系统扩展了检索文档支持的类型,不仅可以对TXT、MS Office各类文档进行检索,还能对PDF、HTML、RTF等文档进行检索;改进了中文分词器,提高了中文分词效率与精确度;改善了人机交互方式,实现了类似百度、谷歌搜索显示功能,对搜索关键字进行高亮显示。系统应用情况表明,该系统创建索引效率高,具有较快的检索速度以及较全的检索结果。  相似文献   

4.
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。  相似文献   

5.
基于Lucene全文检索引擎的应用研究   总被引:1,自引:0,他引:1  
Lucene是一个强大的全文索引引擎工具包,它的全文检索技术是信息检索领域广泛使用的基本技术,具有访问索引时间快、多用户访问、跨平台使用的特点.介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构、全文索引机制,然后将其引入具体应用,给出了一个基于Lucene全文检索技术的具体实例.  相似文献   

6.
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序.通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分.经实验表明,BM25模型在Lucene中有较好的表现,为进一步根据实际需求利用BM25模型和Lucene进行全文检索做出了有益的探索.  相似文献   

7.
基于Lucene全文检索引擎的应用研究与实现   总被引:20,自引:0,他引:20  
Lucene全文检索技术是信息检索领域广泛使用的基本技术.它是一个优秀的开源全文本搜索技术框架.按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中.首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的校园网Web搜索引擎的设计与实现.  相似文献   

8.
Lucene是一个高性能、纯Java的全文检索引擎工具包,而且开源。Lucene几乎适合于任何需要全文检索的应用,尤其是跨平台的应用。Lucene可以被看作一个支持全文索引的数据库系统,但又与传统的关系型数据库有很大的不同。  相似文献   

9.
探讨Lucene体系结构,比较了几种中文分词技术,利用Lucene建立索引,检索索引和利用Struts框架来显示结果.针对构建全文检索中的优化提出了建议。通过一个试验展示了搜索结果。试验表明使用Lucene可以快速而准确的检索结果。  相似文献   

10.
站内搜索引擎是针对某个网站内部的全文检索服务,具备信息检索的核心技术。提出在文件系统上构建的解决方案,使用全文检索开发工具包——Lucene,实现站内搜索引擎系统。不仅针对关系数据库的数据,还对服务器文件系统上的各种非结构化文档数据进行加工、信息抽取,并创建索引文件进行搜索,最终实现对站内被检索数据的导航浏览,关键字高亮提示,筛选排序等。经过测试,检索效率较高,效果良好。  相似文献   

11.
基于Lucene的文档管理系统的设计与实现   总被引:1,自引:0,他引:1  
目前各种类型的文档被广泛地使用,但是如何快速地从众多的文档中查找到我们所需要的信息成为当前研究的热点.基于现有的开源搜索框架Lucene而设计并实现的一款文档管理系统,不仅可以实现对Word、Excel、PowerPoint等文档的检索,而且还能够实现对PDF、HTML、RTF、TXT等文档进行检索.从而能够方便的查找各类文档,进而更好地实现对各类文档的管理.  相似文献   

12.
Lucene2.0是一个高性能的、可扩展的、开源的全文检索工具库,它可以方便地融入到各种应用系统中实现全文索引和搜索功能:在搜索引擎中,Lucene是充当索引的建立工具和索引的查找工具的角色.文章详细分析了Lucene分析器、索引包、搜索包以及Lucene中评分排序、中文分词、索引优化等关键技术点,然后将其引入具体应用,给出了一个基于Lucene2.0的电子文献全文检索系统的实现、  相似文献   

13.
Lucene在数据库全文检索中的性能研究   总被引:2,自引:0,他引:2  
通过Lucene API实现对MYSQL数据库的全文检索,并将Lucene全文检索的性能和查全率同数据库全文检索和Like子句检索作对比.通过对比发现Lucene全文检索在性能上接近数据库全文检索,检索耗时约为Like子句检索的1/5.在对中文检索方面能达到77.2%的查全率,大大高于数据库全文检索.因此对于数据量较大的MYSQL数据库,Lucene全文检索将是一个很好的选择.  相似文献   

14.
当前信息技术不断发展,人们对于信息系统的应用日益广泛,对于信息管理系统的要求也越来越高。利用当前最流行编程语言JAVA设计全文检索系统可以有效解决当前信息系统面临的问题。首先通过对Lucene架构的原理进行有效的分析,其次在其基础上设计出全文检索系统的框架,最后给出具体的检索模块的实现,并给出部分代码。对于信息管理人员来说具有积极的推动作用。  相似文献   

15.
基于Hibernate搜索的数据库全文检索系统   总被引:3,自引:0,他引:3       下载免费PDF全文
现有关系数据库提供的全文检索服务对中文支持有限且难以检索二进制文本。针对该问题,在开源的数据库检索工具Hibernate搜索的基础上,提出一个对关系数据库内容进行全文检索的模型。该全文检索模型可支持关系对象映射、多种复合查询、中英文混合检索,并能检索以二进制格式存储在数据库中的多种类型的文本文件。  相似文献   

16.
海量异构文档的快速检索和细粒度、多维度控制信息的存取是面向行业应用的文档管理系统中的关键。本文利用Lucene.net开源全文检索引擎和Oracle数据库,设计并实现了一个基于B/S架构,能够保存文档密级、分类等多种信息文档组织与检索系统,实现了对海量异构文档数据的快速检索和存取,并实现了文档数据的逐文档按角色分等级权限管理。  相似文献   

17.
Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能。该文分析了Lucene的索引机制,探讨了Heritrix的结构框架,最后结合实际实例对基于Lucene的全文检索的应用进行深入研究。  相似文献   

18.
为了改善计算机传统搜索在效率和返回结果上的不足,基于Lucene全文检索高效、准确的特点,采用非结构化文档结构化的思想,提出了文档内容自然分片索引的方法,实现了一个针对本地资源的个性化搜索引擎。  相似文献   

19.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

20.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号