首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
基于Lucene.Net校园网搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利用适应.Net环境的Lucene.Net作为基础,设计了自己的校园网搜索引擎,在特定范围的搜索表现出了自己独特的优势。  相似文献   

2.
在研究垂直搜索引擎原理和开源工具Lucene等技术基础上,实现了对网络数据的抓取、分析、建立索引和检索。阐述了基于Lucene技术的索引和检索的实现方法。实验结果表明,该系统具有较高的检索效率和准确率。  相似文献   

3.
随着互联网的发展,Web服务作为一个崭新的分布式计算模型已经逐渐成为解决现实应用问题的重要技术.目前开发的Web服务数量逐渐增长,而且不仅局限于以WSDL标准发布的服务,Rest的服务也飞速发展.对这些开放的Web服务进行全面且有效的检索成为一个重要的问题.利用Scrapy爬虫框架抓取服务,利用Lucene针对Web服务的特殊文档格式进行有效索引,完整地提供了Web服务搜索引擎的设计.  相似文献   

4.
赵珂  逯鹏  李永强 《计算机工程》2011,37(16):39-41
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。  相似文献   

5.
分析全文搜索引擎的基本结构及原理,并使用开源工具Heritrix作为搜索引擎的爬虫负责下载Web页面、HTMLParser抽取Web页面的内容、Lucene提供索引和搜索服务,采用B/S模式实现一个全文搜索引擎。  相似文献   

6.
在简要分析搜索引擎基本原理及相关技术的基础上,以校园网为实验平台,结合小型搜索引擎的个性化需求,利用Lucene开源引擎工具包的系统结构及检索原理设计并实现了一个可扩展、可复用的小型搜索引擎系统。  相似文献   

7.
为了提高搜索引擎对新闻检索的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Lucene搜索框架设计了新闻垂直搜索引擎.对网络爬虫进行了抓取规则的订制,使其只会抓取新闻相关的网页.采用卡方统计量进行文本特征提取,利用TF*IDF算法进行特征权值计算,利用支持向量机分类算法对新闻数据进行分类.实验结果表明,该新闻垂直搜索引擎可以精准地按类别搜索出新闻信息.  相似文献   

8.
网络爬虫采集互联网信息并提供搜索服务。该设计基于Lucene.NET平台开发网络爬虫,可以对特定的网页进行抓取和分析,提取网页中有用信息,并对抓取的数据进行索引,存储到服务器硬盘,同时过滤掉无用信息。系统界面友好,准确高效。  相似文献   

9.
朱海丰  秦杰 《福建电脑》2008,24(10):108-109
Lucene是一个开源的全文搜索引擎工具,利用Lucene的API可以较为方便的创建一个全文搜索引擎。JSF(JavaServerFaces)是一种用于构建Web应用程序的新标准Java框架。它提供了一种以组件为中心来开发Web程序的方法,从而简化了开发。本文将LuCelle和JSF结合起来实现搜索引擎。  相似文献   

10.
周凤丽  林晓丽 《微机发展》2012,(1):140-142,160
互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站点的网页爬取以及爬取过程中URL链接的存储、处理等,并通过多线程技术管理多个抓取线程,实现了并发抓取网页,提高了系统的运行效率。最后采用JSP技术设计了一个简易的新闻搜索引擎客户端,系统可以稳定运行,基本符合搜索引擎原理的探索,具有一定的现实意义。  相似文献   

11.
基于Lucene的搜索引擎设计与实现   总被引:14,自引:0,他引:14  
当今搜索引擎已经成为人们在网上搜索信息的重要工具。通用的搜索引擎虽然功能强大,但对具有很多子网站的企业门户网站进行搜索时响应速度慢,索引范围不全。Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎。文中描述了利用基于Java的全文检索工具包Lucene开发定制的中文搜索引擎方法,并且将该定制的搜索引擎与Google的站内搜索进行试验比较,发现在对具有很多子网站的企业门户网站进行搜索时有优于Google的性能。  相似文献   

12.
汲业  陈燕  杨健  慕蓉 《计算机工程》2010,36(24):24-26
根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户界面,已经成功覆盖全国近40个城市的餐饮、娱乐和黄页信息。  相似文献   

13.
网络蜘蛛WebLech是一种优秀的Web站点下载开源工具。该文分析WebLech的特点和工作流程,完善WebLech的起始地址设置,并丰富其链接和所获取的网页类型。使用改进后的WebLech设计了一款能在用户设置的IP范围内进行搜索的基于内容的搜索引擎。  相似文献   

14.
丁兆贵  金敏 《微机发展》2011,(2):105-108
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果。根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎。通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现。文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率。  相似文献   

15.
基于Web的网络爬虫的设计与实现   总被引:2,自引:0,他引:2  
无论是站内信息检索还是特定的Web信息搜集,都离不开全文搜索引擎系统的核心模块--网络爬虫,本文详细介绍了一种设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法及主要的技术难点.该系统经实际运行,效果良好,最后给出了有待进一步改进的地方.  相似文献   

16.
基于Lucene的文本搜索引擎的设计和实现   总被引:1,自引:0,他引:1  
随着局域网信息的海量增长,个性化的轻量级搜索引擎已经被中、小型企业和校园关注和青睐。本文在研究搜索引擎基本原理的基础上,通过Lucene、JSP和Struts2等技术实现多种类型文件的文本内容的检索功能。测试结果表明,该系统实现了局域网内部对HTML、PDF、Word、txt等格式文件的内容提取和解析,具有开放性、可扩展、实时性和安全的特点,成功达到了预期目标。  相似文献   

17.
公告平台经过多年的建设与发展,已经积累了数量庞大的产品数据,其中检测报告数据库中已经存储了大约230余万份检测报告,然而目前对于该部分数据尚未形成有效的检索手段。本文为公告检测报告数据库设计基于Lucene框架的全文检索引擎,实现基于内容的全文检索服务。本项工作对于丰富公告检测报告的检索方式和提高检索效率,规范公告管理,提升政府和企业对公告服务的满意度具有重要的现实意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号