首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 656 毫秒
1.
基于Lucene 网页排序算法的改进   总被引:3,自引:1,他引:2  
在分析现有的词频位置加权排序法、Direct Hit算法、PageRank算法和Lucene的网页排序算法后,将这三种著名的算法思想运用到Lucene的网页排序算法中,并设计了一个基于Lucene的糖业专业搜索引擎,重点介绍该搜索引擎的检索功能。最后,通过在所设计好的糖业专业搜索引擎进行实验,验证改进后Lucene的网页排序算法,实验结果表明改进后的排序算法能够提高检索结果的质量,能够更准确地将结果信息反馈给用户。  相似文献   

2.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

3.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

4.
针对Google PageRank算法中存在的“平均分配原则”及网络链接结构所造成的“旧网页问题”、“主题漂移问题”,提出一种改进的网页排序算法N-PageRank.该算法通过对搜索日志进行数据挖掘,捕捉用户与搜索引擎之间的交互过程,发现隐藏在用户搜索行为背后的用户兴趣和搜索规律,利用用户行为反馈模型,分析网络日志里用户的各项行为特点,改善了排序结果的准确率,保证了搜索引擎的返回结果正是用户所希望看到的网页.实验证明该算法有效地降低了网页排序时的客观因素的影响,充分考虑了用户对于网页质量的评价,所得到的排序结果更加能够满足用户的需求.  相似文献   

5.
胡博  蒋宗礼 《计算机科学》2016,43(9):247-249, 273
文档检索结果的排序和文本分类技术是解决垂直搜索、个性化信息检索、信息过滤等相关问题的核心技术。为了提高检索系统的性能,针对Lucene的基础排序算法,提出了一种融合位置相关和概率排序的改进方法。考虑到查询词在文档中出现的位置信息和概率排序对文档相关性的影响,利用位置相关的查询词权值和基于朴素贝叶斯分类算法的文档相关性概率值,对Lucene基础排序算法的评分公式进行改进。实验表明,该改进方法能够有效提高垂直搜索的准确率,使用户拥有更好的垂直搜索体验。  相似文献   

6.
随着互联网海量信息的不断涌现,根据用户的兴趣提供相关查询结果,是现有搜索引擎要考虑的一个问题,PageRank算法是基于链接的排序算法,已在Google搜索引擎广泛应用,但其忽略了用户个性化需求。采用网页预分类技术,来表示用户查询的兴趣度,进一步提出改进传统的PageRank算法,从而能适当提高用户在使用搜索引擎方面的个性化需求。  相似文献   

7.
通用搜索引擎在检索过程中会出现查询结果与关键词所属领域无关的主题漂移现象.本文提出了面向特定领域的网页重排序算法-TSRR(Topic Sensitive Re-Ranking)算法,从一个新的视角对主题漂移问题加以解决. TSRR算法设计一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序.在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%.  相似文献   

8.
一种好的智能搜索算法对智能Web应用是非常重要的。为了在智能Web应用中实现快速智能搜索且能有效地去除垃圾信息,首先介绍了Lucene开源系统,详细分析了Lucene的系统结构以及PageRank算法。按照Lucene的框架规范,将Lucene很好地嵌入到自己的搜索引擎中,利用爬虫从互联网上收集数据,使用目前流行的Lucene和PageRank搜索技术在收集的数据上进行了实例研究。研究表明若在Lucene搜索中添加PageRank分数,进行混合搜索排序时,相关性高的网页就会排到前面,从而有效提高在智能Web中搜索的准确率及效率。  相似文献   

9.
王非  吴庆波  杨沙洲 《计算机工程》2009,35(21):247-249
网页排序技术是搜索引擎的核心技术之一。描述Web2.0社区构建语义搜索的必要性,分析影响网页排序的因素,将搜索引擎的排序算法借鉴到基于Web2.0社区的搜索模块中,以改进的TF/IDF和PageRank算法为基础,在一个Web2.0开源社区开发平台上实现基于语义排序的搜索模块。测试结果表明,该排序算法具有内容定位精确、有效结果靠前的特点。  相似文献   

10.
一种好的智能搜索算法对智能Web应用是非常重要的。为了在智能Web应用中实现快速智能搜索且能有效地去除垃圾信息,首先介绍了Lucene开源系统,详细分析了Lucene的系统结构以及PageRank算法。按照Lucene的框架规范,将Lucene很好地嵌入到自己的搜索引擎中,利用爬虫从互联网上收集数据,使用目前流行的Lucene和PageRank搜索技术在收集的数据上进行了实例研究。研究表明若在Lucene搜索中添加了PageRank分数,进行混合搜索排序时,相关性高的网页就会排到前面,从而有效提高在智能Web中搜索的准确率及效率。  相似文献   

11.
基于Lucene的站内搜索设计与实现   总被引:2,自引:0,他引:2  
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势.该模型引入更好的中文分词技术,可自定义最终结果的排序.能够保证检索的前100条记录最符合检索者的需要.  相似文献   

12.
基于Lucene的全文检索系统研究与开发   总被引:27,自引:0,他引:27  
郎小伟  王申康 《计算机工程》2006,32(4):94-96,99
提出了一种基干Jakarta Lucene的全文检索系统模型。该模型相对于Google的站内检索,以及传统的数据库检索都有较为明显的优势。其关键字的拆分比对技术、信息检索的速度以及最终结果的排序都有独到之处。能够保证检索的前100条记录虽符合检索者的需要。  相似文献   

13.
该文针对目前通用搜索引擎存在的不足,提出在建立普通倒排索引的基础上,再建立一个记录用户手动标注信息的综合倒排索引,并结合渠道奖励词频算法和文档关注度算法动态更新综合倒排索引,最后在Lucene环境下实现了一个体现用户个性的搜索引擎。  相似文献   

14.
该文在开源全文搜索引擎Lucene的基础上设计了一个结合本体与自然语言处理技术的语义检索系统。系统分析了如何对文本进行语义分析,设计了语义索引项以存储语义信息,并提出了使用语义信息的网页排序算法。  相似文献   

15.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

16.
将deep Web发掘与主题爬行技术有机地结合起来,对deep Web垂直搜索引擎系统的关键技术进行了深入研究.首先设计了deep Web主题爬行框架,它是在传统的主题爬行框架的基础上,加入了前端分类器作为爬行策略的执行机构,并对该分类器做定期的增量更新;然后使用主题爬行技术指导deep Web发掘,并且借助开源组件Lucene将主题爬行器所搜索的信息进行合理的安排,以便为检索接口提供查询服务.当用户向搜索引擎提交查询词后,Lucene缺省按照自己的相关度算法对结果进行排序.通过爬虫、索引器和查询接口的设计,实现了一个面向deep Web的垂直搜索引擎原型系统.  相似文献   

17.
吴兵  叶春明  陈信 《计算机工程》2010,36(15):256-258
针对现有学习系统存在信息过载、缺乏个性化服务能力、不能提供检索服务的问题,提出基于多代理构建个性化推荐学习系统。该系统利用JADE设计学习者Agent与推荐Agent,采用Lucene设计带有个性化能力的搜索引擎支持推荐,并融合3种推荐方法发挥多Agent间协商与协作的优势。实验结果表明,相比单一推荐方法,该系统具有较好的推荐效果和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号