共查询到20条相似文献,搜索用时 15 毫秒
1.
基于Nutch 的垂直搜索引擎系统 总被引:1,自引:1,他引:0
由于通用搜索引擎搜索精度不高,而国内各大物流港口搜索有效性较低,设计基于Nutch的港口物流垂直搜索引擎系统,实现了各个港口物流信息的快捷查询和共享。系统采用了基于向量空间模型的主题相关度判别算法并对该算法进行改进,加入元数据判别机制和重要标签所包含关键词的加权处理。加入“隧道处理”机制,以处理主题网页分离的问题,并且修改了检索结果排序的源代码,使其更适应垂直搜索引擎的要求。 相似文献
2.
垂直搜索引擎可以实现行业主题的精准搜索,建设纺织品垂直搜索引擎,显然可以促进电子商务发展。该文论述了基于lucene的开源平台Nutch的特性和应用方法,分析了聚焦爬虫、分布检索等建立该引擎的关键技术。 相似文献
3.
基于Nutch农业搜索引擎的研究与设计 总被引:3,自引:1,他引:2
针对目前通用搜索引擎对专门领域及特定主题信息覆盖率较低,在开源的Nutch搜索引擎架构的基础上,通过Hash索引在多语种农业叙词表AGROVOC上进行农业词典的构建,利用已有的空间向量算法进行农业相关度计算,并结合PageRank的改进算法对结果综合排序,搭建了一个面向互联网上农业相关信息资源的搜索引擎.相对于通用搜索引擎来说减少了搜索结果的信息量,提高了搜索速度,同时提高了专业信息搜索的准确率. 相似文献
4.
为了提高搜索引擎的主题倾向性和准确率,在Nutch平台上实现了带有中文分词插件的垂直搜索引擎,给出了改进后引擎的系统功能和体系结构,并从用例角度分析了系统的功能,介绍了基于该体系结构实现的港口物流信息垂直搜索引擎以及和一般引擎运行情况的比较。实验结果表明,这些改进提高了主题判别的准确度和效率,使信息的定位和查找更加精确,减少了不相关信息的干扰,并提高了系统对于互联网复杂环境的处理能力。 相似文献
5.
基于Nutch的搜索引擎的研究 总被引:6,自引:0,他引:6
Nutch是一个开放源代码的Web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代的商业搜索引擎工作原理一样,即网页搜集、预处理(建立索引)和查询服务.由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平.我们可以利用Nutch并结合中文分词技术来构建自己的中文搜索引擎. 相似文献
6.
7.
当前,搜索引擎是互联网的一个重要组成部分.其网页摘要采用的是静态网页额摘要,用户不能快速从网页
摘要中获取网页内容的主题思想.本文在开源搜索引擎Nutch中运用自动文摘技术生成网页摘要,加快用户确认搜索准确
度的速度. 相似文献
8.
9.
基于Nutch的个性化搜索引擎的研究与探讨 总被引:1,自引:0,他引:1
严春来 《电脑编程技巧与维护》2014,(4):4-5
提出了一个基于Nutch开源搜索引擎扩展和改进的解决方案。在Nutch+Lucene+Tomcat+Sqlsever架构框架下用户进行个性化资源采集配置从而获得一个定向数据采集的搜索引擎。 相似文献
10.
基于Nutch的中文搜索引擎的研究与实现 总被引:1,自引:0,他引:1
重点讨论了搜索引擎原理及基于Nutch的搜索引擎的实现架构,同时对网页抓取过程作了深入的研究和分析。最后,给出了基于Nutch的中文搜索引擎的解决方案。 相似文献
11.
12.
袁枫 《计算机光盘软件与应用》2011,(12)
随着Internet和web技术的飞速发展,Internet已成为人们进行信息交流的不可缺少的巨大的信息空间。面对如此巨大的海量信息,人们在寻找自己所需的信息时常常迷失方向。如何快速、准确的从浩瀚的信息资源中找到自己所需的信息已成为困扰用户的一大难题。垂直搜索引擎是目前web搜索领域最受人关注的研究热点。而我校位于三峡库区,农业是我校的主打专业,针对我国提出的“科技兴农”和可持续发展精神,本文从概念和技术两个方面介绍了垂直搜索引擎的工作流程和关键技术,并且研究了将垂直搜素技术和三农问题结合起来,解决库区农村、农民和农业信息闭塞、观念落后的现状,实现农业生产信息化。 相似文献
13.
农业垂直搜索引擎信息抽取的研究 总被引:1,自引:0,他引:1
自动文本信息抽取是垂直搜索引擎技术体系的一个研究方向,针对传统的农业垂直搜索引擎信息抽取精度不高的问题,在研究农业网页交易信息数据的特点的基础上,提出一种针对具有时空属性的行业领域信息的表示与抽取模型.该模型利用数据信息、数据时间、数据空间三元集描述定义此类数据,不仅可以表示数据对象的当前状态,而且可以准确地反映数据对象的历史与空间连续状态,据此设计了K-EA算法.实验结果表明,该模型对于具有时间与空间属性特点的数据有很好的召回率与精度. 相似文献
14.
随着网络的飞速发展,人们对互联网信息检索的需求不断专业化、细致化,通用搜索引擎技术在一定程度上已经不能满足用户的搜索需求。与此同时,本体相关的技术在信息检索系统的研究越来越成熟。在本体相关技术的基础上,提出一种可以提高搜索效率的垂直搜索引擎构架,并着重对构架中的关键技术及其实现进行了研究。 相似文献
15.
Nutch搜索引擎的页面排序修改方法研究 总被引:1,自引:1,他引:0
Nutch是一个优秀的开放源代码的Web搜索引擎.虽然 Nutch的页面排序方法比较合理,但是很多情况下仍然不能满足需要.分析开源搜索引擎N岫代码,研究了Nutch的页面排序方法.在Nutch原有的结构基础上提出了3种修改Nutch排序的方法,对每种方法的实现进行了阐述,最后对这些方法的特点进行了比较. 相似文献
16.
随着人们对互联网信息检索要求的不断提高,传统的基于字符匹配的搜索技术已不能满足需求.虽然语义网技术在解决智能搜索方面取得了很多成果,但由于复杂度、性能等多方面的原因,目前Internet上几乎还没有成熟的基于语义的信息检索工具.文章提出了一种采用语义网和搜索引擎技术的检索方案,能降低语义检索复杂度,提高检索性能. 相似文献
17.
18.
分析了当前网上搜索引擎的现状及存在的问题,提出了一种结合本体的垂直搜索引擎构建思想,构建了基于本体的垂直搜索引擎模型。 相似文献
19.
分析了当前网上搜索引擎的现状及存在的问题,提出了一种结合本体的垂直搜索引擎构建思想,并阐述了垂直搜索引擎构建的关键技术,最后设计实现了一个以电子杂志为主题的垂直搜索引擎原型. 相似文献