首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
随着Internet上站点的增多。越来越多的站点的宣传都依赖搜索引擎的搜索结果.怎样让搜索引擎更好地为站点服务与提高站点的访问量有着非常密切的关系。搜索引擎并非是上帝的赠送给Internet产物。搜索引擎其本身既是站点。同时也是由各个程序来建设的。而各种搜索引擎一般都使用一种称为搜索引擎机器人的技术。这种机器人会根据一定规则的在Internet上访问站点.并把有价值的页面收集到搜索引擎的缓存数据库保存。一旦有用户来搜索,那么搜索引擎会直接在其缓存中搜索结果.并将结果报给用户。  相似文献   

2.
网络信息的日益增加迫切需要适宜的检索工具,特别是进行专业信息的检索,需要体现专业词汇特点的搜索引擎。本文在对搜索引擎核心技术进行研究的基础上,提出了石油化工信息搜索引擎的设计方案,开发了网络机器人模块,实现了海量网页的自动获取;采用最短路径分词和正向最大匹配相结合的算法,实现了中文自动分词;开发了信息索引模块,实现了网页的批量索引和增量索引;开发了信息检索模块,提供布尔逻辑查询,实现摘要自动生成。通过系统集成,初步建立了体现石油化工专业特点的搜索引擎。  相似文献   

3.
维、哈、柯多文种全文搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
在现有基于Web的全文信息检索技术的基础上,深入研究维、哈、柯文网络信息检索现状和维、哈、柯文语言文字计算机处理方面的关键问题,介绍基于Web的维、哈、柯全文搜索引擎的设计和实现。通过一个少数民族语种的搜索引擎的设计和实现,详细描述维、哈、柯多文种全文搜索引擎系统结构,每个模块的功能、关键问题及解决方法,为维、哈、柯少数民族网络用户提供了全新的信息检索技术和手段。  相似文献   

4.
随着搜索引擎的广泛使用,由此而引起的网络机器人(Web Robot)对于Web站点的访问所产生的影响必须引起重视。该文分析了网络机器人的访问行为特点,提出了一个基于访问内容类型统计的检测算法。经实验验证,该算法可以有效地检测未知的和不遵守网络机器人排斥标准的Rohot。  相似文献   

5.
随着互联网上站点的增多,越来越多的站点的宣传开始依赖来自各种搜索引擎的搜索结果,而各种搜索引擎基本上都使用一种叫做搜索引擎机器人的技术,这种机器人会根据一定规则在互联网上访问站点。并且把有价值的页面收集回搜索引擎的缓存数据库保存。搜索的规则比较复杂,但是其中有一个  相似文献   

6.
作为搜索引擎的重要组成部分,网络机器人能从Intemet上自动获取网页,替搜索引擎在Intemet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网络机器人不单单是充当一个获取网页的工具,还能够对链接以及页面内容进行主题相关性识别。主题网络机器人并不仅把目标定位覆盖率,还要提高获取主题相关网页的准确性,为搜索引擎提供一个主题相关的网页库。现在,主题网络机器人已经成为搜索引擎技术领域的一个研究热点,是搜索引擎的发展的重点方向之一。  相似文献   

7.
陈勇  刘勇 《微机发展》2010,(5):162-166
主题搜索网络机器人的研究对于主题搜索引擎整体性能的提高具有重要意义。鉴于国内尚缺少专门面向中医药主题的搜索引擎,针对中医药信息的特点提出了中医药主题搜索网络机器人的搜索策略和系统结构,描述了系统的基本工作流程。结合Java I/O流、套接字编程、多线程编程、中文分词和数据库JDBC连接等技术,设计和实现了中医药主题搜索网络机器人系统。面向中医药主题对如何提高主题搜索网络机器人的搜索效率和精度进行了有益的探索,对其它主题搜索网络机器人的研究和开发具有一定的借鉴作用。  相似文献   

8.
随着中医药行业的快速发展,中医药相关数字化资源急剧增加,传统的全文搜索引擎因专业性不够强、内容繁多等问题导致用户无法快速方便地找到所需信息.为此,设计并实现了一款面向中医药领域的垂直搜索引擎具有重要的意义和价值.采用Heritrix与Lucene等技术构建中医药垂直搜索引擎——杏林搜索,重点介绍了杏林搜索的设计与实现,包括网络爬虫模块、网页解析模块、索引库和Web端等.实际应用效果表明,杏林搜索可以为用户提供更加快速、专业的中医药资源检索服务.  相似文献   

9.
主题搜索网络机器人的研究对于主题搜索引擎整体性能的提高具有重要意义.鉴于国内尚缺少专门面向中医药主题的搜索引擎,针对中医药信息的特点提出了中医药主题搜索网络机器人的搜索策略和系统结构,描述了系统的基本工作流程.结合Java I/O流、套接字编程、多线程编程、中文分词和数据库JDBC 连接等技术,设计和实现了中医药主题搜索网络机器人系统.面向中医药主题对如何提高主题搜索网络机器人的搜索效率和精度进行了有益的探索,对其它主题搜索网络机器人的研究和开发具有一定的借鉴作用.  相似文献   

10.
从介绍网络搜索引擎原理出发,通过分析“网络机器人”采集因特网网络信息的过程,详细说明了拒绝“网络机器人”的方法。并以“Google”、“百度”等网络搜索引擎和网络机器人为例,介绍了如何根据不同的要求,正确设置“robots,txt”文件中的各种语句和各个参数,从而达到防范网络搜索引擎进入网站的目的。  相似文献   

11.
该文在开源全文搜索引擎Lucene的基础上设计了一个结合本体与自然语言处理技术的语义检索系统。系统分析了如何对文本进行语义分析,设计了语义索引项以存储语义信息,并提出了使用语义信息的网页排序算法。  相似文献   

12.
基于Web的搜索引擎及其在化学信息资源导航中的应用   总被引:8,自引:3,他引:5  
网络信息检索工具是Internet信息资源快速定位的重要方法。文章中结合建立Internet化学信息资源导航系统ChIN网一文检索系统的要求,讨论了全文检索的产生、现状和发展趋势。在对信息搜索机制和主要全文检索软件的分析比较的基础上,采用全文检索软件Isearch开发了ChIN网页的全文检索系统。同时给出了ChIN网页全文检索系统的应用实例。  相似文献   

13.
This work presents the bioMine system, a full‐text natural language search engine for biomedical literature. bioMine provides search capabilities based on the full‐text content of documents belonging to a database composed of scientific articles and allows users to submit their search queries using natural language. Beyond the text content of articles, the system engine also uses article metadata, empowering the search by considering extra information from picture and table captions. bioMine is publicly released as an open‐source system under the MIT license.  相似文献   

14.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

15.
基于Lucene的中文全文检索系统的研究与设计   总被引:4,自引:0,他引:4  
提出了一种基于Lucene的中文全文检索系统模型.通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度.在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率.实验数据表明,该系统在检索中文网页时,在效率,精度和结果处理等方面性能明显提高.  相似文献   

16.
网络信息资源的爆炸式增长使得人们获得有用信息日益困难,随着垂直网站的出现和发展,专业化的垂直搜索引擎成为今后搜索引擎发展的主流。该文简要介绍了垂直搜索引擎,并重点对其抓取系统所应用的网络蜘蛛技术做了详细分析,最后讨论了垂直搜索引擎的发展方向。  相似文献   

17.
网络信息资源的爆炸式增长使得人们获得有用信息日益困难,随着垂直网站的出现和发展.专业化的垂直搜索引擎成为今后搜索引擎发展的主流。该文简要介绍了垂直搜索引擎,并重点对其抓取系统所应用的网络蜘蛛技术做了详细分析,最后讨论了垂直搜索引擎的发展方向。  相似文献   

18.
卢秉亮  朱健  张磊  郎勇 《微处理机》2007,28(1):75-77,81
Internet网络环境搜索引擎主要由三部分组成:搜索器、索引数据库和用户界面。检索器是搜索引擎中的核心和关键。通常的网络搜索引擎采用的是集合或模糊检索算法,其检索结果冗余大。主要介绍了搜索引擎索引数据库的结构;基于Spider的通用搜索器的实现;索引表的生成过程;精确检索原理、算法及实现。采用精确检索算法的搜索引擎,所搜索的信息冗余度小并且效率高。  相似文献   

19.
基于Lucene的全文检索系统研究与开发   总被引:27,自引:0,他引:27  
郎小伟  王申康 《计算机工程》2006,32(4):94-96,99
提出了一种基干Jakarta Lucene的全文检索系统模型。该模型相对于Google的站内检索,以及传统的数据库检索都有较为明显的优势。其关键字的拆分比对技术、信息检索的速度以及最终结果的排序都有独到之处。能够保证检索的前100条记录虽符合检索者的需要。  相似文献   

20.
一种基于瞬索技术的搜索引擎的研究   总被引:1,自引:2,他引:1  
随着WWW上信息爆炸式的增长,对信息的查询提出了严峻的挑战,如何快速、准确而又全面的查询到所需信息是现代查询技术研究的关键。XML作为一种可扩展标记语言,具有HTML无可比拟的优点,使新的搜索引擎的研究成为可能。而最新研发的瞬索XML数据搜索引擎很好地利用了XML的优点,它实现了低成本的超高速数据搜索。本文在瞬索技术的基础上,设计了一个新的搜索引擎体系结构,该结构充分利用了瞬索技术的优点,可实现全面、快速的查询。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号