首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
针对搜索引擎查找准确率低、检索效果差的问题,提出了基于本体的搜索引擎.该搜索引擎首先构建相关主题本体知识库,再利用网络爬虫下载网页内容和网页结构特征,并对内容进行智能识别,找出与本体相关内容识别为相关本体,通过与本体知识库内容对比,筛选特定的统一资源定位器(URL)地址及与计算机网络安全相关的本体,从而发现计算机网络安全相关信息,同时建立不同服务提供者之间的关联关系及服务提供者之间的层级关系,最后将抽取出的计算机网络安全信息存储到以本体为模型创建的数据库中,并成为用户搜索服务的最终数据来源.实验结果表明,本体可提高搜索引擎的查准率,减少冗余信息,从而提高查询精度.  相似文献   

2.
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,并将遗传算法思想应用到主题网络爬虫技术中,提出了非贪婪遗传主题网络搜索算法.实验结果表明,该算法能够采集到更多主题相关度高的网页,提高信息采集正确率,快速高效获取交通相关的信息.  相似文献   

3.
黄昊晶 《科技资讯》2011,(21):13-14
爬虫作为网页搜索下载程序,其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境,总结出三类制约爬行性能的主要问题,分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦爬虫使用URL静态分配策略结合异步DNS查询及缓存设置,在内部分布式爬行时可有效提高网络爬行性能。  相似文献   

4.
简析搜索引擎中网络爬虫的搜索策略   总被引:4,自引:0,他引:4  
随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具.以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题.本文对搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有个大概了解,以及对新一代搜索引擎的期望,以便更快捷获取自己需要的信息.  相似文献   

5.
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。  相似文献   

6.
针对信息搜索与挖掘中存在的关键词多义性及用户对所要查询信息的分类存在一定的模糊性问题,提出了一种基于模糊分类网络的信息挖掘方法。该方法利用模糊分类网络固有的对模糊信息的非线性处理能力和自适应学习机制,通过对WEB页面大量分类文档信息的学习,建立了基于模糊分类网络的信息分类器和挖掘模型。构造的信息分类模型结构简单、学习收敛速度快且易于实现。文中给出了分类策略和实现算法,并以中国石油网油气管道专题信息分类为例验证了方法的有效性。  相似文献   

7.
针对传统通用网络信息采集系统自身固有的缺陷,根据语义分析的相关理论,本文提出了基于语义的网络爬虫的相关模型,该模型构建知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词进行与主体关键词集合采用语义分析算法进行语义相关性的判定,保存需要的网页,并预测及提取与主题相关的URL,从而提高网络资源信息采集相关率。  相似文献   

8.
刘红梅 《科技信息》2013,(24):252-253
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。  相似文献   

9.
基于XQuery的Deep Web搜索系统的设计与实现   总被引:2,自引:0,他引:2  
孙彬  王东  李娟 《科学技术与工程》2007,7(16):4080-4084
随着Web技术的发展,越来越多的信息需要通过Deep Web来获取,爬虫搜索系统是完成Deep Web搜索的重要技术手段。提出一种基于XPath的Web搜索系统的设计方法,它通过采集URL目标,分析目标URL的Web结构,维护URL本体知识库,达到深度积累页面的目的。  相似文献   

10.
指出了在块运动估计中,快速估计算法的最终目的是在提高搜索速度的同时保持搜索质量.在现有搜索算法的基础上,提出了一种自适应六边形运动估计搜索算法AHEX.该算法首先利用时空相关性预测起始点,缩小了搜索区域,从而减少搜索点数;然后采用六边形搜索模型进行搜索,进一步提高了搜索速度.在搜索过程中,还采用了自适应的提前中止策略来避免不必要的搜索.实验结果表明:在保持相当搜索质量的前提下,与其它快速块匹配算法相比,自适应六边形搜索算法的搜索速度有大幅度的提高.  相似文献   

11.
传统搜索引擎无法满足用户对社区网络中实时信息的需求。给出一种实时搜索引擎模型,利用经过算法优化的网络爬虫,实现制导式的数据抓取,同时利用社区网络提供的开放API获得更新数据。通过XML结构化数据,使用改进的向量空间模型对信息进行过滤和分类,并采用考虑时间因素的相关度算法对搜索结果进行排序。实验证明该模型能够实现搜索结果的实时性,并且能够保证搜索项与搜索结果之间比较高的相关度,为用户提供更好的搜索体验。  相似文献   

12.
邻域搜索算法的关键是邻域结构的选择,但每次迭代搜索的时间较长,缺少在解空间内自主搜索的能力.利用深度强化学习(DRL)模型对邻域搜索算法进行改进,设计了一个新的深度混合型邻域搜索(DHNS)模型来求解带容量的车辆路径问题(CVRP).首先,利用贪婪算法为DRL模型提供初始解;其次,采用指针网络以及Transformer混合编码,利用不同网络的优势,深层次地提取节点特征信息;最后,将修复算子的修复过程转至DHNS模型,自动完成邻域搜索修复解的过程,扩大解空间的自主搜索能力.同时,针对混合编码中复杂传输机制以及解码输出误导性信息的问题,进一步在编码和解码过程中添加AOA (Attention on Attention)机制. AOA负责筛选有价值的信息,过滤不相关或误导性信息,有效刻画了注意力结果和查询之间的相关性,并对节点间的关系进行建模.实验结果表明,DHNS模型在100规模CVRP的优化效果上,优于现有DRL模型和部分传统算法.采用CVRPlib数据集中的算例对该算法的效能进行验证,结果表明,采用DHNS模型能够极大地提升路径问题的优化效能.  相似文献   

13.
针对P2P-SIP框架中资源搜索路径过长的问题,提出了一种基于统计分析的自适应搜索算法.P2P-SIP系统对时延是敏感的,网络变化概率增大或者网络节点数目增多会令时延大幅度延长,该算法根据对收发消息的统计分析,决定是否对资源的路径信息进行发送,从而减少资源的搜索时延,同时通过线性平滑使算法具有一定的容错性.它可以应用于现有的P2P搜索算法中,从而提高现有的P2P搜索算法的效率.理论分析和仿真结果表明,在P2P-SIP环境下该算法具有更好的性能.  相似文献   

14.
为了满足视频聚焦的平滑性要求,提出了一种快速、精确的自适应聚焦搜索算法.首先介绍了应用于视频聚焦的自动聚焦模型,该模型采用基于图像的方法寻找聚焦位置.然后针对于该模型从搜索方向的寻找、自适应步长的选择和聚焦判定机制3个方面进行了聚焦搜索算法的设计.其中步长的自适应选择机制可以有效地解决视频聚焦中的平滑性问题.在几种典型视频序列上的实验结果表明,提出的自适应搜索算法比现有的快速爬山算法以及改进的爬山法,在聚焦速度、抗干扰能力和聚焦平滑性上都有较大的提高.  相似文献   

15.
基于有组织的P2P网络,给出了一个将语义和Chord算法融合的搜索算法,以解决搜索信息的表达能力和负载平衡问题.算法的基本思想是将一个引入超级节点和域组概念的有组织P2P结构作为基于语义的P2P网络的拓扑结构,利用超级节点和相似度思想,使含有相似主题的结点尽可能链接在同一个超级节点上,并利用关键字和语义的二次比较来进行查询定位,实现了在搜索效率和准确性上的相互协调.最后在现有Edutella架构基础上,分别对有组织语义P2P网络和Chord算法进行扩展,构建搜索算法的实验环境.实验表明,该方法提高了P2P系统的搜索成功率和搜索效率.  相似文献   

16.
随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用.主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性.一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关.实验结果证明:所提出主题爬虫方法可以获得很高的精确度.  相似文献   

17.
主题爬虫搜索策略的研究   总被引:1,自引:0,他引:1  
由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,分类细致、精确、更新及时的面向特定主题的垂直搜索引擎便应运而生了。主题网络爬虫是垂直搜索引擎获取数据的自动化程序。以何种策略有效地访问网络资源是主题爬虫研究的主要问题。本文重点对主题爬虫的搜索策略进行研究,并对各种搜索策略进行了比较。  相似文献   

18.
随着互联网技术的发展,网络中包含的信息量承爆炸式增长,如何在数量繁多的信息中找到自己需要的,是一项不小的工程,因此,网络搜索引擎应运而生,随着搜索引擎的发展,越来越多的用户选择使用搜索引擎,但是搜索引擎并不完善,还需要种类繁多的网络爬虫进行辅助。尽管使用了网络爬虫进行辅助,但是为了提高搜索效率,我们需要对采取一些方式来使网络爬虫优先选取那些符合搜索要求的网页,在这种情况下,如何对网络爬虫系统中进行设置来提高URL去重的能力将会对网络爬虫的运行效率产生不小的影响。下文将就如何简单的对URL去重进行阐述。  相似文献   

19.
针对传统BP神经网络受初始权阈值影响大且易陷入局部极值,标准天牛须搜索算法局部搜索能力差、寻优精度低等问题,提出一种自适应步长因子的混沌天牛群算法用于优化BP神经网络分类模型。通过增加天牛种群,引入自适应步长更新策略优化天牛须搜索算法的局部搜索能力,使其跳出局部最优,提高算法的计算精度;利用Logisitic混沌映射产生新个体,替换性能较差的个体,增强全局搜索效果。为了改善BP神经网络对非均衡数据集中少数类的分类效果,采用SMOTE算法处理非均衡数据集。将改进的天牛须搜索算法用于优化BP神经网络中的初始权值和阈值,建立IBAS-BPNN(Improved Beetle Antennae Search and Back Propagation Neural Network)分类模型,提高BP神经网络分类模型的准确率。为验证分类模型的性能,将改进的BP神经网络分类模型与其他六种典型的分类算法进行比较,实验结果表明IBAS-BPNN分类模型的平均分类正确率高于其他算法。改进的混沌天牛群算法泛化能力强,鲁棒性好,具有一定的优越性。  相似文献   

20.
网络舆情已经成为反映当今社会舆情重要组成部分,具有传播速度快、信息多元化等特点.建立舆情检测系统能够对大规模网络数据进行采集、挖掘和分析,对网络舆情热点话题进行及时的发现和追踪,为各单位和组织应对舆情危机提供科学、系统的支持.通过对网络爬虫搜索策略、大规模URL去重、页面识别等技术的研究和改进,实现一个高效、快捷的网络爬虫系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号