共查询到15条相似文献,搜索用时 78 毫秒
1.
2.
赵强 《电脑与微电子技术》2014,(2):19-22
随着Internet的快速发展,越来越多的用户提出与主题或者领域相关的查询需求,而传统通用搜索引擎已经无法满足这一需求。为了克服传统通用搜索引擎的不足,研究者提出面向主题的爬虫。首先给出主题网络爬虫的定义,接着提出主题爬虫的三个关键技术:抓取目标、网页搜索策略和网页主题相关性算法,最后给出主题爬虫在今后的一些研究方向。 相似文献
3.
4.
主题爬虫的设计与实现 总被引:11,自引:2,他引:11
文章以主题相关度为核心研究了设计主题爬虫的相关技术,通过实验给出了具体实现.实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和主题信息采集奠定了良好的基础. 相似文献
5.
定题搜索引擎Robot的设计与算法 总被引:6,自引:0,他引:6
定题搜索引擎将信息检索限定在特定主题领域,提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一。该文介绍了一个定题搜索robot系统NetBat 2.02版,它可以实现在web上爬行下载主题相关网页。定题搜索的关键技术是主题相关信息的搜索及网页相关度分析。该文分析了传统定题搜索算法的优缺点,提出了基于反向链接结合超链文本分析的定题搜索算法。文章还对基于内容的网页相关度分析算法进行了详细的论述。对比搜索实验表明系统有着较好的性能,能准确地爬行到主题相关网页。 相似文献
6.
针对海监执法需求,提出基于ArcGIS Server构建海监执法监测系统.探讨了系统的构建框架和功能目标.针对违法违规用海中违法围填海现象,提出一种高效的遥感影像对比分析监测算法.最后在系统中实现了遥感影像对比分析算法,以期为类似系统开发提供借鉴. 相似文献
7.
化学主题网络爬虫的设计和实现 总被引:1,自引:0,他引:1
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 相似文献
8.
9.
最好优先搜索算法在主题页面附近搜索时能够表现出良好的性能,但算法只关注能"立即回报"的链接而容易遗失那些有远期价值的链接,导致当搜索位置距离主题团较远时容易迷失搜索方向。在最好优先搜索算法基础上,引入了本体帮助主题爬虫识别那些"未来回报"的链接,对抛弃的主题无关链接再基于领域本体进行一次其他主题相关度的判断实验。实验结果表明,基于本体的主题爬虫能够抓取大量主题相关度高的网页,提高了主题资源覆盖率,有效解决了传统算法无法穿过隧道的问题。 相似文献
10.
11.
介绍了一个基于语景图的Web主题爬取器的初步设计。描述了NB分类器的文本学习的向量空间模型——Bemoulli模型及NaiveBayes分类器设计提出了简化的前端队列优先排序的设计方案,即下载文档的归一化文档向量与查询向量的余弦相似度,作为层内下戟文档的排序准则,以便与各层队列中文档的类似然率得分排序进行对比。介绍了自动实现爬取结果与主题分类目录的集成设想。 相似文献
12.
林子皓 《计算机技术与发展》2014,(8):99-102
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。 相似文献
13.
14.
Chen Lijun 《数字社区&智能家居》2008,(Z1)
聚焦爬虫搜集与特定主题相关的页面,为搜索引擎构建页面集。传统的聚焦爬虫采用向量空间模型和局部搜索算法,精确率和召回率都比较低。文章分析了聚焦爬虫存在的问题及其相应的解决方法。最后对未来的研究方向进行了展望。 相似文献
15.
针对互联网信息急剧增多,为了改善网络爬虫的爬行性能和提高爬虫程序的通用性,分析了网络爬虫的原理与架构,设计实现了一种高速多线程网络爬虫程序。该爬虫程序采用多个线程并行处理网页,采用宽度优先和深度优先结合的方式来控制网页爬取深度。实验证明该爬虫程序减少了网页下载过程中的平均等待时间,具有较好的性能。 相似文献