首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 129 毫秒
1.
主题搜索引擎中网络爬虫的搜索策略研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。  相似文献   

2.
主题爬虫的搜索策略研究   总被引:10,自引:2,他引:8  
主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率.针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容.  相似文献   

3.
主题网络蜘蛛的搜索策略是主题搜索引擎的核心部分,是近年来主题搜索引擎研究中的热点问题之一。深入研究了主题网络蜘蛛的关键技术,阐述了多线程网络蜘蛛的实现过程,并对传统的VSM算法和PageRank算法进行了改进,提高了主题网络蜘蛛采集信息的有效性和准确性。  相似文献   

4.
根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题爬虫通道堵塞,抓取遗漏的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阈值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。最后根据实验结果验证了算法的查全率与查准率,查全率有显著的提高。  相似文献   

5.
严磊  马勇男  丁宾  郑涛 《福建电脑》2013,29(3):83-85
21世纪的今天,网络信息量呈几何倍数的增长。传统的通用搜索引擎已经不能很好的满足我们对特定信息的需求。所以,针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务的垂直搜索引擎应运而生。而主题网络爬虫则是为垂直搜索引擎提供数据的自动化程序。本文主要研究了主题爬虫的各种搜索策略,指出了其中的劣以及最后对将来的发展做出了一个展望。  相似文献   

6.
随着Internet的快速发展,越来越多的用户提出与主题或者领域相关的查询需求,而传统通用搜索引擎已经无法满足这一需求。为了克服传统通用搜索引擎的不足,研究者提出面向主题的爬虫。首先给出主题网络爬虫的定义,接着提出主题爬虫的三个关键技术:抓取目标、网页搜索策略和网页主题相关性算法,最后给出主题爬虫在今后的一些研究方向。  相似文献   

7.
主题网络爬虫研究综述   总被引:3,自引:0,他引:3       下载免费PDF全文
网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。关键词:  相似文献   

8.
针对目前主题爬虫采用"启发式"搜索策略出现的"近视"缺点,提出了一种基于蚁群算法的主题爬虫搜索策略。该方法将蚁群算法引入到主题爬虫的搜索策略中,并对蚁群算法中信息素的更新计算进行了改进,使其具有一定的自适应性。通过与其他搜索策略的比较实验,结果表明该算法能够更好地提高爬虫的全局搜索能力。  相似文献   

9.
通过比较普通爬虫与主题爬虫,以主题相关性为核心设计搜集数码产品信息的主题爬虫。提出相似度和PageRank相结合的排序算法,从而保证所搜集网页的主题相关性,切返用户之需,为主题搜索引擎的实现奠定了良好的基础。  相似文献   

10.
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。  相似文献   

11.
基于WEB的面向主题搜索引擎的设计与实现   总被引:3,自引:2,他引:3  
针对目前通用搜索引擎所搜索到的结果过多、与主题相关性不强的情况,提出了面向主题的搜索引擎,并从系统结构方面将系统划分为特征提取、存取分析以及搜索控制等3个子系统,并给出了其具体的实现策略。  相似文献   

12.
基于Ajax与向量空间模型的个性化搜索引擎   总被引:1,自引:0,他引:1       下载免费PDF全文
针对个性化搜索的三个关键问题:用户信息搜集,用户信息库的动态更新与个性化检索算法,探索性地提出了基于Ajax用户行为跟踪方案,以会话为单位动态更新用户行为信息库策略与加入用户文档的向量空间检索模型,在此基础上设计并实现了个性化搜索引擎实验系统。  相似文献   

13.
基于语义分析的垂直搜索网络蜘蛛   总被引:1,自引:0,他引:1  
通用搜索引擎数据量庞大,但查询结果不够准确.分类目录正好相反.为了综合两者优势,对垂直搜索引擎进行了研究和分析.着重研究了垂直搜索引擎的核心模块--智能网络搜索蜘蛛.提出了搜索分析的新概念--规则.研究了蜘蛛中定义支持同义词的语义词典的方法,给出了按照规则分析和检索的实现方法和流程.程序需要定义多种规则,让蜘蛛依照规则进行网页爬行和信息采集.最后给出一个项目实例,证明了上述方法的可行性.  相似文献   

14.
企业网站若想取得好的营销效果,就要提高自己在搜索引擎上的排名.而排名的好坏需要站长的主动出击,以及营销团队与网站策划开发与维护团队的紧密配合.方法主要有主动登陆搜索引擎、被动等待搜索引擎的收集以及积极的利用搜索引擎的推广功能.多管齐下才能取得更好的效果.  相似文献   

15.
搜索引擎PageRank算法的改进   总被引:2,自引:1,他引:1       下载免费PDF全文
为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法。在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简洁性。实验结果证明该改进算法能有效减少主题漂移现象,恰当提升新网页PageRank值。  相似文献   

16.
基于类别空间模型的文本分类系统的设计与实现   总被引:9,自引:1,他引:8  
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。  相似文献   

17.
传统的DHT-P2P系统有一定的局限性,如基于单特征词搜索,计算机不理解用户搜索请求的含义等。对基于本体的P2P复杂搜索进行了研究。应用向量空间模型理论去描述文档,同时对P2P标识符空间进行分割,使相似文档在邻近的节点范围内聚集,不但解决了多特征词复杂搜索的问题,而且提高了搜索的速度。利用本体知识的帮助去理解用户的搜索请求,合理扩大搜索范围,避免搜索结果出现遗漏。实验结果表明,依据该理论构建的仿真系统实现了复杂搜索,搜索速度较快,提高了查全率,且节点达到了较好的负载平衡。  相似文献   

18.
随着云存储服务的发展,越来越多的数据拥有者选择将数据外包给云服务商存储。为了保证数据的安全性,云服务器上的数据应该以密文形式存储。现有的多关键词密文检索技术不能兼顾准确性和安全性的问题,提出一种利用改进的向量空间模型和同态加密技术进行多关键词检索的方案。性能分析表明该方案能够有效地解决密文的多关键词检索问题。  相似文献   

19.
根据专业搜索引擎的特点,提出了一种新颖的基于词语共现与HITS算法的查询推荐算法QR-CH(Query Recommendation algorithm based on word Co-occurrence and HITS algorithm)。该算法一方面利用HITS算法对基于词语共现筛选出的关联词按语义关联性进行排序,选取排序靠前的关联词作为推荐词,提高了推荐词与原查询词的相关性;另一方面使用HITS算法排序关联文档,从查询结果文档集的角度来判断推荐是否冗余,降低了推荐词的冗余性。该算法将推荐相关的信息存储到知识树中,利用知识树实现查询推荐。实验结果表明QR-CH算法在推荐词的相关性和冗余词的判断方面均优于文献中已有的类似算法。  相似文献   

20.
网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术.通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度.多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号