首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。  相似文献   

2.
主题网络爬虫研究综述   总被引:3,自引:0,他引:3       下载免费PDF全文
网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。关键词:  相似文献   

3.
随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统,基于网页内容和基于链接分析的爬虫系统的查准率、查全率都大幅度地提升;最后分析比较了主题网络爬虫两种动态搜索策略并指出了未来研究方向。  相似文献   

4.
随着网络信息的迅速增长以及深层网络结构的广泛应用,人们对于覆盖率广、检索效率高的搜索引擎提出了愈来愈高的要求.据此,论文提出了一种两阶段的搜索引擎设计方案.在第一阶段利用网络爬虫爬取相关的网络信息,并构成词条语料库,在第二阶段基于TF-IDF算法搜索词条语料库,得到与待查询语句最相近的词条.该引擎利用Flask框架构建...  相似文献   

5.
化学主题网络爬虫的设计和实现   总被引:1,自引:0,他引:1  
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。  相似文献   

6.
为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法.利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题.将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好.  相似文献   

7.
本文依据主题爬虫原理,分析了现有的Hits算法的不足,从而提出了一种新的多主题爬虫算法:MT-Hits算法,并进行了实现。实验表明,基于MT-Hits算法的主题爬虫查询收获率比基于Hits算法主题爬虫收获率有了进一步提高,且方便更改下载主题。  相似文献   

8.
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。  相似文献   

9.
基于单类别文档分类的主题爬虫   总被引:1,自引:0,他引:1       下载免费PDF全文
主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text。实验结果充分证明了该主题爬虫的可行性。  相似文献   

10.
通过比较普通爬虫与主题爬虫,以主题相关性为核心设计搜集数码产品信息的主题爬虫。提出相似度和PageRank相结合的排序算法,从而保证所搜集网页的主题相关性,切返用户之需,为主题搜索引擎的实现奠定了良好的基础。  相似文献   

11.
李镇君  周竹荣 《计算机应用》2015,35(12):3506-3510
针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的重要内容,或者反映了用户的兴趣。因此,赋予用户标注词项更大的权重,将文档评分和用户的标注信息等作为因子引入到TF-IDF中,设计出改进的加权算法DT-TF-IDF。实验结果表明,相对传统TF-IDF算法,DT-TF-IDF的查全率、查准率,以及查准率和查全率的调和均值都有了一定的提高。DT-TF-IDF算法比传统TF-IDF算法更加有效,提高了文本相似度计算的准确性。  相似文献   

12.
章宁  陈钦 《计算机应用》2018,38(10):3042-3047
针对目前P2P贷款违约预测模型受限于借贷双方信息不对称性,未考虑投资人之间差异性的问题,提出了基于信息检索词频-逆文本频率(TF-IDF)算法的P2P贷款违约预测模型。首先以投资效用理论为基础,利用投资人历史投资收益率、贷款利率出价等信息,建立基于投资人效用的贷款违约预测模型;然后,借鉴信息检索TF-IDF算法,构造投资人逆向投资比例因子,对投资人差异性进行量化度量,优化模型中投资人权重计算因子。实验结果表明,该模型预测准确度与其他模型相比平均提高了6%左右,并在不同的测试数据集上都保持最优。  相似文献   

13.
孙向琨  邓伟 《计算机工程》2011,37(19):189-190,197
提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法对歌词内容分类错误的类别标记进行修正。选用396首英文歌曲对该算法进行测试,结果表明,与其他方法相比,该方法能使分类精确度从69%提高到74%。  相似文献   

14.
在领域主题爬虫中,为提高网页爬取的效率和准确性,将扩展主题特征库(extended topic feature library,ETFL)引入进爬虫的网页过滤算法中。将网页抽象为标签块节点集,通过主题特征库扩展算法对静态特征项进行扩充生成扩展主题特征库,利用网页主题特征项提取算法从页面中抽取出特征项,在爬虫抓取网页的过程中,通过基于扩展主题特征库的网页相关性判断方法对页面进行过滤。该算法弥补了传统的基于静态关键词项的网页过滤算法对页面语义层次处理的缺失。实际项目运行结果表明,在领域主题爬虫中引入扩展主题库能够有效提高网页抓取精度,具有较高可用性。  相似文献   

15.
基于改进网络爬虫技术的SQL注入漏洞检测*   总被引:5,自引:1,他引:4  
网络爬虫在搜索引擎领域广泛使用,SQL注入漏洞检测属于Web服务和数据库安全的范畴。为了提高网站的安全性,及时、有效地发现网站存在的SQL注入漏洞,改进了现有的网络爬虫技术,应用到对网站SQL注入漏洞的检测中,丰富了检测的手段,降低了检测的漏报率。最后通过实验证明了该技术的可行性。  相似文献   

16.
FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在Fas...  相似文献   

17.
郝宁  夏士雄  牛强  赵志军 《计算机应用》2015,35(11):3122-3125
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法.该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化.在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率.  相似文献   

18.
基于隐马尔可夫模型的文本分类算法   总被引:2,自引:0,他引:2  
杨健  汪海航 《计算机应用》2010,30(9):2348-2350
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。  相似文献   

19.
杨宏宇  王玥 《计算机应用》2018,38(2):343-347
针对现有云存储环境下多关键字密文搜索方法效率较低、缺乏自适应能力的问题,提出一种基于改进质量层次聚类的加密云数据多关键字排序搜索(MRSE-IQHC)方法。首先,采用词频-逆向文件频率(TF-IDF)方法和向量空间模型(VSM)构建文件向量;然后,提出一种改进质量层次聚类(IQHC)算法对文件向量聚类,构建文件索引和聚类索引;其次,采用K最近邻(KNN)查询算法对索引加密;最后,采用用户自定义关键字权值的方法构建搜索请求并在密文状态下搜索出前k个最相关的文件。实验结果表明,该方法与加密的云数据多关键字排序搜索(MRSE)方法以及基于层次聚类索引的加密数据多关键字排序搜索(MRSE-HCI)方法相比,在相同的搜索文件数量、返回文件数量、搜索关键字数量条件下搜索时间平均缩短了44.3%和34.2%、32.4%和13.2%、36.9%和19.4%,准确率提升了10.8%和8.6%。所提方法在云存储环境下的多关键字密文搜索中具有较高的搜索效率和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号