首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于概率的PageRank改进算法   总被引:1,自引:0,他引:1  
通过研究和分析传统的PageRank算法及其不足,在基于用户点击网页内的各个链接的概率是不均等的情况下,提出一种基于概率的PageRank改进算法,该算法可以用于领域搜索引擎的主题相关度预测,可以有效地避免主题漂移现象.  相似文献   

2.
针对传统爬虫方法存在搜索易陷入局部最优,且很少考虑结合历史爬行经验对爬行路径进行修正的缺陷,提出一种基于WL抽样的主题爬行方法。该方法分别使用向量空间模型(VSM)和PageRank算法对链接的相关性和重要性进行评价,采用区域竞争策略从具有主题相关或潜在价值的链接集合中选出目标链接。基于概率密度函数,WL抽样算法对侯选集中选出的目标链接进行抽样判断,根据历史统计经验指导爬虫的后续爬行,从而优化搜索路径。实验结果表明,提出的基于WL抽样的主题爬虫方法比其他主题爬虫方法能搜索到更多主题相关的网页,其爬准率和所有下载网页主题相关度的标准差具有明显优势。  相似文献   

3.
介绍目前较为常用的启发式搜索策略,重点探讨A*搜索策略,在此基础上提出一种改进的基于启发搜索与网页链接和内容相关度结合起来的新型主题搜索算法.最后通过实验对新算法和最好优先以及A*搜索进行比较。  相似文献   

4.
大数据时代的到来,数据格式呈现多样化,对Web数据的处理不仅仅局限在网页链接上,还需要处理无链接结构的文档。如何从海量的文档中获取所需的信息是搜索引擎亟待解决的问题,目前传统的根据索引分析并不能满足这一需求。为了从数百万个结果中选取价值最高的文档子集,提出了新的DocumentRank算法,通过构建衡量文档重要性矩阵来计算查询相关度得分对文档进行排序。最后通过对互联网文档数据集搜索的实验说明,DocumentRank 算法相比Lucene索引技术提高了文档检索的精确度和综合相关度。  相似文献   

5.
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性.  相似文献   

6.
针对某一主题或学科的垂直搜索引擎是搜索引擎的延伸和细分,面向特定用户提供垂直搜索。网页排序算法是搜索引擎好坏的关键,搜索引擎网页排序算法的目的是从海量搜索结果中将主题相关和权威的网页排在前列,帮助用户查找所需的资源。 Nutch搜索引擎只实现了一个基本的综合排序模型,为了使Nutch更好地满足专业用户的需求,该文设计一个综合考虑主题相关性和网页权威性的综合排序模型,将主题相关度因子和改进后的PageRank算法因子融入到Nutch网页评分计算公式中。实验表明,改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。  相似文献   

7.
目的为了有效地预测用户在信息检索过程中可能点击的检索结果,从而进行网页的智能推荐.方法采取网络日志挖掘的技术,通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相结合,以此作为网页推荐的依据.结果提出了一种检索推荐统计模型,并构建了相应的原型系统,实验表明该方法显著提高了推荐系统的准确率.结论这项技术有效地提高了推荐结果与用户信息需求的相关程度,使推荐系统的性能获得了较大地提高,可以很好的应用于信息检索的智能推荐服务领域.  相似文献   

8.
针对目前一般文本搜索引擎采用的关键词匹配方法导致搜索效率相对低下的问题,在分析语义相关性的度量方案基础上,利用Wikipedia丰富链接结构所蕴涵信息,提出基于链接结构分析的主题搜索策略.设计了词条相关性算法,用以描述词间距离,并对词条进行相关度的重新排序.实验中引入用户评价机制,并与传统策略搜索结果进行对比.结果证明,该策略在扩大主题覆盖度的同时保证了较高的用户意图识别度.  相似文献   

9.
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息,与通用爬虫不同的是,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
  本文设计了聚焦网络爬虫系统的四个模块的进行设计研究,系统结构基于Heritrix架构,采用广度优先爬行策略和多线程调度策略,实现了用户对于特定信息的检索。  相似文献   

10.
随着近年来互联网信息的爆炸式增长,通用网络爬虫成为人们获取信息的有效手段。但其查准率却无法保证。针对此问题,提出一种基于改进BM25算法和SVM算法的聚焦爬虫,用于解决通过网络爬虫的缺点。聚焦爬虫分为网页爬取模块、网页预处理模块和网页关联性评价模块三部分。网页爬取模块以URL种子集合为初始集合负责网页信息的爬取。网页预处理模块采用改进BM25算法提取网页信息的主题特征向量。网页关联性评价模块采用SVM算法对主题特征向量进行分类,获取和用户检索主题相关的网页信息。实验结果表明,本文的方法在网页抓取的查准率上都取得良好的效果。  相似文献   

11.
已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。  相似文献   

12.
在HITS算法的基础上应用蚁群算法的主要思想,对网页按关键字搜索后被点击的次数进行统计,结合相关内容提出了一种新的搜索算法—基于蚁群算法的改进HITS算法.实验表明,该算法在使得返回结果中相关度较高的网页通过人们的自主选择获得了不同程度的加权,使得其在查准率及解决HITS算法的主题漂移方面都优于传统HITS算法.  相似文献   

13.
在HITS算法的基础上应用蚁群算法的主要思想,对网页按关键字搜索后被点击的次数进行统计,结合相关内容提出了一种新的搜索算法—基于蚁群算法的改进HITS算法.实验表明,该算法在使得返回结果中相关度较高的网页通过人们的自主选择获得了不同程度的加权,使得其在查准率及解决HITS算法的主题漂移方面都优于传统HITS算法.  相似文献   

14.
基于HTML结构特征的网页信息提取   总被引:1,自引:0,他引:1  
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。  相似文献   

15.
面向制造网络的节点发现技术研究   总被引:2,自引:0,他引:2  
为了提高制造资源和服务的发现准确性,提出了一种基于互联网的制造网络节点发现方法.制造主
题节点内容和结构存在相似的特点,从网络节点的文本中抽取反映节点主题的结构和内容特征词,采用
不同的加权方法表示为内容和结构特征信息,建立描述节点主题的混合向量空间模型.在此模型的基础上
,通过类中心距离法来分析和识别节点的主题,并利用网络搜索、信息处理等技术构建了制造节点发现
的实验原型系统.实验结果表明,混合向量空间模型适合描述制造主题的节点,原型系统对制造节点的发
现准确性较高  相似文献   

16.
基于SRI的动态网页信息抽取方法   总被引:1,自引:0,他引:1  
提出了基于相似记录项归纳的动态网页信息抽取方法.该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树.对各种类型网页进行信息抽取实验,取得98.11%的召回率和96.90%的准确率.  相似文献   

17.
一种嵌入分布信息的Web文档相似性度量   总被引:1,自引:1,他引:0  
Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的均值和方差,并将之引入到网页的相似性计算中,提出了一种直接嵌入分布信息的新的网页相似性度量方法.该方法因合理利用单词的出现频率及其分布信息,可有效改进和拓展经典的网页相似性度量策略.实验结果表明,该网页相似性度量方法是有效可行的.  相似文献   

18.
首先分析了传统HttpClient方式进行网页信息抓取时的不足,进而讨论了HTMLUNIT技术对富JavaScript页面的支持、获取Ajax技术页面的异步数据和需要模拟交互的页面数据的机器自动抓取问题,并给出实例和实现。进行了HTMLUNIT与流行浏览器内核JavaScript解析速度的对比性试验,最后得出了分析结论。  相似文献   

19.
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给多媒体内容的检索,信息提取等计算机处理带来了巨大困难。针对信息提取后,网页的多媒体内容的不一致性,本文提出了一种Web网页多媒体信息提取的融合算法。该算法通过对图像和文本的语义融合,判断信息提取后的网页中的各种形态的内容是否一致,并通过网页中的文字更加准确地表示图片所传达的内容。对来自30个网站的307个网页进行测试后的实验表明,本文提出的方法是可行的。  相似文献   

20.
一种图像主题网络爬虫的实现方法研究   总被引:1,自引:0,他引:1  
针对一种图像主题爬虫进行了设计研究,采用了基于文字内容的启发式方法,实现了借助图像文件的锚文本及其上下文进行主题相关性判定,能更准确的抓取相关图像资源.还对网页实现了主题相关性判定,以便更有效地引导爬虫的爬行路经.经实验证明,本系统可起到一定的优化效果,为实现定向主题的图像信息采集奠定了良好的基础.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号