首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
Internet用户通过常用搜索引擎获取Web信息时,往往得到了大量的重复网页信息,从而导致搜索效率不高.本文利用MD5算法成熟及可移植性好的特点,提出了一种基于MD5的消除重复网页的算法,实验证明该算法能有效的去除重复网页,时间和空间的复杂度不高,具有较强的实用价值.  相似文献   

2.
用户进行Web信息检索时,网络往往返回大量的近似网页(可看作重复网页)。针对搜索引擎查询Web信息所存在的局限性,考虑到基于关键词匹配的搜索引擎系统的特点,结合使用网页的向量空间模型,采用以下算法快速、有效地发现WWW上的重复或相似网页,提高检索效率。首先采用MD5算法(信息-摘要算法)提取返回文本的信息摘要。MD5将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生了一个唯一的MD5信息摘要。MD5以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组…  相似文献   

3.
随着网页篡改问题的日趋严峻,网页篡改检测技术成为近年来的研究热点。Hash函数校验是目前网页篡改检测任务中常用的一种方法,其中,MD5算法是应用最为广泛的Hash检验函数。然而,在使用MD5算法对网页内容进行校验时,网页内容篡改前后所对应的Hash值存在一定的碰撞问题。针对上述问题,提出了一种面向网页篡改检测的混沌MD5算法,通过基于明文分组的动态参数模型对传统MD5算法的静态参数进行优化,并采用整数帐篷映射对明文分组进行多次迭代,增强算法的抗碰撞性。实验表明,和传统MD5算法相比,混沌MD5算法的Hash值绝对距离与理想值的偏差率减小了0.6047‰,有效降低了网页篡改检测过程中的Hash值碰撞概率。  相似文献   

4.
基于MD5算法计算数字指纹的网页消重算法简单而高效,在网页消重领域应用比较广泛。但是由于MD5算法是一种严格的信息加密算法,在文章内容变动很少的情况下得出的指纹结果完全不同,导致基于这种算法的网页消重技术召回率不是很高。提出了两种基于字集特征向量的网页消重改进算法,把文章内容映射到字集空间中去,计算字集空间距离来判断文章是否相似。提出的算法具有良好的泛化能力,段落中存在的调整语序和增删改个别字不会影响到对相似段落的识别,大大提高了网页消重算法的召回率。实验结果表明,算法的时间复杂度为[O(n)],空间复杂度为[O(1)],适合应用于大规模网页消重。  相似文献   

5.
当前的网页重复信息抽取方法缺少信息分类步骤,导致传统方法存在抽取全面率低、重复信息比例高以及整体性能差的问题.于是提出基于模式识别算法的网页重复信息抽取方法.利用类间平衡因子和词频获取网页信息的互信息特征.在关联规则的基础上根据网页置信度向量化互信息特征,完成网页信息特征的提取.利用模式识别中的支持向量机对网页信息分类...  相似文献   

6.
用信息-摘要算法提高Web信息检索效率的研究   总被引:1,自引:0,他引:1  
杨文忠  章兢 《微机发展》2006,16(6):222-223
针对常用搜索引擎返回给用户的信息中包含大量重复网页的缺陷,提出了一种基于信息-摘要算法的去除重复网页算法。由于算法的成熟,该算法易实现,可移植性强。实验证明该算法能有效地去除常用搜索引擎返回的重复网页,从而为Internet用户提高信息检索效率,具有较强的实用价值。  相似文献   

7.
针对小文本的Web数据挖掘技术及其应用   总被引:4,自引:2,他引:4  
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。  相似文献   

8.
用信息-摘要算法提高Web信息检索效率的研究   总被引:1,自引:0,他引:1  
针对常用搜索引擎返回给用户的信息中包含大量重复网页的缺陷,提出了一种基于信息-摘要算法的去除重复网页算法。由于算法的成熟,该算法易实现,可移植性强。实验证明该算法能有效地去除常用搜索引擎返回的重复网页,从而为Intenret用户提高信息检索效率,具有较强的实用价值。  相似文献   

9.
该文采用MD5算法,设计了一种网页保护系统,能够有效对网页脚本文件和数据库进行监控,对篡改进行及时恢复。  相似文献   

10.
基于HTML标记和长句提取的网页去重算法   总被引:1,自引:0,他引:1  
提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。  相似文献   

11.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。  相似文献   

12.
内存预拷贝迁移在密集型负载下存在内存脏页反复传输的问题,导致迭代轮数较多且大幅降低了内存预拷贝迁移的整体性能。脏页概率预测能够有效减少内存脏页反复传输的现象,然而现有脏页概率预测研究都只关注时间相关性而未考虑内存之间的空间相关性。针对该问题,提出一种基于内存关联分析的预拷贝迁移策略。通过脏页率对脏页下一轮变脏概率进行预测,设计Memory_cor算法计算出脏页的关联规则和关联内存页,避免变脏概率大的内存页及其关联内存页传输。实验结果表明,该策略在总迁移时间和停机时间上优于Xen预拷贝迁移方法。  相似文献   

13.
蒋华  殷波 《计算机应用》2009,29(2):403-405
针对重复网页的去重问题,对两种重复词句提取算法进行了系统分析比较。STC算法在时间成本上具有优秀性能,重复序列的倒排索引方法在空间复杂度方面更胜一筹。结合STC算法对重复序列方法进行了改进,而面向主题转载的重复网页,先抽取重复串,然后将重复串作索引进行STC算法的重复抽取。实验结果表明,改进算法在保持了原有空间特性的基础上极大地提高了时间效率。  相似文献   

14.
针对内存预拷贝过程中迁移时间较长和内存页反复重传的特点,改进传统的内存动态迁移机制,引入马尔科夫预测模型,提出基于脏页概率预测的工作集测定算法.利用脏页的历史操作访问情况预测其下一轮迭代被修改的概率,只传输预测概率较低的页.实验结果表明,该算法缩短了迁移总时间和停机时间,能有效支持虚拟机动态迁移.  相似文献   

15.
黄亮  赵泽茂  梁兴开 《计算机应用》2012,32(6):1662-1665
Div+CSS流行于Web页面的布局,在这种布局下,网页中很多数据记录以重复结构的形式聚集在一个层级。为了更好地从网页中挖掘数据,提出了一种新的Web数据挖掘算法,把树编辑距离转化为字符串编辑距离的计算,改进字符串编辑距离算法,利用字符串编辑距离评价树的相似度,进而找到网页中的重复模式,提取数据。通过针对不同重复模式特征的网页的实验说明,基于编辑距离的Web数据挖掘算法不仅能提取具有根节点及上面几层相同的网页的数据,对具有底层节点相同的网页也是有效的。  相似文献   

16.
目前主要是通过基于URL(Uniform Resource Locator)、关键词、图片等网页内容为特征的机器学习方法进行不良网站检测.但是,不良网站制作者也会通过更换URL,避免常见不良关键词的使用,对搜索爬虫隐藏图片等做法来规避检测,这使得基于内容的检测方法会有漏检的情况.为了更准确的检测出此类网站,本文提出了注册、解析方面的相关特征,并通过最主流的机器学习方法构建了检测模型.用模型预测新数据集,结果证明,基于解析和注册特征的检测方法可以有效的在网站集合中检测出前文提到的不良网站,并且对于一般不良也依然能够准确识别.本次研究为不良网站的检测研究提供了又一思路.  相似文献   

17.
MD5算法是目前比较安全且易用的加密算法,其在密码领域有着举足轻重的地位.本文通过介绍MD5算法的特点及加密原理,分析了MD5算法在用户口令认证中的安全隐患,给出了用户口令认证应用中如何提高MD5算法安全性的措施和方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号