共查询到20条相似文献,搜索用时 93 毫秒
1.
基于Rabin指纹方法的URL去重算法 总被引:1,自引:1,他引:1
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法.此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断.实验表明,该算法能有效去除URL集合中重复的URL.提高检索速度. 相似文献
2.
3.
为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入,计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离,代入本文公式,最终得到这两文本的指纹距离;使用指纹对文本对进行初步筛选,对判定为相似的两个文本使用LCS算法进行进一步对比,避免误判,最终实现中文文本快速去重。实验过程中,通过与LCS算法、simhash算法等多种算法的结果进行对比,可以体现该方法在算法精确度方面的优势,同时,该方法的运行速度优势也能较好地支持大数据量文本的去重操作。 相似文献
4.
针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高搜索速度、节省存储空间,增强搜索的精度。 相似文献
6.
唐新宇 《自动化与仪器仪表》2021,(7):34-37
由于时序大数据的体量过大,信息检索工作变得极为困难,因此,需要利用去重算法管理时序大数据.由于传统算法对大数据类别的分类效果不够理想,导致应用去重算法的相关系统性能下降,因此,研究基于贝叶斯模型的时序大数据并行去重算法.该算法预先定义了时序大数据重复度,对冗余数据进行压缩,基于超级特征值检测相似数据,通过贝叶斯模型分类... 相似文献
7.
王海滨 《网络安全技术与应用》2021,(4):37-38
在信息技术的进步下,人们的联系也开始变得更加方便,真正地实现了交流方式快捷便利.在这样的背景下,大数据、云计算等领域都得到了大力的提升.大数据规模的逐渐扩大,让数据在被有效地分析、处理中遇到了挑战,而多维数据去重聚类算法的应用使得数据更好地被分析,降低了采样的复杂度并让数据被分析的准确度有所上升.本文对多维数据在大环境... 相似文献
8.
《计算机应用与软件》2016,(5)
数据去重能消除备份中的冗余数据,节省存储资源和网络带宽,因而成为当前数据存储领域的研究热点。针对常用的块级数据去重技术指纹查询开销高、系统吞吐率低等问题,提出一种批处理块级数据去重方法,通过内存缓冲区对指纹进行排序,实现磁盘索引的顺序查询。同时文件以一种双指针有向无环图的结构存储在系统中,以消除文件读时引起的随机磁盘I/O开销。实验结果表明,该方法有效克服了指纹查询的磁盘I/O瓶颈,提高了数据去重时的系统读写性能。 相似文献
9.
数据去重是大数据预处理过程中最主要的一个步骤。为了提升大数据去重的效率,以及优化其在较差情况下的表现,本文以中文微博的原始数据为基础,在传统的Simhash方法的基础上,改进计算相似度的公式,将文本重复率纳入考虑,并在检索步骤中采用桶排序的思想,进行多次多级的线程分配以提高效率。实验结果表明,改进后的算法可以显著提升传统算法的效率和准确率。
相似文献
10.
末级缓存的性能已成为影响多核处理器整体性能的关键因素.基于多核处理器在处理并行程序时各处理器核访存行为的相似性,提出一种降低访存缺失率的数据预取方法.首先记录各处理器核的访存缺失历史;然后通过分析历史信息预测各处理器核之间末级缓存缺失的关联关系,采用数据预取的方式,在处理器核出现读缺失之前为其末级缓存提供数据块.实验结果表明,对于4核和16核处理器系统,该方法可以分别降低末级缓存缺失率9.8%和18.4%,提高性能4.0%与12.4%. 相似文献
11.
12.
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升. 相似文献
13.
互联网的迅猛发展导致网络中的网页呈指数级别爆炸式增长。为解决在海量网页中寻找信息的问题,搜索引擎成为了人们使用互联网的重要工具。提出了一种基于净化网页的改进消重算法,并将它与传统的消重算法进行了比较。该算法结合关键字搜索和签名(计算指纹)搜索各自的优势来完成网页搜索消重。实验结果证明该方法对网页消重效果很好,提高了网页消重的查全率和查准率。 相似文献
14.
15.
为了匹配超级计算机的整体计算能力,超级计算机存储子系统通常具有良好的I/O性能可扩展性,表现为:应用获得存储子系统最佳性能时的I/O访问并发度,与超级计算机系统总计算核数(可达数万至数百万)通常处于同一数量级.然而,科学计算可视化应用通常使用的进程数(等于I/O访问并发度)相对较小(经验上常设为计算进程数的1%,典型值为数个至数百个),因此无法充分发挥超级计算机存储子系统的最佳I/O性能.提出了一种面向科学计算可视化的两级并行数据读取加速方法,在可视化进程内部引入多线程并行数据读取,通过进程间和进程内两级并行,增加超级计算机存储子系统的I/O访问并发度,提升可视化应用数据读取速率.测试结果表明:在不同的可视化进程规模下,两级并行比单级并行峰值数据读取速率提高33.5%~269.5%,均值数据读取速率提高26.6%~232.2%;随着科学计算应用种类以及应用规模的变化,两级并行数据读取可使可视化应用整体峰值运行速度加速19.5%~225.7%,均值运行速度加速15.8%~197.6%. 相似文献
16.
数据模型常见有层次、网状和关系三种模型,结合《某市农业信息系统》的设计中遇到的层次型报表,该文研究了将层次型模型转化为关系模型的三种方法,最终提出了基于树型存储法的字典目录法数据存储技术,利用该技术实现了系统的成功开发,证明了字典目录法有效性。 相似文献
17.
数据模型常见有层次、网状和关系三种模型,结合《某市农业信息系统》的设计中遭到的层次型报表,该文研究了将层次型模型转化为关系模型的三种方法.最终提出了基于树型存储法的字典目录法数据存储技术。利用谈技术实现了系统的成功开发,证明了字典目录法有效性。 相似文献
18.
数据模型常见有层次、网状和关系三种模型,结合《某市农业信息系统》的设计中遇到的层次型报表,该文研究了将层次型模型转化为关系模型的三种方法,最终提出了基于树型存储法的字典目录法数据存储技术,利用该技术实现了系统的成功开发,证明了字典目录法有效性。 相似文献
19.