首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 138 毫秒
1.
片段缓存机制是加速动态网页分发的有效解决方案之一,但是实施片段缓存需要有效的共享片段检测机制。针对这种情况,提出了一种高效的共享片段检测算法,介绍了基于片段缓存的动态网页传送模型。该模型能够自动识别共享片段和有效的缓存单元,更好地消除冗余数据,提高缓存命中率。实验和分析表明,与现有方案ESI和Silo相比,该模型能够有效节约带宽,缩短用户请求的响应时间。  相似文献   

2.
在轮廓编组计算模型中,编组元的提取对于轮廓编组结果具有重要的影响。针对复杂场景中目标轮廓易与非目标边缘混淆的问题,提出了一种基于全局运动对比度的编组元提取算法。提出了基于边缘片段的运动相似度度量方法,并通过相似度定义了场景中的全局运动对比度,以此对非目标边缘片段进行抑制,从而提取出更为有效的目标轮廓边缘片段构成编组元集合。在Moseg_dataset数据集上的实验结果证明,提出的全局运动对比度对于非目标边缘片段具有良好的鉴别能力,相比较目前轮廓编组计算模型中基于边缘检测和轮廓检测的编组元提取算法,该算法显著降低了编组元集合的规模,提高了编组元集合的有效性。在相同的轮廓编组算法中,该算法提取的编组元集合能取得更优的编组结果。  相似文献   

3.
海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测.提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对.在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对.  相似文献   

4.
搜索引擎索引网页集合选取方法研究   总被引:2,自引:0,他引:2  
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求.  相似文献   

5.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。  相似文献   

6.
基于多领域本体信息检索的主要问题之一是如何将网页准确地划分到本体,即判断网页与本体的关系。笔者提出了基于Floyd算法的网页与多领域本体的匹配算法,主要思路是先利用Rough集理论对从网页中抽取的关键字进行属性约简,得到最小属性集合,再查找该集合所有元素的同近义词集合且匹配出两者的共同关键字,得到最终的关键字集合,并将其映射到本体无向图上,接着利用Floyd算法计算出共同关键字与多本体的最短路径及其加权值,最后通过相关度与初始阈值的大小关系判断网页与本体的归属情况。笔者通过与其他算法进行对比实验验证了本算法的可行性和合理性,且时间和空间复杂度相对较小。  相似文献   

7.
随着Web技术的迅速发展,动态和个性化网页的比重日益增加,而传统缓存一般只适用于静态内容,难以减少获取动态网页所需的流量和延时代价。为了更有效地分发动态网页,人们提出了各种动态内容加速方案。文中研究了典型的动态网页分发加速方法,并对相关的加速技术进行了分析和比较。针对ESI和CDE这两种技术的优缺点,提出基于共享片段的动态网页分发加速模型。实验结果表明,与ESI和CDE相比,该模型可以节省更多的带宽,减少更多的延时。  相似文献   

8.
细胞核自动检测既是病理图像分析技术的重要步骤,也是提高病理图像自动化分析准确性的主要瓶颈之一,原因在于病理切片制作存在染色分层不均、细胞核粘连或重叠等问题。为了提高细胞核检测的准确度,定义了一种基于多曲率轮廓的细胞核自动检测模型,通过多曲率方向能量滤波器提取细胞核轮廓信息。特征检测器基于boosting算法,利用不同曲率和方向轮廓特征的完备集合产生像素软分类器,获得像素的前景背景置信度和概率。最后利用均值漂移算法得到细胞核中心位置及其置信度。实验结果表明,该算法与其他细胞核检测算法相比,在生物组织结构变异、不均匀光照或染色条件下,以及细胞核粘连或部分重叠等情况下,有着较强的鲁棒性。  相似文献   

9.
基于数据区域发现的信息抽取规则生成方法   总被引:2,自引:2,他引:0       下载免费PDF全文
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。  相似文献   

10.
基于HTML标记和长句提取的网页去重算法   总被引:1,自引:0,他引:1  
提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。  相似文献   

11.
Automatic fragment detection in dynamic Web pages and its impact on caching   总被引:2,自引:0,他引:2  
Constructing Web pages from fragments has been shown to provide significant benefits for both content generation and caching. In order for a Web site to use fragment-based content generation, however, good methods are needed for fragmenting the Web pages. Manual fragmentation of Web pages is expensive, error prone, and unscalable. This paper proposes a novel scheme to automatically detect and flag fragments that are cost-effective cache units in Web sites serving dynamic content. Our approach analyzes Web pages with respect to their information sharing behavior, personalization characteristics, and change patterns. We identify fragments which are shared among multiple documents or have different lifetime or personalization characteristics. Our approach has three unique features. First, we propose a framework for fragment detection, which includes a hierarchical and fragment-aware model for dynamic Web pages and a compact and effective data structure for fragment detection. Second, we present an efficient algorithm to detect maximal fragments that are shared among multiple documents. Third, we develop a practical algorithm that effectively detects fragments based on their lifetime and personalization characteristics. This paper shows the results when the algorithms are applied to real Web sites. We evaluate the proposed scheme through a series of experiments, showing the benefits and costs of the algorithms. We also study the impact of using the fragments detected by our system on key parameters such as disk space utilization, network bandwidth consumption, and load on the origin servers.  相似文献   

12.
基于概念的网页相似度处理算法研究   总被引:4,自引:0,他引:4  
郭晨娟  李战怀 《计算机应用》2006,26(12):3030-3032
针对海量网页信息,提出适于搜索引擎使用的网页相似度处理算法。算法依据网页抽象形成的概念,在倒排文档基础上建立相似度处理模型。该模型缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为优化相似度计算奠定了良好基础。  相似文献   

13.
改进的基于布尔模型的网页查重算法*   总被引:2,自引:0,他引:2  
提出一种基于布尔模型的网页查重算法,利用布尔模型寻找适当的特征,建立索引以减少网页文档之间的比较次数.实验验证了这种算法的性能,并取得了较好的效果.  相似文献   

14.
基于统计学习的挂马网页实时检测   总被引:1,自引:0,他引:1  
近年来挂马网页对Web安全造成严重威胁,客户端的主要防御手段包括反病毒软件与恶意站点黑名单。反病毒软件采用特征码匹配方法,无法有效检测经过加密与混淆变形的网页脚本代码;黑名单无法防御最新出现的恶意站点。提出一种新型的、与网页内容代码无关的挂马网页实时检测方法。该方法主要提取访问网页时HTTP会话过程的各种统计特征,利用决策树机器学习方法构建挂马网页分类模型并用于在线实时检测。实验证明,该方法能够达到89. 7%的挂马网页检测率与0. 3%的误检率。  相似文献   

15.
网络钓鱼Web页面检测算法   总被引:4,自引:0,他引:4       下载免费PDF全文
网络钓鱼(Phishing)攻击在电子商务和电子金融中普遍存在。该文分析Phishing页面敏感特征,提出一种防御Phishing攻击的Web页面检测算法。该算法通过分析Web页面的文档对象模型来提取Phishing敏感特征,使用BP神经网络检测页面异常程度,利用线性分类器判断该页面是否为Phishing页面。该算法成功过滤了Phishing页面,有效地阻止了Phishing攻击。  相似文献   

16.
刘强  郭景峰 《微机发展》2007,17(1):151-154
已有的基于访问路径分析的页面推荐系统大多由离线处理和在线处理两部分组成,由于其周期性离线处理的过程较为耗时,难以适应大型网站以及内容更新频繁的网站的需要。提出了一种新的基于用户访问路径分析的页面推荐模型。该模型采用在线处理方式,利用增量图划分方法形成页面聚类,依此生成动态页面推荐。模型以Apache模块的形式实现,可适用于大型网站以及内容更新频繁的网站。实验结果表明,该模型具有较好的整体性能。  相似文献   

17.
基于正文结构和长句提取的网页去重算法*   总被引:3,自引:0,他引:3  
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。  相似文献   

18.
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号