共查询到18条相似文献,搜索用时 138 毫秒
1.
2.
在轮廓编组计算模型中,编组元的提取对于轮廓编组结果具有重要的影响。针对复杂场景中目标轮廓易与非目标边缘混淆的问题,提出了一种基于全局运动对比度的编组元提取算法。提出了基于边缘片段的运动相似度度量方法,并通过相似度定义了场景中的全局运动对比度,以此对非目标边缘片段进行抑制,从而提取出更为有效的目标轮廓边缘片段构成编组元集合。在Moseg_dataset数据集上的实验结果证明,提出的全局运动对比度对于非目标边缘片段具有良好的鉴别能力,相比较目前轮廓编组计算模型中基于边缘检测和轮廓检测的编组元提取算法,该算法显著降低了编组元集合的规模,提高了编组元集合的有效性。在相同的轮廓编组算法中,该算法提取的编组元集合能取得更优的编组结果。 相似文献
3.
海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测.提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对.在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对. 相似文献
4.
搜索引擎索引网页集合选取方法研究 总被引:2,自引:0,他引:2
随着互联网的快速发展,网页数量呈现爆炸式增长,其中充斥着大量内容相似的或低质量的网页.对于搜索引擎来讲,索引这样的网页对于检索效果并没有显著作用,反而增加了搜索引擎索引和检索的负担.提出一种用于海量网页数据中构建搜索引擎的索引网页集合的网页选取算法.一方面使用基于内容签名的聚类算法对网页进行滤重,压缩索引集合的规模;另一方面融合了网页维度和用户维度的多种特征来保证索引集合的网页质量.相关实验表明,使用该选取算法得到的索引网页集合的规模只有整个网页集合的约1/3,并且能够覆盖绝大多数的用户点击,可以满足实际用户需求. 相似文献
5.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。 相似文献
6.
《信息与电脑》2018,(2)
基于多领域本体信息检索的主要问题之一是如何将网页准确地划分到本体,即判断网页与本体的关系。笔者提出了基于Floyd算法的网页与多领域本体的匹配算法,主要思路是先利用Rough集理论对从网页中抽取的关键字进行属性约简,得到最小属性集合,再查找该集合所有元素的同近义词集合且匹配出两者的共同关键字,得到最终的关键字集合,并将其映射到本体无向图上,接着利用Floyd算法计算出共同关键字与多本体的最短路径及其加权值,最后通过相关度与初始阈值的大小关系判断网页与本体的归属情况。笔者通过与其他算法进行对比实验验证了本算法的可行性和合理性,且时间和空间复杂度相对较小。 相似文献
7.
随着Web技术的迅速发展,动态和个性化网页的比重日益增加,而传统缓存一般只适用于静态内容,难以减少获取动态网页所需的流量和延时代价。为了更有效地分发动态网页,人们提出了各种动态内容加速方案。文中研究了典型的动态网页分发加速方法,并对相关的加速技术进行了分析和比较。针对ESI和CDE这两种技术的优缺点,提出基于共享片段的动态网页分发加速模型。实验结果表明,与ESI和CDE相比,该模型可以节省更多的带宽,减少更多的延时。 相似文献
8.
细胞核自动检测既是病理图像分析技术的重要步骤,也是提高病理图像自动化分析准确性的主要瓶颈之一,原因在于病理切片制作存在染色分层不均、细胞核粘连或重叠等问题。为了提高细胞核检测的准确度,定义了一种基于多曲率轮廓的细胞核自动检测模型,通过多曲率方向能量滤波器提取细胞核轮廓信息。特征检测器基于boosting算法,利用不同曲率和方向轮廓特征的完备集合产生像素软分类器,获得像素的前景背景置信度和概率。最后利用均值漂移算法得到细胞核中心位置及其置信度。实验结果表明,该算法与其他细胞核检测算法相比,在生物组织结构变异、不均匀光照或染色条件下,以及细胞核粘连或部分重叠等情况下,有着较强的鲁棒性。 相似文献
9.
10.
11.
Lakshmish Ramaswamy Arun lyengar Liu L. Douglis F. 《Knowledge and Data Engineering, IEEE Transactions on》2005,17(6):859-874
Constructing Web pages from fragments has been shown to provide significant benefits for both content generation and caching. In order for a Web site to use fragment-based content generation, however, good methods are needed for fragmenting the Web pages. Manual fragmentation of Web pages is expensive, error prone, and unscalable. This paper proposes a novel scheme to automatically detect and flag fragments that are cost-effective cache units in Web sites serving dynamic content. Our approach analyzes Web pages with respect to their information sharing behavior, personalization characteristics, and change patterns. We identify fragments which are shared among multiple documents or have different lifetime or personalization characteristics. Our approach has three unique features. First, we propose a framework for fragment detection, which includes a hierarchical and fragment-aware model for dynamic Web pages and a compact and effective data structure for fragment detection. Second, we present an efficient algorithm to detect maximal fragments that are shared among multiple documents. Third, we develop a practical algorithm that effectively detects fragments based on their lifetime and personalization characteristics. This paper shows the results when the algorithms are applied to real Web sites. We evaluate the proposed scheme through a series of experiments, showing the benefits and costs of the algorithms. We also study the impact of using the fragments detected by our system on key parameters such as disk space utilization, network bandwidth consumption, and load on the origin servers. 相似文献
12.
基于概念的网页相似度处理算法研究 总被引:4,自引:0,他引:4
针对海量网页信息,提出适于搜索引擎使用的网页相似度处理算法。算法依据网页抽象形成的概念,在倒排文档基础上建立相似度处理模型。该模型缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为优化相似度计算奠定了良好基础。 相似文献
13.
14.
基于统计学习的挂马网页实时检测 总被引:1,自引:0,他引:1
近年来挂马网页对Web安全造成严重威胁,客户端的主要防御手段包括反病毒软件与恶意站点黑名单。反病毒软件采用特征码匹配方法,无法有效检测经过加密与混淆变形的网页脚本代码;黑名单无法防御最新出现的恶意站点。提出一种新型的、与网页内容代码无关的挂马网页实时检测方法。该方法主要提取访问网页时HTTP会话过程的各种统计特征,利用决策树机器学习方法构建挂马网页分类模型并用于在线实时检测。实验证明,该方法能够达到89. 7%的挂马网页检测率与0. 3%的误检率。 相似文献
15.
16.
已有的基于访问路径分析的页面推荐系统大多由离线处理和在线处理两部分组成,由于其周期性离线处理的过程较为耗时,难以适应大型网站以及内容更新频繁的网站的需要。提出了一种新的基于用户访问路径分析的页面推荐模型。该模型采用在线处理方式,利用增量图划分方法形成页面聚类,依此生成动态页面推荐。模型以Apache模块的形式实现,可适用于大型网站以及内容更新频繁的网站。实验结果表明,该模型具有较好的整体性能。 相似文献
17.