首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。  相似文献   

2.
朱燕 《燕山大学学报》2006,30(6):530-533
XML的发展,引发了人们对于文档和形式语言之间关系的研究,树自动机理论重新引起了研究者们的高度重视。介绍了树自动机的概念、类型及处理方式,讨论了树自动机在XML中的应用,以XML文档有效性检验为例,实现了一个XML文档DTD树自动机,实验结果表明树自动机理论能够有效地处理XML文档。  相似文献   

3.
陈远斌 《应用科技》2009,36(8):52-55
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.  相似文献   

4.
本文首先介绍了一个文档图像检索系统模型及其各部分功能,然后详细介绍了其中的关键部分——文档图像版面提取及内容分析的相关流程及算法,该检索系统可应用于数字图书馆和多媒体图书馆的建设。  相似文献   

5.
提出了一种结合页面视觉信息和标签信息来提取页面内容结构的方法——DVS。DVS首先通过分析页面的CSS样式信息、DOM树以获得页面的视觉信息和标签信息,初步得到页面的视觉树;然后利用树的路径相似算法,既考虑标签信息又考虑视觉信息来计算树中模块的相似性,对模块进行聚类,最终得到页面的视觉树,即页面的内容结构。DVS主要的特色在于从视觉信息和标签信息两方面来提取页面的内容结构;采用树形结构表示视觉信息,将分析视觉信息转换成分析“视觉属性”树。实验采用UIUC的TEL数据集,分别与WTS算法、VIPS算法进行了比较,文中算法可以获得更高的准确性。  相似文献   

6.
庞建丽 《科学技术与工程》2013,13(26):7865-7868
针对红外图像分割的特点,采用基因结构树模型。首先通过由根节点至节点顺序累加获取属性为结构树模型的生长代价;接着判决规则为结构树分支节点距离计算,借助分支节点之间的夹角表示,夹角越小,则分支节点距离越小;最后从基因树中选择其中似然值最大的作为最优树,给出了算法流程。实验仿真结果显示算法对红外图像分割很好地保留目标区域,有较为简洁平滑的边缘,分割质量评价的定量结果优。  相似文献   

7.
现在Web页面的注册过程都少不了验证码,本文通过实例介绍利用ashx文档生成验证码,然后显示在Web页面上。根据微软的文档,使用*.ashx文档比*.aspx文档性能高,因为它减少了控件树的生成,从而提高了系统执行效率。  相似文献   

8.
针对网络舆情分析的需求背景,研究了通过后缀树算法发现文本文档之间的公共短语串,按公共短语串实现文档聚类。网页文档的标题和摘要能代表文档的主要思想,应用后缀树算法实现对标题和摘要自动聚类,从而实现舆情信息自动聚类。  相似文献   

9.
基于标记树的WEB页面净化技术研究   总被引:2,自引:0,他引:2  
根据Web页面标记建立标记树,通过分析,保留有用信息的标记子树,达到获取页面主要内容,净化页面的效果.  相似文献   

10.
分析了BSON文档的结构,通过比较类似结构的映射方法,给出了BSON文档树的概念和结构,并提出NoSQL数据库文档到关系数据库的映射策略,在此基础上建立了BSON文档模式和关系模式之间的双向映射模型,并给出了双向映射算法.  相似文献   

11.
传统数据库只管理确定性信息.但在许多应用中涉及大量不确定数据。本文把概率数据引入XML文档中.提出概率XML文档树、概率XML模式树、概率XML文档树符合概率XML模式树的定义;给出了概率XML Twig查询树和概率XML Twig查询匹配的定义,最后提出了计算概率XML Twig查询结果概率的定理。  相似文献   

12.
分析了Web文档的结构特征,并利用知识树快速高效等特征,设计了Web文档知识树;基于Web文档知识树结构,提出了构建Web文档知识树的构造算法、创建知识结点算法以及知识树访问算法.并对上述算法作了分析和评价,说明了这些算法对提高Web信息检索的准确率以及信息查找的速度是有益的.  相似文献   

13.
基于视觉单词树的快速图像检索   总被引:1,自引:0,他引:1  
建立了一种分层的视觉字典树.首先提取图像特征,定义树的分支因子k和层数L,采用分层聚类算法进行逐层聚类,生成树型结构的视觉单词本,并对每个树节点计算逆向文档频率作为权值,定义得分准则进行图像的相似度匹配.新的视觉单词树由于建立了分层结构,较之传统平面结构的视觉单词本具有计算负荷小、单词个数不受约束、搜索速度快等优越性.在Caltech-101图像库的检索实验中验证了本文算法的快速性和高效性.  相似文献   

14.
为了提高基本轮廓波变换纹理图像检索系统的检索率,提出一种基于contourlet-1.3的纹理图像检索系统.该系统将广义高斯模型参数级联构造特征向量,采用Kullback-Leibler距离来衡量纹理图像之间的相似性.结果表明:在特征向量长度、检索时间、所需内存相同的情况下,contourlet-1.3广义高斯模型比同样架构的基本轮廓波变换检索系统具有较高的检索率.而且,在计算复杂度相当的情况下,广义高斯模型与KLD距离相结合,检索率高于能量特征和欧氏距离相结合的情况.  相似文献   

15.
彩色文档图像处理技术   总被引:1,自引:0,他引:1  
介绍了文档图像处理技术的研究现状,分析了彩色文档图像不同于二值图像或灰度图像的主要特点,指出了彩色文档图像的压缩处理必须借助于现成的页面分割与分类成果,针对彩色文档图像的特点,改进PLA技术、ACR技术和GLR技术,在努力提高图像质量的前提下,对文档图像按区域类别的不同,选用有针对性的压缩方法,并对实现的技术路线进行了讨论。  相似文献   

16.
本文首先介绍了一个文档图像检索系统模型及其各部分功能,然后详细介绍了其中的核心部分——面向对象的存储模型及数据库系统设计方法,该检索系统可应用于数字图书馆和多媒体图书馆的建设。  相似文献   

17.
针对Web同一对象内部信息组件之间的空间距离小于不同对象之间信息组件之间的距离这一显示特征.提出一种新的Web对象抽取方法.通过分析给定页面中不同实体间的空间位置关系来判断哪些信息成分属于同一对象,与Web文档的表示无关.通过Web页的文档对象模型(DOM)获得不同信息成分之间的位置关系,进而判断这些信息组件是否属于同一对象.实验结果表明,该方法对于多个领域中不同结构的Web文档具有很好的适应性.对于设计结构规则,含有多个数据对象的页面,抽取结果的准确率可以达到100%.  相似文献   

18.
Domino和XML结构的相似性使XML文档可以方便有效地存储在Domino表单、域、页面、文件系统中,不需存储的XML数据可以在系统内存中处理.文章采用两种方法实现了XML文档在Domino中的存储:把XML原始数据存储在Notes域中,生成DOM(Document Object Model)树,通过遍历整个DOM树,按节点创建多个Notes文档;或者把XML原始文档调入系统内存,在内存中解析成DOM树,并只对包含所需数据的DOM树节点的子集进行处理,创建Notes文档.  相似文献   

19.
含有位置坐标树的Web页面分析和内容提取框架   总被引:6,自引:0,他引:6  
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容.对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率.  相似文献   

20.
文本图像页面分割算法研究   总被引:1,自引:0,他引:1  
提出了一种基于改进纹理谱的文本页面分割算法,该算法首先采用改进的递归投影轮廓切割算法对文本图像页面进行粗分割,并提取文本图像的纹理谱特征;然后采用最小距离法将相邻纹理单元进行分类;最后实现文本图像页面文字区与非文字区的精确分割.实验表明,提出的方法在含有文字、图、表格的文本图像页面分割中效果很好,对其他复杂文本图像页面分割也具有适应性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号