首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。  相似文献   

2.
梅会 《科技资讯》2005,(22):114-115
对Web站点的主页设计进行了讨论,提出一种把超文本标记语言HTML与JAVA语言相结合来设计网页的方法.既能使页面富有动态感.又能使页面与用户间有较强的交互性。  相似文献   

3.
通过分析跨站脚本攻击的特性, 提出一种基于分隔符的跨站脚本攻击防御方法, 该方法适用于UTF-8编码的Web应用程序。首先, 仅对可信数据中的分隔符进行积极污点标记; 然后, 利用字符UTF-8编码值的转换轻量级完成污点标记, 该污点信息可随着字符串操作直接传播到结果页面; 最后, 根据结果页面中分隔符的污点信息及页面上下文分析, 检查脚本执行节点的合法性和脚本内容的可靠性, 精确地检测并防御跨站脚本攻击。针对PHP平台实现了原型系统XSSCleaner。实验证明, XSSCleaner可轻量级地完成污点分析, 并且能够对跨站脚本攻击进行精确防御, 页面生成的时间开销平均为12.9%。  相似文献   

4.
针对电子商务Web网站中HTML页面传输问题,分析了基于HTML文本的信息隐藏方法.根据标记属性赋值符左右两边空格特性,使用C++语言实现了信息隐藏算法和信息提取算法,该方法具有一定的实际意义.  相似文献   

5.
为了减少MPLS网络多播标记的占用空间,本文提出了一种基于相似树的求解算法,将与同一共用树相似的多播组进行标记聚合。首先运用模糊聚类的方法生成共用树,然后以共用树为基础进行多播树的构建和组成员的更新。动态多播组成员的变化大多只会造成LER节点类型的转换,不需要重新分配标记。实验结果表明,本算法可以大大缩小MPLS标记的占用,在 元素数量大于最大数量的1/2、相似度阈值 =0.75时,能够将大于50%的多播组进行标记聚合,而平均每组多用的节点数小于0.5。  相似文献   

6.
提出了一种结合页面视觉信息和标签信息来提取页面内容结构的方法——DVS。DVS首先通过分析页面的CSS样式信息、DOM树以获得页面的视觉信息和标签信息,初步得到页面的视觉树;然后利用树的路径相似算法,既考虑标签信息又考虑视觉信息来计算树中模块的相似性,对模块进行聚类,最终得到页面的视觉树,即页面的内容结构。DVS主要的特色在于从视觉信息和标签信息两方面来提取页面的内容结构;采用树形结构表示视觉信息,将分析视觉信息转换成分析“视觉属性”树。实验采用UIUC的TEL数据集,分别与WTS算法、VIPS算法进行了比较,文中算法可以获得更高的准确性。  相似文献   

7.
基于AJAX的网络地质图库标记系统的设计与实现   总被引:1,自引:0,他引:1  
AJAX是近几年出现的WEB开发新技术,它实现了浏览器和服务器之间的异步交互.目前的网络地质图库系统大多采用传统B/S同步交互技术,由于图库中传输的大多是数据量很大的地质图件,因此经常出现浏览器阻塞现象.将AJAX技术应用到了网络地质图库系统中,实现了浏览器和地质图库服务器之间的异步交互,与采用传统B/S同步方式的网络地质图库系统相比,具有图片刷新快,无页面闪烁的特点.由此研究了基于AJAX的异步地质图实现技术,并实现了基于AJAX的网络地质图库标记系统,不仅扩充了图件标记管理功能.而且成功解决了浏览器阻塞问题.  相似文献   

8.
刘劼 《科技咨询导报》2009,(15):238-238
本文介绍了文挡页面的X—Y树表示方法,描述了一对树之间编辑距离的计算,该距离可以衡量两个文档页面之间的相似性,因此可用于实现文档图像检索系统中的页面聚类。对于数字图书馆中文档图像检索系统的设计,有一定的参考价值。  相似文献   

9.
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取.实验结果表明:该...  相似文献   

10.
分子标记(molecularInarker)即指与蛋白质和核酸相关的分子水平上的遗传标记,大致可分为同Ⅰ酶标记,RFLP标记和RADP标记等。研究生物遗传多样性和系统进化关系,首先必须找到恰当的遗传标记(geneticmarker)。恰当的遗传标记是随机选取的能代表生物体遗传组成,具有足够变异类型的标记组合。在生物系统进化和分类研究方面,经典的方法是以形态性状、杂交亲和性、地理生态分布、核型分析和染色体显带等特性作为遗体标记。无疑,经典的方法是重要的研究手段,然而,这些经典的方法基本上建立在宏观的形态观测水平,受环境影响大,研…  相似文献   

11.
如何准确表达用户意图,判断网页与用户需求的相关性是信息检索技术研究的重要方向。本文提出了一种基于网页内容分割的语义信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用内容相似性和视觉相似性进行节点的整合。根据用户的查询,充分利用区域信息来对相关的检索结果进行排序。实验表明,本文提出的方法可以显著地提高搜索引擎的查询效果。  相似文献   

12.
网页正文信息抽取新方法   总被引:6,自引:0,他引:6  
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性.  相似文献   

13.
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测.  相似文献   

14.
在分析不规范书写的Web网页的DOM树存在的树深度大、结点层次多、结点层次和子树间关系错误等问题的基础上,提出了一种容错的Web网页语义树构造方法,为文本分类与聚类、网络社区发现、Web主题信息的提取和基于主题的Web信息检索等技术的研究工作奠定了基础.  相似文献   

15.
协同标签系统的应用研究   总被引:1,自引:0,他引:1  
协同标签系统在帮助用户管理标签的同时,也为用户的导航和检索提供了便利.本文在分析了协同标签系统现状的基础上,提出了一种建立分类标签树的算法,将混乱的标签进行整理,转换成为有序的、层次的、分类的标签树,使标签提供的信息能被用于检索、导航,使用户更好的协同组织管理和利用网上资源,最后对算法进行了测试.  相似文献   

16.
胡飞 《科学技术与工程》2012,12(35):9556-9561
新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。  相似文献   

17.
在二叉树结构支持向量机(SVM)多分类算法的基础上,针对二叉树算法中点和叶盲目划分的问题,提出了一种新的二叉树SVM多分类算法.该算法通过标记划分的方法,一方面解决了盲目划分的问题,另一方面大大减少了子分类器的数目,大幅度提高了算法的速度.实验结果表明,该算法具有一定的优越性.  相似文献   

18.
多策略同义词获取方法研究   总被引:1,自引:0,他引:1  
提出一种多策略同义词获取方法, 一方面利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词, 另一方面根据百度百科信息框(Bdbk)中特征词和汉典网(Zdic)中HTML标记获取同义词, 同时采用DIPRE自动获取模式的方法, 从百度百科文本中发现置信度较高的模式和同义关系。实验结果表明, 所提方法在NLP&CC 2012同义词评测数据集中取得较好结果。利用该方法, 以《现代汉语语法信息词典》名词部分为目标, 构建一部同义词词典并进行人工校对, 为《现代汉语语法信息词典》构建较为完善的语义关系体系做出尝试。  相似文献   

19.
标签防碰撞算法的优劣决定了RFID系统性能的好坏,针对标签识别的RFID系统前人已经提出了许多算法,但都有明显的缺点,包括识别速度慢、不稳定等.已有的算法主要分为两大体系:基于ALOHA的算法、查询树算法.基于混合查询树算法,引入时隙补偿机制和采用特定编码方式(曼彻斯特编码),由标签中每三位中1的个数,决定标签响应时隙,大大降低了碰撞时隙,提高了识别效率.  相似文献   

20.
基于DOM树及行文本统计去噪的网页文本抽取技术   总被引:1,自引:0,他引:1  
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号