首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。  相似文献   

2.
在WEB应用开发中,WEB页面间经常需要进行少量或大量的数据传输,目前WEB页面数据传输有许多不同的方法,各自也存在着一些问题和不足。本文主要以ASP.NET这个当前比较流行和常用的编程工具为例,讨论各种WEB页面数据传递方法,比较它们的优缺点,希望对WEB程序开发人员有所帮助。  相似文献   

3.
内容管理系统中基于 XML页面发布的实现与应用   总被引:2,自引:0,他引:2  
本文介绍网站内容管理系统基于XML页面发布的实现方法和要点,包括XML数据结构格式设计、XSL样式表编写要点、XML文件生成技术、对内容正文中HTML标记处理和编码保护方法。  相似文献   

4.
基于标记树的Web页面区域划分和搜索方法   总被引:4,自引:0,他引:4  
胡飞 《计算机科学》2005,32(8):182-185
Web页面的布局可以分为:主要内容、单位标识、导航信息、交互信息和版权申明。我们在处理这些页面时往往只关心主要内容,而且可以从语义上快速定位到主要内容,但是软件系统要做到这一点就非常困难。本文提出一种基于标记树的Web页面区域划分和搜索方法,让软件系统可以忽略别的区域,快速定位到主要内容。对于大量Web页面处理而言,这种方法可以起到减少时间,缩小空间的作用,Web页面越多,效果就越显著。  相似文献   

5.
运用XML和XSLT技术实现Web页面的重用   总被引:7,自引:0,他引:7  
李伟  郑宁 《计算机应用》2004,24(3):103-105
从分析页面结构特征入手,运用XML和XSLT技术实现Web页面的重用。该方法用动态XML文件定义页面的组成,用XSLT文件定义页面布局,通过XSLT转化把二者统一起来得到最终的页面。页面布局与页面组成的分离实现了页面布局和页面组成块的重用。  相似文献   

6.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。  相似文献   

7.
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。  相似文献   

8.
动态网页源码安全性研究及实现   总被引:4,自引:0,他引:4  
本文在研究了动态网页源码特性的基础上,针对动态页面的源码安全性特点,设计了在开发动态页面的过程中如何加密源码的方法,即将动态页面编译后要向客户显示的内容保存在相应的字符串变量,将其加密,并自动生成静态文件,最后用页面自动跳转的方法将动态页面跳转到该静态页面,以保护源码的安全.  相似文献   

9.
研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取,进行预处理后转换为XML文档,采用基于PAT-array的模式发现算法自动发现重复模式,结合基于本体的关键词库自动识别页面数据显示结构模型,利用XML的对象-关系映射技术将数据存入知识数据库,由此实现Web数据自动抽取。同时,利用知识数据库已有知识从互联网抽取新知识,达到知识数据库的自扩展。以交通信息自动抽取及混合交通出行方案生成与表示系统进行的实验表明该系统具有高抽取准确率和良好的适应性。  相似文献   

10.
介绍了一个WEB页面构建系统。只需输入待生成WEB页面的相关特征信息就可以迅速的构建具有新增、修改、删除、查询的JSP页面。系统能缩短J2EE项目开发的周期,便于项目的管理和控制。  相似文献   

11.
基于内容相似度的网页正文提取   总被引:6,自引:0,他引:6       下载免费PDF全文
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

12.
随着3G移动通信等无线传输技术的迅猛发展,越来越多的用户开始利用无线设备上网获取所需信息。现有的WEB系统信息量大、费流量,版面复杂,不利于手机浏览。作为面向无线环境定制的一套协议,WAP解决了以上问题。而针对所有现有互联网信息重新构造WAP系统将花费大量的人力物力。本文通过构造一种有效的WEB到WAP的转换机制来实现现有互联网系统向手机应用的迁移,包括网页分块、广告去噪、语义关联、页面重组等步骤,这一解决方案保证了转换后内容的连贯与页面布局的合理。通过实验证明是一种行之有效的转换机制。  相似文献   

13.
基于网页结构树的Web信息抽取方法   总被引:10,自引:1,他引:9  
陈琼  苏文健 《计算机工程》2005,31(20):54-55,140
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。  相似文献   

14.
从消费者心理分析网页设计   总被引:3,自引:0,他引:3  
本文着重从消费者心理的角度,分析了如何在网站中设计一个合理、有效、良好的 网页界面,更多地满足访问者的需要,使上网者能更多地注意你的网页。  相似文献   

15.
随着通信技术的发展,人们迫切希望能方便地利用手持移动设备访问Web网站,由于移动设备的小屏幕和低带宽的缺点,使得这一难题一直没有得到很好的解决.本文提出一种适合于移动设备小屏幕的Web页面分块算法,算法利用Web网页上对象的位置信息对信息块进行逐层聚类,生成一棵网页分块树,再根据移动设备屏幕的特点把网页分块树转换成适合小屏幕浏览的页面.  相似文献   

16.
一种新的WEB社群挖掘方法   总被引:3,自引:0,他引:3  
随着互联网信息的增长,WEB挖掘已经成为数据挖掘研究的热点之一。论文关注于WEB社群挖掘。WEB社群是由对于同一主题感兴趣的人或组织创作的WEB页的集合。传统的挖掘方法由于只利用超链信息,所得出的社群或者太小、或者太大而没有意义。论文结合WEB页的内容信息和超链信息给出了一种基于分类方法的WEB社群挖掘算法。在包含8282个网页的WEBKB数据集上进行了实验,实验结果表明,该文算法可以挖掘出较大而且有意义的社群。  相似文献   

17.
熊忠阳  蔺显强  张玉芳  牙漫 《计算机工程》2013,(12):200-203,210
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。  相似文献   

18.
文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取.再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。  相似文献   

19.
针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

20.
Web页面信息块的自动分割   总被引:8,自引:2,他引:8  
随着Internet的发展,Web页面数量的急剧增加,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元,它们在展现上排列紧凑、风格相似,在HTML语法上具有类似的模式,例如一个BBS页面上多个发言,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法:首先通过创建Web页面结构化的HMTL分析树,然后根据包含有效文本量等确定包含信息块的子树,最后根据子树深度信息利用2-rank PAT算法进行分割。通过对BBS页面的信息块抽取实验,证明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号