共查询到20条相似文献,搜索用时 109 毫秒
1.
万文兵 《计算机光盘软件与应用》2015,(1):15-16
Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。 相似文献
2.
3.
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法.该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息.在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息.实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值. 相似文献
4.
基于网页分块的正文信息提取方法 总被引:3,自引:0,他引:3
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度.提出了一种基于网页分块的正文信息抽取方法.该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字.实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现. 相似文献
5.
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 相似文献
6.
随着Internet/Intranet热点的不断升温,Web网页开发技术逐步发展完善。动态HTML即DHTML作为HTML的扩展得到了广泛的应用。DHTML是一组建立和显示交互胜Web页面的技术,它包括动态样式、动态内容、二维层、数据捆绑和多媒体效果等。相对于HTML被加载到测览器后形成不会变化的静态页面,DHTML有着以下的特点:1)在页面加载到测览器后,页面的内容、格式等仍可以变化。这些变化是由客户端浏览器来完成的,而不需服务器端响应。2)页面中文档的内容、格式的改变可以通过脚本语言编程实现。这使得DHTML相对于传统的HTML有了一… 相似文献
7.
网页正文提取中与正文无关的图像清除技术 总被引:1,自引:0,他引:1
因为图像相比文字具有更强的表现力,站点的设计者在设计广告时考虑的首要问题是如何吸引用户的"眼球",所以通常网页中的广告通常都是以图像的形式嵌入到网页中.这使得在HTML网页正文提取中主要处理的就是广告图像.文中综合分析了网页中图像的特点,提出了区域分块的HTML元素删除法来清除网页中的广告等无关图像并提取网页正文.实验结果表明,所提出的区域分块的HTML.元素删除法很好地解决了网页正文提取中图像处理问题. 相似文献
8.
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。 相似文献
9.
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。 相似文献
10.
由于受到传统的标准HTML语言限制,网页本身并不具备与服务器交互的能力,但是DHTML(动态HTML)的出现使得网页访问外部数据源成为了可能。用户可以开发交互式动态网页或者基于浏览器/服务器架构的应用程序,外部数据通过服务器端(例如ASP、CGI)动态生成,即可实现网页内容的实时更新。本文则主要针对IE浏览器来谈谈如何在网页中通过DHTML访问外部数据源(文件),以及在不对页面进行刷新的情况下实现网页内容依数据源数据的变化而动态更新的具体方法。 相似文献
11.
12.
恶意网页是一种新型的Web攻击手法,攻击者通常将一段恶意代码嵌入网页中,当用户访问该网页时,恶意代码会试图利用浏览器或其插件漏洞在后台隐秘地执行一系列恶意行为.针对恶意网页静态特征抽取问题,本文从已有的特征中选取了14个信息增益值较高的特征,并通过分析恶意网页的混淆手法提出了8个新的特征,共同组成了22维的静态特征体系.此外,针对已有特征抽取流程提出两点改进:对不同编码格式的原始网页进行预处理;回送JavaScript脚本动态生成的的HTML代码,用以进一步抽取HTML相关特征.实验表明,在不均衡数据集和均衡数据集上,本文的特征体系具有一定的有效性. 相似文献
13.
14.
司敬超 《数字社区&智能家居》2009,(20)
动态的HTML(超文本标记语言)是一种用来创建Web页的脚本语言,现在IE浏览器和Netscape Navigator都支持的动态的HTML,动态的HTML也称之为DHTML。在Visual C++应用程序中也都支持HTML,在制作程序时可将一个动态的HTML脚本作为资源嵌入到应用程序中。 相似文献
15.
彭灿明 《数字社区&智能家居》2009,(6)
利用ASP,可以很容易地把HTML(超文本标记语言)文本、脚本命令及ActiveX组件混合在一起构成ASP页,以此来生成动态网页,创建交互式的Web站点,实现对Web数据库的访问。当用户使用浏览器请求ASP主页时,Web服务器响应,调用ASP引擎来执行ASP文件,并解释其中的脚本语言(JScript或VBScript),通过ODBC连接数据库,由数据库访问组件ADO(ActiveX Data Ob-jects)完成数据库操作,最后ASP生成包含有数据查询结果的HTML主页返回用户端显示。用ASP中数据库连接的多种方法,可以有效利用ASP技术访问WEB数据库。 相似文献
16.
网页的半结构化特点与新闻的自身特征为选择性抽取网页内容创造了条件。我们在前人的研究基础上,挖掘Web页面结构特征、充分利用Html标记与新闻特征,重点从Web页面编者对文本修饰角度出发,提出了基于网页内容分割的主题内容抽取方法。实验结果表明该方法能有效地抽取新闻各要素,测试的抽取准确率在96%以上。 相似文献
17.
一种基于重复标记属性的多网页信息隐藏方法 总被引:3,自引:0,他引:3
信息隐藏技术作为信息安全的热点,被应用于版权保护和隐蔽通信等领域.通过分析浏览器解析超文本标记语言的特性,提出重复标记属性的网页信息隐藏技术,同时针对网页中可隐藏信息量少的特点,采用了多网页隐藏方法.实验证明该方法的信息隐藏性较好,具有较高的使用价值. 相似文献
18.
19.
20.
在万维网(WorldWideWeb)庞大的信息海洋中,如何提高信息检索和浏览效率,一直是重要的研究内容之一。文章中提出了将一复杂网页的内容按照模块化方式进行组织和使用的新思想,通过对HTML语言的简单扩充和对浏览器与Web服务器的相应改进,新浏览器可使用户有效避免对无关网页的浏览和减少网页中无关信息的传输,明显提高了网页浏览速度,尤其是对拨号上网用户,其效果更为明显。 相似文献