期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄玲陈龙《计算机应用》2008,28(Z2)

网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度.提出了一种基于网页分块的正文信息抽取方法.该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字.实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现. 相似文献

2.

基于信息量衰减幅度的网页正文提取

陈阳陈兴蜀吴麒《计算机工程与设计》2012,33(7):2555-2560

网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法.该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息.在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息.实验结果表明,该方法的抽取准确率可以达到95％以上,具有较好的应用价值. 相似文献

3.

基于正文结构和长句提取的网页去重算法* 总被引：3，自引：0，他引：3

黄仁冯胜杨吉云刘宇敖民《计算机应用研究》2010,27(7):2489-2481

针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。相似文献

4.

网页正文提取技术的分析与研究

杨丽萍《计算机光盘软件与应用》2012,(22):115-116

随着互联网应用的不断开发,基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括:基于DOM树网页提取模型、基于统计的网页提取模型、基于分块的网页提取模型。本文对网页正文提取技术的综合分析与研究,各种网页提取算法的优劣。相似文献

5.

基于分块的网页正文信息提取算法研究 总被引：6，自引：0，他引：6

黄文蓓杨静顾君忠《计算机应用》2007,27(B06):24-26,30

提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤：网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法，该算法比起以往方法更准确，并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块，来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。相似文献

6.

灵活结构网页的正文提取

殷彬杨会志《微机发展》2011,(9):111-113,117

在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。相似文献

7.

基于CURE算法的网页分块及正文块提取研究

王超徐杰锋《微型机与应用》2012,31(12):11-14

研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。相似文献

8.

基于DBSCAN算法的网页正文提取

下载免费PDF全文

欧阳佳林丕源《计算机工程》2011,37(3):64-66,69

针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。相似文献

9.

基于正文相关度的维吾尔网页正文提取

下载免费PDF全文

王瑞周喜李晓《计算机工程》2012,38(21):153-156,160

网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。相似文献

10.

基于规则模型的网页主题文本提取方法 总被引：1，自引：1，他引：0

张裕钦李振坤吴永杰《计算机工程与设计》2009,30(20)

通过对网页结构化和半结构化信息的分析,提出了一种基于规则模型的网页正文提取方法.该方法在总结HTML标签的不同应用特征和网页布局的结构特征的基础上,通过定义一系列过滤、提取和合并规则来建立一个通用的网页正文抽取模型,以达到有效提取网页主题文本的目的.实验结果表明,该方法对于各类型网页主题文本的提取均具有较高的准确卒,通用性强. 相似文献

11.

基于内容相似度的网页正文提取 总被引：6，自引：0，他引：6

下载免费PDF全文

王利刘宗田王燕华廖涛《计算机工程》2010,36(6):102-104

提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。相似文献

12.

基于Web页面有效信息抽取的分类方法

王立建尹四清《电脑开发与应用》2010,23(6):71-73

随着Internet的迅猛发展,Web上的网页数目呈现指数级的爆炸性增长趋势,在Web上检索及发现有价值的信息已成为了一项重要的任务,"噪音"的出现往往会降低基于页面处理的各种算法的效率。因此,如何删除页面的噪音,提取页面中的主要内容是Web挖掘中的重要问题。给出了抽取网页中各种分类有效的文本的具体实现。相似文献

13.

网页信息提取技术

邵振凯《计算机技术与发展》2013,(9)

随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。相似文献

14.

社会媒体网页内容的分割与抽取

下载免费PDF全文

解姝叶施仁肖春《计算机工程》2011,37(21):155-158

为实现社会媒体网页内容的分割与抽取,利用k-means算法识别出页面的频繁块并形成一个频繁簇集合,找出该集合中的主题频繁簇,对其中的频繁块结构进行自学习,无需训练样本,即可自动生成抽取规则。实验结果表明,该方法能抽取各种风格的社会媒体网页内容,具有较高的准确率和召回率。相似文献

15.

Web文本挖掘中的特征表示和特征提取

王圆孙铁利李杨《数字社区&智能家居》2006,(14)

该文介绍了Web文本挖掘的概念和一般处理过程,着重就Web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究,同时对不同方法进行了初步比较。相似文献

16.

Web文本挖掘中的特征表示和特征提取

王圆孙铁利李杨《数字社区&智能家居》2006,(5):67-68

该文介绍了web文本挖掘的概念和一般处理过程，着重就web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究．同时对不同方法进行了初步比较。相似文献

17.

中文网页分类中的网页特征提取方法

江祥奎原思聪《电脑开发与应用》2005,18(10):27-28,30

为了网页信息的有效组织和检索,针对网页中的超文本结构特征,在研究网页间的超链接、超文本标记对信息提取的作用的基础上,阐述了一种基于“超文本标记加权”和“超链接森林”的因特网信息提取方法,并与传统方法进行了对比。实验结果表明,该方法用于网页的自动分类具有较好的效果。相似文献

18.

基于统计的中文网页正文抽取的研究

ZHAO Wen TANG Jian-Xiong GAO Qing-Feng 《数字社区&智能家居》2008,(1)

信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。相似文献

19.

基于超链接和DOM结构树的网页标题实时抽取方法

张兵 汤进  罗斌 《计算机与现代化》2015,(8):84

网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。  相似文献