首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取.该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本.实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%.本算法对于包含过多短文本的网页抽取的准确度还有待提高.  相似文献   

2.
目前针对于网页分块的正文提取方法很多。一些学者提出,利用标签的数量来判断目标网页采用何种标签对网页进行结构布局,然后针对某一单一标签,对网页进行分块,这种方法针对与大多数利用标准化XHTML排版的网页是可行的,但是对于很多利用松散标准的HTML网页,其排版布局的标签分布不均,很难准确的提取正文内容;利用预先设置的搜索窗口,准确的分离正文段落和相邻的非正文段落。  相似文献   

3.
李剑 《电子科技》2012,25(1):105-107
为能够高效地把网页中的噪音信息过滤掉,采用基于改进的DOM树和BP神经网络的网页净化方法。根据DOM树和网页内容的特征,用HTMLParser建立内容块树,把网页中的内容按照一定的相关性分割成多个子块,从而把整个内容块的处理简化为处理各个子块。由统计可知,子内容块的内容具有明显的数值特征,可以该特征作为BP神经网络的学习来源。这样可把网页的净化问题转化成通过学习建立过滤模型的问题。实验结果证明,该方法在有主题的中文网页应用上取得了理想的效果。  相似文献   

4.
网页结构化信息抽取技术方法研究   总被引:2,自引:0,他引:2  
分析了两种当前主流的网页结构化信息抽取技术方法:基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法,并在此基础上实现了一种新的网页结构化信息抽取算法,一定程度上提高了抽取效率和精度。  相似文献   

5.
随着互联网技术兴起,人类信息积累速度越来越快,对网页信息自动抽取的需求随之变大。本文对现今网页信息扫描和抽取特点进行分析,对其存在的问题给予阐述,并结合PHP语言,解析如何运用其相关技术对网页信息实现企业级别的精确提取。  相似文献   

6.
网页信息抽取方法的研究   总被引:2,自引:0,他引:2  
信息抽取技术属于人工智能的一个分支.使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来.文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现.  相似文献   

7.
鲁明羽  沈抖  郭崇慧  陆玉昌 《电子学报》2006,34(8):1475-1480
网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.  相似文献   

8.
基于改进HTML-Tree的中文网页特征向量提取方法   总被引:1,自引:0,他引:1  
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.  相似文献   

9.
Blog网页分类与识别技术研究   总被引:2,自引:0,他引:2  
郑德权  张迪  赵铁军  于浩 《通信学报》2007,28(12):156-160
为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。  相似文献   

10.
本文从URL的结构出发进行研究,可以减少处理网页正文的时间花费,并减少下载网页内容的危险性.利用KNN算法对这些提取的特征值进行大量测试,训练出一个可以分别良性网页和恶意网页的分类器,利用这个系统可以减小用户上网时所遇到的风险.  相似文献   

11.
刘锋  白凡 《电子技术》2010,47(7):30-31
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。  相似文献   

12.
Text extraction is an important initial step in digitizing the historical documents. In this paper, we present a text extraction method for historical Tibetan document images based on block projections. The task of text extraction is considered as text area detection and location problem. The images are divided equally into blocks and the blocks are filtered by the information of the categories of connected components and corner point density. By analyzing the filtered blocks’ projections, the approximate text areas can be located, and the text regions are extracted. Experiments on the dataset of historical Tibetan documents demonstrate the effectiveness of the proposed method.  相似文献   

13.
未来5G消息服务的上线为不良图片信息的传播提供了便利条件。不良文字图片作为一种特殊的不良图片信息给通信网络的内容安全带来了挑战。为了能够有效的对不良文字图片进行治理,运营商需要借助人工智能技术对图片中的文字信息进行识别和提取。本文详细介绍了不良文字图片治理整个技术过程需要引入的三个处理步骤,并对三个处理步骤涉及到的深度学习模型结构、原理进行了深入的研究。本文的研究内容对运营商进行不良文字图片治理具有很大的技术参考价值。  相似文献   

14.
一种用于网络动画过滤的文字提取方法   总被引:1,自引:1,他引:1  
网络动画中往往包含丰富的字符信息,如果能够将这些字符信息加以提取和识别,将对网络动画的有效过滤具有重要意义。论文介绍了一种新的基于类边缘文本提取算法及其实现,该算法利用DCT方法提取出字符的类边缘信息,然后采用基于映射方法进行定位。实验结果表明,该方法能够准确、有效地定位和提取网络动画中的文字区域。  相似文献   

15.
宋宝杰 《电子科技》2006,(12):49-51,56
通过分析高校体育网页建设的可行性及现状,提出了基于Internet的体育教学信息网页的总体设计,简要介绍了系统各功能模块及数据库设计,讨论了采用ASP、JavaScript技术及ACCESS开发系统的数据库访问技术和动态网页制作技术,并给出了部分实现代码.  相似文献   

16.
针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法。该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取。使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase。实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效率和采集的职位信息量上都有明显的提高。  相似文献   

17.
一种基于主题相关度的网页排序算法   总被引:1,自引:0,他引:1  
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率.  相似文献   

18.
19.
一种基于WordNet的短文本语义相似性算法   总被引:3,自引:0,他引:3       下载免费PDF全文
 短文本语义相似性计算在文献检索、信息抽取、文本挖掘等方面应用日益广泛.本文提出了一种短文本语义相似性计算算法ST-CW.此算法使用WordNet和Brown文集来计算文本中的概念相似性,在此基础上提出了一个新的方法综合考虑概念、句法等信息来计算短文本的语义相似性.在R&;B及Miller数据集上进行实验,实验结果验证了算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号