首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.  相似文献   

2.
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.  相似文献   

3.
基于SRI的动态网页信息抽取方法   总被引:1,自引:0,他引:1  
提出了基于相似记录项归纳的动态网页信息抽取方法.该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树.对各种类型网页进行信息抽取实验,取得98.11%的召回率和96.90%的准确率.  相似文献   

4.
已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。  相似文献   

5.
PCA方法抽取出的主分量特征与ICA方法抽取出的独立分量特征是对原数据的两类不同描述.PCA是一种基于二阶统计的最小均方误差意义上的最优维数压缩技术,PCA方法所抽取特征的各分量之间是统计不相关的.ICA方法使用数据的二阶和高阶信息抽取数据的独立分量特征.文章对这两种方法做了理论上的比较,并通过实验证明ICA算法提取的特征子空间在人脸识别应用中更有效,识别率更高.  相似文献   

6.
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率.  相似文献   

7.
针对Distant Supervision关系抽取方法训练语料存在大量噪声的问题,提出一种基于主题模型的噪声标注识别方法。该方法首先分析了中文Distant Supervision实体关系抽取方法面临的关系句子实例结构复杂的问题,然后利用自定义的模式以及模式聚类实现模式表示与聚合,最后使用主题模型识别噪声标注。实验结果表明,文章方法能有效识别噪声标注,用滤除噪声标注后的数据训练实体关系抽取模型,实验证明经过噪声滤除后实体关系抽取性能得到显著改善。  相似文献   

8.
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性.为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法.该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集.利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取.实验表明,该方法准确率可达97%.  相似文献   

9.
针对传统特征抽取方法不能很好解决含有丰富语义信息和复杂网络结构的异质网的数据稀疏和噪声问题,利用堆叠降噪自编码器进行特征抽取,有利于松弛策略建立其类别层次结构,完成节点的分类和排序.在计算机科学文献库(digital bibliographylibrary project,DBLP)数据集上的实验结果表明:相比于其他分类算法,该方法分类性能更优,精确率可达86.3%.  相似文献   

10.
由于网页信息呈现的多样性和复杂性,基于Web数据挖掘的信息提取准确率不高。为了提高科技专家Web信息挖掘的正确率,提出一种基于Web数据挖掘的多因素科技专家信息提取方法,对于网页给定统一资源定位符(URL)先进行网页正文提取,综合特征词在网页正文中的位置及特征词与特征词之间的距离构成最短距离匹配方法,抽取科技专家姓名、性别、出生年月、出生地点、职称等信息。实验结果表明,该方法获得了94.43%的查全率和92.34%的准确率,较好地满足了应用需求。  相似文献   

11.
以w3c文档对象模型(DOM)为基础,利用元搜索引擎原理实现了一个互联网新闻自动抽取系统.该系统通过搜索引擎获取相关新闻的web页面,分析后得到其元数据,然后利用元数据表现出来的信息进行新闻正文抽取,该方法不依赖于原网页结构,不需要人工干预,是自动、可靠、通用的方法.试验表明,该抽取方法有着较高的准确率,平均可达到96%以上.  相似文献   

12.
提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOM-Tree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。  相似文献   

13.
为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性.  相似文献   

14.
Research of Extracting Data from HTML Web Pages Automatically   总被引:2,自引:0,他引:2  
In order to use data information in the Internet,it is necessary to extract data from web pages.An HTT tree model representing HTML pages is presented. Based on the HTT model, a wrapper generationalgorithm AGW is proposed. The AGW algorithm utilizes comparing and correcting technique to generate thewrapper with the native characteristic of the HTT tree structure. The AGW algorithm can not only generate thewrapper automatically, but also rebuild the data schema easily and reduce the complexity of the computing.  相似文献   

15.
为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。  相似文献   

16.
在Web日志挖掘中应用聚类改进网站结构的研究   总被引:2,自引:0,他引:2  
介绍了Web日志挖掘的概念,通过聚类技术在Web日志中实现挖掘出访问网站的相似爱好的用户群体、页面之间的内在联系,以此改进网站性能和组织结构,提高用户查找信息的质量和效率.  相似文献   

17.
为使网站编辑人员能从烦琐的新闻更新工作中摆脱出来,花费更多的时间在网站的美工方面,开发了网页实时获取和生成系统,详细阐述了该系统的的设计原理及整体框架结构。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号