首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于数据区域发现的信息抽取规则生成方法   总被引:2,自引:2,他引:0       下载免费PDF全文
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。  相似文献   

2.
针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。  相似文献   

3.
基于无秩树自动机的信息抽取技术研究   总被引:1,自引:0,他引:1  
针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.  相似文献   

4.
基于异构数据抽取清洗模型的元数据的研究   总被引:2,自引:0,他引:2  
异构数据的抽取和清洗是企业内外异构信息统一的必由之路。基于此,该文以自行开发的ETL工具为背景,分析了异构数据抽取清洗模型的结构以及实现方式,并集中论述了其中元数据的结构。  相似文献   

5.
万福成 《计算机应用研究》2019,36(10):2952-2954,2970
在大数据环境下进行模糊信息挖掘抽取中受到数据之间的小扰动类间干扰的影响,导致信息抽取的特征聚类性不好。为此提出一种基于改进混沌分区算法的模糊信息抽取方法,对高维数据信息流进行分布式结构重组,以Lorenz混沌吸引子作为训练测试集进行大数据模糊信息抽取的自适应学习训练,采用相空间重构技术对大数据的混沌吸引子负载特征量进行自相关特征匹配处理,提取模糊信息的平均互信息特征量,结合关联规则模糊配对方法进行大数据混沌分区,实现模糊信息的优化聚类,根据数据聚类结果实现模糊信息准确抽取,对抽取的高维模糊信息进行特征压缩,降低计算开销。仿真结果表明,采用该方法进行大数据样本序列的模糊信息抽取的聚类性较好,抗类间扰动能力较强,模糊信息抽取的准确概率较高,在数据挖掘和特征提取中具有很好的应用价值。  相似文献   

6.
Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据.文中将使用Asp. Net技术开发一种基于Web内容的数据自动抽取方法.首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c#技术自动抽取目标数据并生成所需Web页面.这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息  相似文献   

7.
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

8.
多信息块Web页面中的抽取规则   总被引:4,自引:0,他引:4  
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block)Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。  相似文献   

9.
现有的信息抽取工作多是针对无层次结构的数据信息,而在实际任务中,文本中的数据常常具有复杂的嵌套层次结构,如文档中包含多个不同类型的信息块序列,每个块中又包含了一个独立的信息序列.针对具有层级结构的信息抽取问题,提出一种基于联合序列标注的层级信息抽取方法.一方面使用BiLSTM-CNN-CRF模型分别对不同层级的数据进行建模,另一方面通过联合学习方法实现层次级的信息抽取,使得不同层次的信息抽取任务能够同时而有效地进行信息交互和独立抽取,提高了信息抽取任务的准确率.  相似文献   

10.
Web表格信息抽取模型的设计与实现   总被引:1,自引:0,他引:1  
Web表格作为一种简洁有效的数据信息表达方式,已广泛应用于Web页面中.现提出一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块三个模块组成,根据Web表格的结构标记和自定义的启发式规则来抽取表格信息.实验结果表明该模型能够很好地应用于Web表格信息的抽取.  相似文献   

11.
Conceptual-model-based data extraction from multiple-record Web pages   总被引:7,自引:0,他引:7  
Electronically available data on the Web is exploding at an ever increasing pace. Much of this data is unstructured, which makes searching hard and traditional database querying impossible. Many Web documents, however, contain an abundance of recognizable constants that together describe the essence of a document's content. For these kinds of data-rich, multiple-record documents (e.g., advertisements, movie reviews, weather reports, travel information, sports summaries, financial statements, obituaries, and many others) we can apply a conceptual-modeling approach to extract and structure data automatically. The approach is based on an ontology – a conceptual model instance – that describes the data of interest, including relationships, lexical appearance, and context keywords. By parsing the ontology, we can automatically produce a database scheme and recognizers for constants and keywords, and then invoke routines to recognize and extract data from unstructured documents and structure it according to the generated database scheme. Experiments show that it is possible to achieve good recall and precision ratios for documents that are rich in recognizable constants and narrow in ontological breadth. Our approach is less labor-intensive than other approaches that manually or semiautomatically generate wrappers, and it is generally insensitive to changes in Web-page format.  相似文献   

12.
The World Wide Web has turned hypertext into a success story by enabling world-wide sharing of unstructured information and informal knowledge. The Semantic Web targets the sharing of structured information and formal knowledge pursuing objectives of achieving collective intelligence on the Web. Germane to the structure of the Semantic Web is a layering and standardization of concerns. These concerns are reflected by an architecture of the Semantic Web that we present through a common use case. Semantic Web data for the use case is now found on the Web and is part of a quickly growing set of Semantic Web resources available for formal processing.  相似文献   

13.
利用XML技术解决Web数据挖掘中数据异构的问题   总被引:1,自引:0,他引:1  
讨论了Web数据挖掘中的数据异构问题,通过XML技术建立了一个半结构化数据模型和一个自动抽取模型,以解决Internet上绝大多数因异构、非结构化、动态数据集成问题所导致的Web数据挖掘的困难。  相似文献   

14.
Large content networks like the World Wide Web contain huge amounts of information that have the potential of being integrated because their components fit within common concepts and/or are connected through hidden, implicit relationships. One attempt at such an integration is the program called the “Web of Data,” which is an evolution of the Semantic Web. It targets semi-structured information sources such as Wikipedia and turns them into fully structured ones in the form of Web-based databases like DBpedia and then integrates them with other public databases such as Geonames. On the other hand, the vast majority of the information residing on the Web is still totally unstructured, which is the starting point for our approach that aims to integrate unstructured information sources. For this purpose, we exploit techniques from Probabilistic Topic Modeling, in order to cluster Web pages into concepts (topics), which are then related through higher-level concept networks; we also make implicit semantic relationships emerge between single Web pages. The approach has been tested through a number of case studies that are here described. While the applicative focus of the research reported here is on knowledge integration on the specific and relevant case of the WWW, the wider aim is to provide a framework for integration generally applicable to all complex content networks where information propagates from multiple sources.  相似文献   

15.
当前Web的发展越来越快,Web上的信息也越来越丰富。如何能够快速准确地查找到有价值的信息成为一个人们普遍关心的问题,虽然目前有一些工具,例如各种搜索引擎,可以解决这个问题,但是结果都不太令人满意。另外,在数据库领域中,数据库技术可以支持复杂的查询请求,并且能够返回精确的查询结果。可否将数据库技术应用到Web上呢?从模型化的观点来看,在Web的某个局部的特定领域当中,数据库技术与搜索引擎技术有望结合起来实现更加精确的查询。为此,作者展开了相关的研究,设计并实现了一个原型系统WebView。论文主要介绍了该系统的查询表达部分的设计方法,通过采用三层模式框架和概念复合技术,使得用户可以很方便地表达比较复杂的查询请求。  相似文献   

16.
Web数据挖掘中的数据预处理   总被引:11,自引:0,他引:11  
Web数据挖掘是分析网络应用的主要手段,其数据源一般是网络服务器日志,然而日志记录的是杂乱的,不完整的,不准确的并且是非结构化的数据,必须进行数据预处理。文章将预处理过程分为3个阶段-数据清洗、区分使用者,会话识别,并提出了一个高效的Web数据挖掘预处理结构WLP和相应的算法。  相似文献   

17.
随着互联网和信息技术的日新月异,非结构化数据量有呈几何级数增长的趋势。尤其是Web2.0网络社区的流行与火爆,使得增长趋势得到了进一步的加速。因此,面对海量的非结构化数据,如何有效地管理和组织它们,以便于终端用户进行信息存取,成为了一个迫在眉睫的重要研究课题。本文通过对非结构化数据的文本的建模和文本相似度比较,对于大规模非结构化数据的分类算法进行了讨论和研究,并将此算法应用到了中国移动的投诉数据分类系统中。在系统实施后,非常有效地提高了投诉数据的处理效率,从而印证所提出分类算法及系统框架的有效性。  相似文献   

18.
针对网页非结构化信息抽取复杂度高的问题,提出了一种基于网页分割的Web信息提取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本提取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

19.
一种基于模板的快速网页文本自动抽取算法*   总被引:1,自引:1,他引:0  
针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。  相似文献   

20.
基于Web的快速信息抽取   总被引:7,自引:0,他引:7  
介绍了一种基于Web的信息抽取的快速实现方法,该方法将信息抽取划分为两个阶段,在每个阶段采用不同的数据模型,对于半结构和无结构的信息抽取都有很好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号