首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 562 毫秒
1.
表格信息抽取引擎的设计与实现   总被引:3,自引:0,他引:3  
王治和 《计算机科学》2006,33(10):126-127
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。  相似文献   

2.
Web表格信息抽取模型的设计与实现   总被引:1,自引:0,他引:1  
Web表格作为一种简洁有效的数据信息表达方式,已广泛应用于Web页面中.现提出一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块三个模块组成,根据Web表格的结构标记和自定义的启发式规则来抽取表格信息.实验结果表明该模型能够很好地应用于Web表格信息的抽取.  相似文献   

3.
实现了以table标记为信息存贮特点的多记录网页信息的自动抽取工作,该抽取方法从网页信息的存贮特点入手,将有用信息定位于表格中,该抽取方法能够在一个网页中自动查找结构相同或相似的记录模式,并自动分析该记录模式的结构特点从而调用相应的抽取模式(XSLT文档)实现对信息的自动抽取。  相似文献   

4.
Web表格信息抽取是信息抽取在Web表格上的一种应用,是当今的一个研究热点。本文首先分析了Web表格信息抽取的过程,包括表格识别、结构识别以及“属性-值”对的提取;然后对当前国内外在基于特定域和独立城两种表格信息抽取研究方法上的动态及成果追行了比较和分析。在此基础上,提出了表格抽取的关键技术——表格结构识别上的一些想法;最后展望了Web表格信息抽取技术的发展趋势。  相似文献   

5.
表格数据自动录入系统的一种数据抽取方法   总被引:1,自引:0,他引:1  
本文提出了一种抽取表格数据的方法。该方法首先对未填有数据的空表格查找表格特征,然后合并某些特征,最后形成表格中的矩形域,再从矩形域得到空表的信息,从而存储该类表格数据域的相对位置。填有数据的表格能直接按空表信息抽取数据,可大大提高抽取数据的速度  相似文献   

6.
Web信息的自主抽取方法   总被引:12,自引:0,他引:12  
许建潮  侯锟 《计算机工程与应用》2005,41(14):185-189,198
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。  相似文献   

7.
基于本体的WEB表格信息抽取   总被引:9,自引:0,他引:9  
本文给出了一个基于本体的WEB表格信息抽取方法,在信息的抽取过程中,利用学习手段,逐渐完善本体的构造,从而增强本体对应用领域的描述能力,使系统的信息抽取自动化程度逐渐提高。  相似文献   

8.
在Web页面常用到表格这种元素。本文提出一种根据表格语义来进行信息抽取方法。首先提出了一种短语语义相似度的度量方法,然后利用短语语义的相似度确定表格标题行(列),并对表格行(列)与抽取字段的对应关系进行计算,最后计算表格的整体语义,度量该表格与所要抽取的内容有多大相关度。  相似文献   

9.
互联网时代, 数据呈爆发式的增长, 怎样从这些数据中抽取出有用的信息, 已是人工智能研究中的一个核心问题. 知识图谱作为解决这一问题的重要方法, 已成为人工智能技术发展的核心推动力. 信息抽取是知识图谱构建过程中的首要环节, 它实现了从海量的数据中抽取出结构化实体以及实体之间的关系. 本文探讨知识图谱中信息抽取的发展趋势, 对实体抽取、关系抽取和事件抽取及其关键技术进行了综述, 分析和讨论了当前存在的问题、挑战以及未来发展的方向.  相似文献   

10.
主要分析了企业主页上描述企业基本信息表达语句的结构特点,提出了基于正则表达式的企业主页信息抽取的方法和技术,并设计开发了一个相应的原型系统对一些企业信息项进行抽取。实验结果表明,该系统可以有效地从企业主页上抽取企业相关信息,并得到较高的抽全率和抽准率。  相似文献   

11.
基于划分贴近度的不完备信息系统属性约简   总被引:1,自引:0,他引:1       下载免费PDF全文
在不完备信息系统中,通过引入划分贴近度,对不完备信息系统中属性的重要性进行了定义。针对不完备信息表和不完备决策表提出了两个新的基于划分贴近度的属性约简算法,两个算法的时间复杂度均为O(m2n2)。通过实例说明,这两个算法能分别得到不完备信息表的约简和不完备决策表的相对约简。  相似文献   

12.
在现实世界中,不完备信息系统大量存在的,信息系统中空值的存在大大增加了信息表的不确定性,信息表无法产生更多潜在的有价值规则.处理不完备信息表的一种做法是先将空值补齐再提取规则,常用的空值补齐算法通常都是根据同属性其他值出现的频率高低估计空值,但是此方法不一定能保证规则的一致性.本文提出一种基于信息粒度的空值补齐方法GRCC,首先根据定义的信息粒度选择信息粒度最大的列,然后由相容类产生空值的属性值范围,最后利用MDL准则确定遗漏项的属性值,如此逐列进行填充直到完成全部信息表的补齐.经过实验,GRCC算法补齐的信息表比其它补齐方法产生的信息表产生更多高可信度和高支持度的规则,降低了信息表的不确定性.  相似文献   

13.
王希雷  苏静 《微机发展》2008,18(4):118-120
简化决策表具有高效处理数据的能力,一经提出即得到广泛的重视。文中通过反例证明简化决策表在处理数据时会产生错误,改变了原决策表表达信息。通过分析得出简化决策表不具备处理不一致数据的能力,针对简化决策表存在的缺陷对其进行修正,提出新简化决策表的概念和建立算法。新简化决策表具有高效处理数据的能力,同时具备处理不一致数据的能力,并且不需要修改原有以决策表或简化决策表为基础的求核和求约简算法。  相似文献   

14.
针对粗糙集理论只能处理离散数据的局限,提出了基于决策的剥离式连续属性离散化方法,一改传统的候选断点集合的获取方法,直接通过分析连续属性在各决策类的取值范围和计算属性重要度,完成对连续属性的初步离散.此外,本文提出候选断点集的推移原则,可逐步减小候选断点集的范围.由于每次都是针对尚不能明确分类的样本进行细化,因此随着候选断点集的减少和明确分类样本的增加,系统能够迅速收敛,并且离散化后的决策表总是相容的,这与目前很多离散方法不考虑决策相容性相比,能够最大限度地保留系统的有用信息.本文提出的离散化方法是领域独立的,不需要领域知识,可应用于不同领域的连续属性的离散化.  相似文献   

15.
Vague决策表中的含糊规则获取策略   总被引:27,自引:0,他引:27  
能否有铲地处理好决策表中的含糊性在很大程度上影响到决策效果。Cau和Buehrer所提出的Vague集是对于模糊集概念的推广,最近该理论已被作为一种新型的描述含糊数据的有效工具,并在多个领域中获得了成功的应用。该文将Vague集应用于决策表中数据的描述之中,通过一个真肃属函数和一个假肃属函数来分别构造[0,1]由的子区间。文中详细地讨论了造成Vague决策表中含糊性的各种因素,指出不确定性是有别于未知性的。在引入Vague区别矩阵的概念后,给出了另一种含糊规则的获取策略。通过与作者在以往文献中提出的Vague包含与相交因子的对比,从理论上分析了它们各自的适用条件。  相似文献   

16.
TreeView在主从表关系处理中的应用   总被引:1,自引:0,他引:1  
TreeView是一个具有强大功能的拉件。本文通过一个以Delphi7.0为开发工具、SQL Server为后台的高校人事管理信息系统实例。阐述TreeView控件在处理主从关系数据表时的应用。  相似文献   

17.
在分析模式匹配算法的基础上,提出了一种改进的模式匹配算法,并将该算法应用于大规模数据分析软件设计之中。在数据分析的初始阶段,通过该模式匹配算法建立一张数据索引表,随后分析软件借助于索引表和帧结构分布表,对原始数据进行分析和处理。该算法的应用,有效的解决了大规模数据处理过程中的难题,提高了大规模数据处理软件的效率。  相似文献   

18.
朱振国  赵毅  李邕 《计算机科学》2008,35(8):131-133
Rough集理论是近年来发展起来的一种有效地处理不精确、不确定、含糊信息的数学理论方法,在机器学习、数据挖掘、智能数据分析、控制算法获取等领域取得了很大的成功.决策表是Rough Set理论的处理对象,用RoughSet对决策表进行规则提取通常有代数观和信息观两种主要理论和方法.使用哪一种方法提取的规则集更好是很多研究者的目标.本文针对Rough Set理论的核心内容之一的知识获取进行了研究,提出了一种基于属性重要性排序的知识获取算法,并且证明了在不相容系统中使用信息观方法比使用代数观的方法更好,能够提取更合理的规则集.  相似文献   

19.
Rough集方法是一种处理不确定或模糊知识的重要工具。论文在现有的基于Rough集理论的缺省规则挖掘算法的基础上,将单属性信息增益概念扩充为多属性的情况,提出了基于信息增益的缺省规则的搜索策略和挖掘方法。实验表明,该方法能够发现简洁、易理解和实用的规则,同时具有较低的计算复杂性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号