首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。该文提出了一种基于隐马尔可夫模型的中文科研论文头部信息和引文信息抽取算法,分析了模型结构的学习和参数估计方法。在进行信息抽取时,利用分隔符、特定标识符等格式信息对文本进行分块,利用隐马尔可夫模型进行指定域的抽取。实验结果表明,该算法具有良好的准确率和召回率。  相似文献   

2.
论文元数据信息的自动抽取   总被引:16,自引:1,他引:16  
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。  相似文献   

3.
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。  相似文献   

4.
多信息块Web页面中的抽取规则   总被引:4,自引:0,他引:4  
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block)Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。  相似文献   

5.
Web表格信息抽取是信息抽取在Web表格上的一种应用,是当今的一个研究热点。本文首先分析了Web表格信息抽取的过程,包括表格识别、结构识别以及“属性-值”对的提取;然后对当前国内外在基于特定域和独立城两种表格信息抽取研究方法上的动态及成果追行了比较和分析。在此基础上,提出了表格抽取的关键技术——表格结构识别上的一些想法;最后展望了Web表格信息抽取技术的发展趋势。  相似文献   

6.
PDF文件信息的抽取与分析   总被引:5,自引:0,他引:5  
李珍  田学东 《计算机应用》2003,23(12):145-147
PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。  相似文献   

7.
基于Ontology的文本信息抽取   总被引:8,自引:1,他引:8  
网络中的电子文档以爆炸式的速度增长,其中很多数据是没有结构的或者半结构的,使信息的查询非常困难。提出一种基于Ontology的信息抽取方法。对需要信息抽取的领域,抽出它的关键词和信息片,并将其组织成为数据库的元组属性值,以方便查找。其实验数据来自WWW。  相似文献   

8.
在利用条件随机场进行信息抽取时,单纯基于词或基于块的方法,不能充分利用上下文信息在恰当粒度上进行切分和抽取,因此提出了一种基于条件随机场的科研论文信息分层抽取方法,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的特征函数,将文本切分成文本行、块或单个的词等恰当的层次,再采用L-BFGS算法学习模型参数并进行特定文本域的抽取。实验结果表明,该方法的抽取性能优于基于词或块的条件随机场模型的信息抽取方法。  相似文献   

9.
一种自动抽取Web信息方法的设计与实现   总被引:1,自引:1,他引:0  
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.  相似文献   

10.
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。  相似文献   

11.
本文分析了Web信息抽取的概念、特点,总结了Web信息抽取技术的分类、技术发展现状及其应用。描述了Web信息抽取的知识来源,并对Web信息抽取的几类典型方法进行了详细描述。  相似文献   

12.
随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取。在回顾Web信息抽取基本理论的基础上,该文对Web信息抽取技术进行较全面的综述,通过分析信息抽取的概念、信息抽取的类型和功能等进行介绍,以此有助于本研究继续向前发展。  相似文献   

13.
基于多层模式的多记录网页信息抽取方法   总被引:3,自引:0,他引:3  
为有效解决网页信息抽取所需知识的获取问题,提出一种基于多层模式的网信息抽取方法,(简称HPIE方法)。将网页信息抽取知识分为若干层,由抽象到具体逐层描述信息识别模式知识。HPIE方法能够利用各抽取对象之间存在的相互联系,以及抽取过程与结构所表成的新学习样本,不断完善多层模式的知识内容,并帮助最终从多个信息内容类似但其描述格式各异的HTML网页中,抽取出所需的多记录信息内容,有关多个(美国大学教员)论文目录网页的抽取实验结果表明,HPIE方法具有较强的网而信息自适应抽取能力。  相似文献   

14.
无论多么复杂的查询语句都是由查询目标和查询条件组成的,查询条件决定着查询语句的结构,查询条件之间可以是并列的,也可以是嵌套的,查询条件的顺序也不是固定的。本文采取信息抽取的原理来抽取查询条件语义信息,提出了抽取查询条件语义信息的算法,这些算法可形成中文查询语句的各种类型的查询条件。实验表明,这些算法可以
以有效地抽取查询条件语义信息。  相似文献   

15.
基于框架的词语搭配自动抽取方法   总被引:4,自引:1,他引:4  
曲维光  陈小荷  吉根林 《计算机工程》2004,30(23):22-24,195
提出了一种基于框架的词语搭配抽取方法,可以同时获取词语搭配以及搭配结构信息。引入相对词序比(RRWR)的方法对候选搭配词语进行筛选,应用语言学中词语搭配组合规律对候选搭配的词性进行限定,利用互信息等统计学模型在大规模语料中进行词语搭配的自动抽取,抽取的搭配平均准确率为84.73%,较Xtract系统高4.7%,较国内同类工作结果高50.79%。并且在获得搭配的同时得到了词语搭配的结构信息。  相似文献   

16.
针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。  相似文献   

17.
基于Web的表格信息抽取研究   总被引:1,自引:0,他引:1  
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

18.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

19.
介绍了一种多策略联合信息抽取方法——MSCIE(Multi-Strategy Comtbination Information Extraction).MSCIE将对表格式网页的信息抽取分为基于网页结构特征分析的信息抽取和基于模式匹配的信息抽取,提出了一种对网页DoM(Document Object Moclel)树的冗余信息进行剪枝分析的方法和一种实体特征模式发现算法分别用于这两种信息抽取方法,并通过两种策略联合完成信息抽取工作.应用于互联网竞争情报监测系统中,从大量网站中抽取多种商品的供求信息,取得了较高的准确率和召回率(平均在95%以上)。  相似文献   

20.
本体驱动的半结构化Web生物数据抽取   总被引:3,自引:0,他引:3  
成瑜  何洁月 《计算机工程》2006,32(5):192-194
提出由本体驱动,并根据文档结构和特征匹配来进行信息定位和信息抽取的方法,并实现了一个用户指导的交互式信息抽取原型系统。有效地解决了信息抽取中涉及的同义词,一词多义等语义问题,以及数据项不完整和排序不固定的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号