首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。  相似文献   

2.
以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统.首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取.测试结果表明,系统的抽取效果良好,并具有较强的扩展性.  相似文献   

3.
对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享.  相似文献   

4.
XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-based entity extraction,KEE)方法.KEE方法利用查询松弛技术,自动地生成抽取实体的候选查询集合,基于相似性测度,从候选查询中选取适用于抽取实体的查询集合.作为KEE方法的一个具体实现,SharingEE算法利用标准化的查询松弛技术,减少了候选查询中的冗余,利用基于自动机的查询处理技术,在多个候选查询之间共享中间结果,从而减少计算开销.在真实和模拟数据上运行的实验验证了算法的效率和有效性.实验结果表明,KEE方法可以很好地解决实体抽取问题,并可以扩展到大规模数据上.  相似文献   

5.
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。  相似文献   

6.
基于Agent和XML的Web页面信息抽取研究与设计   总被引:4,自引:2,他引:4  
在以前相关研究的基础上,提出了一个建立在Agent和XML基础上的Web页面信息抽取的原型系统。在这个原型系统里,利用Agent的自治能力和合作能力来协助用户对抽取请求进行公式化表述和结合知识库学习抽取规则等。另外,系统还用XML语言描述抽取请求和抽取规则,在其中加入一些语义信息,这些语义信息可被有效利用,从而提高抽取的精确性。  相似文献   

7.
为了得到统一的数据形式以利于数据操作和处理,提出了采用基于元数据的模板定制技术以实现信息抽取的方法.该方法有效地实现对非结构化文本的信息提取,将抽取信息转换为统一的XML格式,然后将XML格式的信息集成到关系数据库中.本方法在某造船厂的企业信息化中得到成功应用,为解决企业的信息集成问题提供了一种面向Word文档的新方案.  相似文献   

8.
该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据。该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式。在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据。  相似文献   

9.
用规则抽取句子中事件信息   总被引:2,自引:0,他引:2  
信息抽取是数据挖掘的重要课题.目前的研究主要通过机器学习的方法对信息进行抽取.但是机器学习对训练数据的质量要求高,学习过程中参数设置复杂.而利用事先构建好的规则可以简单有效的从文本中提取事件信息.提出一种基于抽取规则对句子中的事件信息进行抽取的方法,摆脱了繁杂的机器学习过程.该方法利用本体对动词与事件角色匹配规则、事件角色抽取规则、时间信息抽取规则和地点信息抽取规则进行定义,用OWL对这些抽取规则进行了描述,然后应用这些规则抽取句子中的动词词义信息、事件角色信息、时间信息和地点信息,并用本文提出的一种新评测指标对事件信息进行评测.实验表明该方法从句子中抽取事件信息是有效的.  相似文献   

10.
针对当前Deep Web信息检索中Web数据库返回的查询结果页面内容多样、形式各异、有效信息难以提取等不足,将信息抽取与数据融合技术加以改进,提出了对查询结果页面进行处理的技术.该技术通过对HTML页面解析、信息过滤、分块、剪枝、提取抽取规则,实现了有效信息的自动抽取.通过建立合并规则、去重规则、清洗规则,实现了数据的有效融合,并最终以统一的模式进行存储.最后,通过相关项目应用,验证了该技术的有效性和实用性.  相似文献   

11.
随着生产全球化和协作化的发展,企业生产与外界的交互和相互依赖日益密切,出现了如何按照数据消费者的需求将企业内部多样分布的数据友好地向外发布的问题。为了解决这一问题,提出了一种基于XML和J2EE的数据获取与发布技术,并以一个报表生成系统的设计为例阐明这一技术。利用XML可以方便、准确地描述企业的数据并且可以灵活地将数据发布到Web上,而J2EE可以将异构分布的企业信息系统与Web集成起来。  相似文献   

12.
研究Web信息提取技术,提出数据获取、规则定义和规则执行3个步骤的基于XML的半结构化Web信息提取方法,为进一步满足Web信息提取提供了一种高效的新方法.  相似文献   

13.
随着信息化建设的深入.异构数据库系统之闻进行数据交换、数据共享的需求越来越突出。因为XML技术具有平台无关性、易于扩展、交互性好和语义性强等特点,可以作为异构数据库之间进行数据交换的标准。给出关系模式与XML模式之间的映射规则和转换方法,设计异构数据的抽取转换工具,该抽取转换方法具有通用性,易于扩展。  相似文献   

14.
分析基于XML的Web信息提取.讨论相关技术在Web信息抽取中的应用并建立相应的Web信息抽取模型,实现Web信息的自动提取。通过分析如何向网络上的不同网站发送HTTP请求数据包,处理响应信息,从而获得包含知识信息的HTML文档或者XML文档;并在Oracle公司的ADF框架下给出Web信息抽取模型的实现程序。  相似文献   

15.
随着XML已成为网络上信息描述和信息交换的标准,XML在网络信息传输、数据交换和存储中得到大规模的应用,广泛应用于电子商务、电子政务等行业。随着XML的广泛应用,XML的安全性也越来越受到关注。本文在分析了信息安全的需求及传统安全技术的基础上,研究了XML加密和签名技术及其在信息安全中的应用,并对XML安全技术未来的应用进行了展望。  相似文献   

16.
针对异构环境下产品数据描述不统一以及产品信息共享难以实现的实际问题,利用XML的强扩展性,描述精确性以及平台无关性等特点,提出了以XML为基础的产品数据描述格式,给出了基于XML的产品配置方法以及产品配置管理模型,并设计了在该配置管理模型下配置规则的一种实现方式,同时给出了对应的结构树配置算法.最后还结合了一个配置实例来说明该方法.  相似文献   

17.
基于XML建模的研究及其在CAPP系统中的应用   总被引:2,自引:0,他引:2  
XML是数据访问领域的最新技术,本文分析了基于XML建立数据模型的必然趋势,讲述了基于XML进行模型设计的通用过程。详细分析了CAPP系统中的信息,在此基础上,讲述了基于XML建立CAPP系统信息模型的方法,并且对于零件特征信息进行了建模示例。  相似文献   

18.
支持XML信息检索的索引技术*   总被引:4,自引:0,他引:4  
作为互联网的新技术, XML 已经渗透到了Internet 的很多领域, 结构文档XML 的信息交换、提取、处理、查询的研究也日益受到重视。目前, 已经提出了许多面向XML 的查询语言, 这些查询语言一般基于路径和树模式。从信息检索理论与技术角度出发, 探讨XML 文档的索引技术, 以期达到内容和结构的双重检索。  相似文献   

19.
软件组件的形式化描述是基于组件开发复杂软件的基础之一。通过把组件的标识信息、外部信息、内部信息、术语信息、技术信息、非功能性属性信息和商业信息等组织成树型结构的形式,利用XML模式定义树型结构的语义规则,设计了数控领域内的组件描述方法。这种方法的一个重要特征是它是可扩展的。利用这种描述方法,在现有组件的基础上,实现了开发式数控系统,系统具有良好的扩展性和灵活性,这种描述方法具有很好的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号