首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。  相似文献   

2.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

3.
Web信息抽取技术已成为一个活跃的研究领域。本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统讨论各取技术的特点,还进一步指出了目前以本体为基础的Web信息抽取研究须解决的问题  相似文献   

4.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

5.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点.  相似文献   

6.
基于本体关系匹配的信息抽取   总被引:3,自引:0,他引:3       下载免费PDF全文
何召卫  陈俊亮 《计算机工程》2007,33(21):207-209
目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优于其他4种信息抽取算法。  相似文献   

7.
针对传统的基于关键词的搜索与数据检索存在的弊端,本文提出基于本体的Web信息抽取框架。该框架首先获取Web页面,将其转换为格式良好的HTML文档,然后利用HTML解析器将该文档转化为DOM树,再根据XPath表达式获取用户感兴趣的数据块,由此生成抽取规则,最后通过OntPMatch算法实现数据的抽取,并以RDF数据格式储存信息。本文以棉花信息为研究对象加以实证研究,实现Web生物信息数据抽取原型系统,为方便用户发现有价值的Web生物信息资源提供一个有效的工具。  相似文献   

8.
Web信息抽取已经成为下一代Web应用的一个研究热点.在分析了当前Web信息抽取技术面临问题的基础上,结合网格技术的发展,提出了一个基于网格的Web信息抽取系统(GWIES),并给出了GWIES的设计方案,描述了系统实现的关键技术.  相似文献   

9.
为了从海量数据空间中快速、准确获取用户所需Web信息,设计并实现了一个基于分类本体的Web信息集成系统.设计了Web信息自动归类算法,研究了基于分类本体的异构分类体系集成方法,实现了异构分类体系的合并,形成逻辑统一的、基于分类的Web集成视图.通过Web数据抽取机制以及Web信息分类技术实现了检索结果的分类和层次化展示,方便用户浏览、快速定位所需信息.  相似文献   

10.
基于Web的包装器技术的现状与发展   总被引:1,自引:0,他引:1  
Web信息抽取技术已成为当前一个研究热点,信息抽取的主要工作由包装器来完成。根据包装器的原理,对现有的信息抽取技术进行了分类,并结合典型的系统讨论各抽取技术的特点,提出了以本体来构建包装器的规则模型。  相似文献   

11.
本体论研究综述   总被引:175,自引:3,他引:175  
起源于哲学的本体论(ontology)在信息科学领域受到广泛关注,其重要性已在许多方面表现出来,如知识工程、数据库设计和集成、信息检索与获取、软件工程、自然语言处理等.尤其是本体论在Web上的应用导致了语义Web的诞生,有望解决Web信息共享时的语义问题,实现世界范围的知识级信息集成.综述计算机科学中本体论的研究和应用现状,主要内容包括:本体论的起源和发展,本体论的定义,本体论的描述语言以及构建方法论,本体论与语义Web,以及本体论的应用等.  相似文献   

12.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。  相似文献   

13.
基于本体论的Web信息抽取   总被引:15,自引:0,他引:15  
以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率.  相似文献   

14.
As the internet grows rapidly, millions of web pages are being added on a daily basis. The extraction of precise information is becoming more and more difficult as the volume of data on the internet increases. Several search engines and information fetching tools are available on the internet, all of which claim to provide the best crawling facilities. For the most part, these search engines are keyword based. This poses a problem for visually impaired people who want to get the full use from online resources available to other users. Visually impaired users require special aid to get?along with any given computer system. Interface and content management are no exception, and special tools are required to facilitate the extraction of relevant information from the internet for visually impaired users. The HOIEV (Heavyweight Ontology Based Information Extraction for Visually impaired User) architecture provides a mechanism for highly precise information extraction using heavyweight ontology and built-in vocal command system for visually impaired internet users. Our prototype intelligent system not only integrates and communicates among different tools, such as voice command parsers, domain ontology extractors and short message engines, but also introduces an autonomous mechanism of information extraction (IE) using heavyweight ontology. In this research we designed domain specific heavyweight ontology using OWL 2 (Web Ontology Language 2) and for axiom writing we used PAL (Protégé Axiom Language). We introduced a novel autonomous mechanism for IE by developing prototype software. A series of experiments were designed for the testing and analysis of the performance of heavyweight ontology in general, and our information extraction prototype specifically.  相似文献   

15.
一种改进的基于本体的Web信息抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
以Web页面信息项本体定义为基础,对单个样本页面信息项路径进行启发式学习,对所有样本页面集中信息块路径进行归纳学习,识别结构相似的信息块子树位置,以准确划定信息抽取区域,降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体,通过归纳学习算法生成抽取规则,提高Web信息的抽准率。  相似文献   

16.
郑学伟 《微机发展》2014,(12):64-68
语义网的研究中基于领域本体的构建研究方法基本上还处于手工阶段,如何在本体的设计中实现自动构建仍然是目前需要解决的问题,而采用基于图的构建原理,应用MCL聚类的本体自动构建算法进行概念提取和关系运算。将领域文本文档映射为文档概念图,在关系运算中采用基于频繁信息子图的gSpan算法任意关系提取算法,得到基于OWL-DL描述的领域本体,并通过评价反馈机制进行闭环校正是研究的核心思想。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号