共查询到16条相似文献,搜索用时 218 毫秒
1.
《计算机应用与软件》2013,(7)
针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。 相似文献
2.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果. 相似文献
3.
4.
5.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点. 相似文献
6.
7.
针对传统的基于关键词的搜索与数据检索存在的弊端,本文提出基于本体的Web信息抽取框架。该框架首先获取Web页面,将其转换为格式良好的HTML文档,然后利用HTML解析器将该文档转化为DOM树,再根据XPath表达式获取用户感兴趣的数据块,由此生成抽取规则,最后通过OntPMatch算法实现数据的抽取,并以RDF数据格式储存信息。本文以棉花信息为研究对象加以实证研究,实现Web生物信息数据抽取原型系统,为方便用户发现有价值的Web生物信息资源提供一个有效的工具。 相似文献
8.
Web信息抽取已经成为下一代Web应用的一个研究热点.在分析了当前Web信息抽取技术面临问题的基础上,结合网格技术的发展,提出了一个基于网格的Web信息抽取系统(GWIES),并给出了GWIES的设计方案,描述了系统实现的关键技术. 相似文献
9.
为了从海量数据空间中快速、准确获取用户所需Web信息,设计并实现了一个基于分类本体的Web信息集成系统.设计了Web信息自动归类算法,研究了基于分类本体的异构分类体系集成方法,实现了异构分类体系的合并,形成逻辑统一的、基于分类的Web集成视图.通过Web数据抽取机制以及Web信息分类技术实现了检索结果的分类和层次化展示,方便用户浏览、快速定位所需信息. 相似文献
10.
基于Web的包装器技术的现状与发展 总被引:1,自引:0,他引:1
Web信息抽取技术已成为当前一个研究热点,信息抽取的主要工作由包装器来完成。根据包装器的原理,对现有的信息抽取技术进行了分类,并结合典型的系统讨论各抽取技术的特点,提出了以本体来构建包装器的规则模型。 相似文献
11.
12.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。 相似文献
13.
基于本体论的Web信息抽取 总被引:15,自引:0,他引:15
以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率. 相似文献
14.
As the internet grows rapidly, millions of web pages are being added on a daily basis. The extraction of precise information is becoming more and more difficult as the volume of data on the internet increases. Several search engines and information fetching tools are available on the internet, all of which claim to provide the best crawling facilities. For the most part, these search engines are keyword based. This poses a problem for visually impaired people who want to get the full use from online resources available to other users. Visually impaired users require special aid to get?along with any given computer system. Interface and content management are no exception, and special tools are required to facilitate the extraction of relevant information from the internet for visually impaired users. The HOIEV (Heavyweight Ontology Based Information Extraction for Visually impaired User) architecture provides a mechanism for highly precise information extraction using heavyweight ontology and built-in vocal command system for visually impaired internet users. Our prototype intelligent system not only integrates and communicates among different tools, such as voice command parsers, domain ontology extractors and short message engines, but also introduces an autonomous mechanism of information extraction (IE) using heavyweight ontology. In this research we designed domain specific heavyweight ontology using OWL 2 (Web Ontology Language 2) and for axiom writing we used PAL (Protégé Axiom Language). We introduced a novel autonomous mechanism for IE by developing prototype software. A series of experiments were designed for the testing and analysis of the performance of heavyweight ontology in general, and our information extraction prototype specifically. 相似文献
15.
16.
语义网的研究中基于领域本体的构建研究方法基本上还处于手工阶段,如何在本体的设计中实现自动构建仍然是目前需要解决的问题,而采用基于图的构建原理,应用MCL聚类的本体自动构建算法进行概念提取和关系运算。将领域文本文档映射为文档概念图,在关系运算中采用基于频繁信息子图的gSpan算法任意关系提取算法,得到基于OWL-DL描述的领域本体,并通过评价反馈机制进行闭环校正是研究的核心思想。 相似文献