首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
集成Web 数据的系统框架与实现方法   总被引:5,自引:0,他引:5  
基于我们正在研究和开发的项目Panorama,本文提出了一个基于XML和CORBA的Web数据集成系统框架,该框架可以集成来自Web上多个异构的数据源,包括关系数据库、面向对象数据库,HTML和XML文档及结构化文本文件。在系统实现中,把Web看作是一个巨大的虚拟数据库,以CORBA作为分布式对象模型,以XML作为公共誓据模型,并且以XML-QL作为全局查询语言来完成Web上的数据查询和集成。文中还详细分析和描述了系统框架中的一些主要模块的实现方法,具有很好的可操作性。  相似文献   

2.
专利文献的管理和分析对于知识产权保护和企业科技创新非常重要.专利个性化管理与服务系统是基于对象代理数据库管理系统的网上专利信息服务系统,它能够提供专利下载工具、检索与统计分析和个性化管理等先进功能.专利下载工具用于集成各国专利局的检索接口,从检索结果中抽取出结构化专利信息;专利检索与统计分析服务通过在本地建立专利数据库和全文索引来实现,能够提供专利各类查询和统计分析服务;个性化服务功能基于对象代理模型创建个性化数据空间来实现,能够自动更新数据空间中的数据,使得用户获得最新的专利信息.  相似文献   

3.
1.引言随着Internet的发展和异构信息源(从传统的RDBMS到半结构化信息源)集成技术的提高,对Web环境下的信息进行集成、分析处理并提供决策服务己成为当前的研究热点。Web信息集成最初采取Mediator/Wrapper框架的虚拟方案。Ullman在提交给VLDB‘97的论文中指出,“Media-tor实际上是一个或多个信息源上的视图”。用户通过Media-tor提供的数据模式访问数据源。Wrapper实现Mediator数据模式与源数据的映象。当用户提交一个查询时,Mediator确定哪些数据源与该查询相关,把查询分解为各数据源上的子查询,提交给相应的Wrapper处理。  相似文献   

4.
利用XML技术解决Web数据挖掘中数据异构的问题   总被引:1,自引:0,他引:1  
讨论了Web数据挖掘中的数据异构问题,通过XML技术建立了一个半结构化数据模型和一个自动抽取模型,以解决Internet上绝大多数因异构、非结构化、动态数据集成问题所导致的Web数据挖掘的困难。  相似文献   

5.
提出了一种新型的桥梁结构健康监测预警系统。对系统预警信息进行分级,通过基于GSM网络的SMS服务和Internet电子邮件服务,提供多种形式的远程及时预警,用户可以通过手机发送指令远程查询监测系统信息,通过Web登录预警系统进行远程人工预警和系统管理。系统由布设在桥梁监测中心的GSM通讯模块和短信预警主机、智能预警引擎模块、预警系统数据库、远程Web预警管理系统等部分组成。  相似文献   

6.
介绍了一种基于Web的分布式EMC数据库集成查询系统的设计及其实现。系统通过中间代理层向用户提供了统一的数据库视图,并采用了一种基于关键字的倒排索引方法以提高系统的查询性能。  相似文献   

7.
半结构化数据查询重写   总被引:10,自引:1,他引:10  
查询重写是数据库研究的一个基本问题,它和查询优化,数据仓库,信息集成,语义缓存等问题紧密相关,目前Internet上存在海量的半结构化数据,在信息集成过程中产生了大量半结构化视图,如何利用物化半结构化视图来重写用户查询,减少响应时间成为研究热点问题,上述问题本质上是NP问题,提出了一种半结构化查询重写的新方法,该方法在保证算法正确性和完备性的基础上,利用半结构化数据特点和查询子目标之间的关系,减少了指数空间的查询重写候选方案生成,理论分析表明,它极大地降低了算法的代价。  相似文献   

8.
本体论在基于Web的土壤知识体系智能检索系统中的应用   总被引:1,自引:0,他引:1  
随着Internet的迅速发展与普及,如何从海量的网络信息资源中及时、准确地找到所需的信息成为当今的一个研究热点。本体论(ontology)的引入为面向Web的智能检索提供了新的方式。文章以土壤分类知识体系为例,采用纯XML(eXtensibleMarkupLanguage)数据库Tamino作为信息导航库,根据用户输入的查询条件,以直观的树型结构来显示相关分类信息,采用点击方式理解用户的需求,实现Web智能检索。该文还介绍了智能检索系统的设计与实现的具体过程以及采用的XML和JSP(JavaServerPages)技术,可以将其推广应用于网络环境下的其他共享信息资源检索,为用户提供高效、贴切的服务。  相似文献   

9.
数据集成中XML数据查询语义重写   总被引:10,自引:0,他引:10  
查询重写是数据库研究的一个基本问题,它和查询优化,数据仓库,数据集成,语义缓存等数据库问题密切相关,为提高集成系统的查询效率,系统选择提交频率较高的XML查询物化为中间层视图,用户提交查询后,系统尽可能利用中间视图层中视图,而不是访问数据源来回答查询,这个问题实际可以归结为半结构化查询重写问题,考虑到中间视图层空间的有限性,已有视图应当尽可能回答更多的查询,传统查询重写方法有考虑半结构化数据之间的约束,而根据约束可以等价变换查询,从而提高中间视图层中的表达能力,提出了一种新的半结构化查询重写的方法,该方法在保证算法正确性和完备性的基础上,利用上半结构化数据中的约束,尤其是XML文件中的路径依赖,来增强中间层物化视图的表达能力,理论分析和初步原型实验证明方法的有效性。  相似文献   

10.
挖掘Web数据   总被引:1,自引:0,他引:1  
随着WorldWideWeb应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具有价值的信息源,但因Web所固有的开放性、动态性和异构性,又使用户很难准确快捷地从WWW上获取所需信息,为了解决这一问题提出了web数据挖掘这一概念。异构数据库环境和半结构化的数据结构是Web数据挖掘遇到的新问题。XML的出现为Web数据挖掘带来了契机。文中介绍了Web数据挖掘定义和分类,阐述了XML在Web挖掘中的重要作用,最后给出了一个基于XML的Web数据识别和抽取系统。  相似文献   

11.
Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。  相似文献   

12.
Internet化学信息的系统挖掘工具   总被引:1,自引:0,他引:1  
本文简要介绍中国科学院过程工程所(原化工冶金所)在Internet化学化工信息资源系统挖掘方面正在形成的一个较完整的化学专业信息获取平台,包括:(1)国家科学数字图书馆化学学科信息门户ChIN;(2)网络化学化工专业搜索引擎ChemEngine;(3)化学深层网挖掘工具ChemDB Portal.其中ChIN已经成熟,是国内权威、中国唯一被国际承认的网络化学资源导航系统;ChemEngine是通用搜索引擎技术与化学相关的领域知识相结合形成的化学化工专业搜索引擎,初步测试优于国际具有类似功能的系统:德国的ChemGuide和美国的Chemlndustry.ChemDB Portal则是正在进行的、基于XML对化学深层网数据进行提取和索引方法的研究,这一方法尚未见报道.这些工具可为检索网络化学相关信息提供更方便、更好的专业化解决方案.  相似文献   

13.
使用分类器自动发现特定领域的深度网入口   总被引:4,自引:0,他引:4  
王辉  刘艳威  左万利 《软件学报》2008,19(2):246-256
在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口.  相似文献   

14.
BusSEngine: a business search engine   总被引:1,自引:1,他引:0  
With the emergence of World Wide Web, business’ databases are increasingly being queried directly by customers. The customers may not be aware of the underlying data and its structure, and might have never learned a query language that enables them to issue structured queries. Some of the business’ employees who query the databases may also not be aware of the structure of the data, but they are likely to be aware of some labels of elements containing data. We propose in this article: (1) an XML Keyword-Based search engine for answering business’ customers called BusSEngine-K, and (2) an XML loosely Structured-Based search engine for answering business’ employees called BusSEngine-L. The two engines employ novel context-driven search techniques and are built on top of XQuery search engine. The two engines were evaluated experimentally and compared with three recently proposed XML search engines. The results showed marked improvement.  相似文献   

15.
Queries to Web search engines are usually short and ambiguous, which provides insufficient information needs of users for effectively retrieving relevant Web pages. To address this problem, query suggestion is implemented by most search engines. However, existing methods do not leverage the contradiction between accuracy and computation complexity appropriately (e.g. Google's ‘Search related to’ and Yahoo's ‘Also Try’). In this paper, the recommended words are extracted from the search results of the query, which guarantees the real time of query suggestion properly. A scheme for ranking words based on semantic similarity presents a list of words as the query suggestion results, which ensures the accuracy of query suggestion. Moreover, the experimental results show that the proposed method significantly improves the quality of query suggestion over some popular Web search engines (e.g. Google and Yahoo). Finally, an offline experiment that compares the accuracy of snippets in capturing the number of words in a document is performed, which increases the confidence of the method proposed by the paper. Copyright © 2010 John Wiley & Sons, Ltd.  相似文献   

16.
分布式搜索引擎的设计与实现   总被引:5,自引:0,他引:5  
贺广宜  罗莉 《计算机应用》2003,23(5):83-85,88
在一个分布各地的网站群组成的大系统中,不设立中心数据库的情况下,各网站对等协调工作,实现数据库级共享与搜索是一个难题。文中阐述了用Web Service技术实现分布式搜索的基本原理,并对Web Service代理模式、异地数据存取、大结果集处理、查询数据本地化等关键技术进行了详细介绍。  相似文献   

17.
Databases deepen the Web   总被引:2,自引:0,他引:2  
Ghanem  T.M. Aref  W.G. 《Computer》2004,37(1):116-117
The Web has become the preferred medium for many database applications, such as e-commerce and digital libraries. These applications store information in huge databases that users access, query, and update through the Web. Database-driven Web sites have their own interfaces and access forms for creating HTML pages on the fly. Web database technologies define the way that these forms can connect to and retrieve data from database servers. The number of database-driven Web sites is increasing exponentially, and each site is creating pages dynamically-pages that are hard for traditional search engines to reach. Such search engines crawl and index static HTML pages; they do not send queries to Web databases. The information hidden inside Web databases is called the "deep Web" in contrast to the "surface Web" that traditional search engines access easily. We expect deep Web search engines and technologies to improve rapidly and to dramatically affect how the Web is used by providing easy access to many more information resources.  相似文献   

18.
Search engines retrieve and rank Web pages which are not only relevant to a query but also important or popular for the users. This popularity has been studied by analysis of the links between Web resources. Link-based page ranking models such as PageRank and HITS assign a global weight to each page regardless of its location. This popularity measurement has shown successful on general search engines. However unlike general search engines, location-based search engines should retrieve and rank higher the pages which are more popular locally. The best results for a location-based query are those which are not only relevant to the topic but also popular with or cited by local users. Current ranking models are often less effective for these queries since they are unable to estimate the local popularity. We offer a model for calculating the local popularity of Web resources using back link locations. Our model automatically assigns correct locations to the links and content and uses them to calculate new geo-rank scores for each page. The experiments show more accurate geo-ranking of search engine results when this model is used for processing location-based queries.  相似文献   

19.
基于移动爬虫的专用Web信息收集系统的设计   总被引:3,自引:0,他引:3  
搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分析、建索引,然后提供检索服务。文章介绍了一种更加有效的建立Web索引的方法,该方法是基于移动爬虫(MobileCrawler)的。在此提出的爬虫首先被传送到数据所在的站点,在那里任何不需要的数据在传回搜索引擎之前在当地被过滤。这个方法尤其适用于实施所谓的“智能”爬行算法,这些算法根据已访问过的Web页面的内容来决定一条有效的爬行路径。移动爬虫是移动计算和专业搜索引擎两大技术趋势的结合,能够从技术上很好地解决现在通用搜索引擎所面临的问题。  相似文献   

20.
一种支持异构数据集成的Web服务合成方法   总被引:1,自引:0,他引:1  
全立新  岳昆  刘惟一 《计算机应用》2007,27(6):1438-1441
基于“协作者”数据集成架构,以网络环境中的数据查询为基本Web服务、关系数据库和XML文档为异构数据源的典型代表,并以其上已有的查询处理和XML数据绑定技术为基础,给出了Web服务环境下的数据集成模型。通过定义该模型上的基本操作(服务),利用有向图结构描述服务合成过程,提出了支持异构数据集成的Web服务合成方法和相应的优化策略。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号