首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
朱德利 《计算机工程与设计》2006,27(23):4447-4449,4460
XML适合于解决Web数据挖掘中数据库环境异构和信息的半结构化等难题。Web结构挖掘是整个Web信息挖掘的重要组成部分。用XML来完成Web结构信息的预处理是将Web结构信息规范化并转化为XML数据,并以此明确网站的文件构成、组织方式、内容构成和内容的超链关系。提出基于XML的Web结构挖掘系统的实现过程,解决了XML文件通过标准接口读入到挖掘程序的关键技术。  相似文献   

2.
Web Services是一种全新的组件技术,XML是它的技术基础。主要介绍了Web Services的关键技术和实现Web Services技术的主要协议:XML、SOAP、WSDL和UDDI,以及基于.NET平台对Web Services组件的实现和应用。  相似文献   

3.
介绍了可扩展标识语言XML的基本概念、主要特点、应用范围及其相对于HTML语言的区别和优点.作为XML的应用,也对XML下的Web体系结构、该体系结构的优越性以及XML用于Web应用的发展趋势等问题进行了讨论.  相似文献   

4.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

5.
6.
刘伟  贺露 《软件》2013,(12):211-212
所谓基于本体的Web信息研究其实质就是对所构建的本体为信息抽取核心,本文通过对信息抽取系统的相关概念理论进行基础分析,分类比较基于本体的信息抽取系统,对基于本体的Web信息抽取系统分析研究,主要研究其整体构造、技术方法的分析和评价两方面内容。  相似文献   

7.
主要探讨高校信息化建设中如何保持应用系统之间数据一致性的问题。在分析数据集成技术的基础上.根据高校信息化建设的特点提出一种基于XML和Web Service的数据集成方案.并以应用系统中的教职工信息为例,通过使用XML和Web Service技术实现数据集成和数据共享。  相似文献   

8.
Oracle APEX是一种基于Oracle数据库的Web应用开发工具,可以帮助开发人员通过Web浏览器以及少量的编程,快速开发出企业级的Web应用系统。通过对Oracle APEX体系结构、主要组件和重要概念的研究有力地证明其在快速Web应用开发中的优越表现,为其他开发人员进行基于Oracle APEX的快速Web应用开发积累宝贵经验。  相似文献   

9.
研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取,进行预处理后转换为XML文档,采用基于PAT-array的模式发现算法自动发现重复模式,结合基于本体的关键词库自动识别页面数据显示结构模型,利用XML的对象-关系映射技术将数据存入知识数据库,由此实现Web数据自动抽取。同时,利用知识数据库已有知识从互联网抽取新知识,达到知识数据库的自扩展。以交通信息自动抽取及混合交通出行方案生成与表示系统进行的实验表明该系统具有高抽取准确率和良好的适应性。  相似文献   

10.
表格信息抽取引擎的设计与实现   总被引:3,自引:0,他引:3  
王治和 《计算机科学》2006,33(10):126-127
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。  相似文献   

11.
基于XML数据库的Web应用研究*   总被引:6,自引:2,他引:4  
使用XML作为数据库存储数据,是XML应用的重要领域。讨论了如何用XML数据库系统进行Web应用开发设计的相关技术,如XML数据库、XML文档及其有效性定义、数据转换链接和Web平台搭建等。  相似文献   

12.
XML及其在Web中的应用   总被引:4,自引:0,他引:4  
张峰  关立行 《微机发展》2002,12(4):17-19
介绍了可扩展标识语言XML的基本概念、主要特点、应用范围及其相对于HTML语言的区别和优点。作为XML的应用,也对XML下的Web体系结构、该体系结构的优越性以及XML用于Web应用的发展趋势等问题进行了讨论。  相似文献   

13.
可扩展标记语言XML的产生与应用技术   总被引:11,自引:2,他引:9  
可扩展标记语言 XML是一项新兴的网络技术,它由 W3C制订并于 1998年正式发布。 XML的产生源于 HTML和SGML,文章对这一背景给予了简要的讨论,并从可扩展性、结构描述和有效性确认三个主要方面介绍了XML的优点.文章重点讨论了基于 XML的网络应用,给出了一个通用的应用模式,详细探讨了其中的若干关键技术问题。  相似文献   

14.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

15.
一种新型的Web挖掘数据采集模型   总被引:1,自引:0,他引:1       下载免费PDF全文
本文在简要论述了当前Web挖掘采用的数据源不足后,分析了XML文档结构与Web挖掘算法结构的相似性,提出了采用XML技术在应用服务层采集用户访问数据的数据源模型X-DIM,并分析了它的优越性。该模型克服了以往基于Web访问日志在数据预处理中的一系列问题,具有数据完备、准确度高、便于为挖掘算法使用等优点,有较高的应用价值。  相似文献   

16.
基于XML的数字图书馆Web应用开发   总被引:4,自引:0,他引:4  
分析了XML在开发Web应用时的优点,以图书馆中常用的新书通报服务为实例,论述了在数字图书馆Web应用程序开发中,如何利用图书馆业务软件(DataTrans-1000)生成XML文档,以及访问XML数据文档的方法。  相似文献   

17.
Transforming paper documents into XML format with WISDOM++   总被引:1,自引:1,他引:0  
The transformation of scanned paper documents to a form suitable for an Internet browser is a complex process that requires solutions to several problems. The application of an OCR to some parts of the document image is only one of the problems. In fact, the generation of documents in HTML format is easier when the layout structure of a page has been extracted by means of a document analysis process. The adoption of an XML format is even better, since it can facilitate the retrieval of documents in the Web. Nevertheless, an effective transformation of paper documents into this format requires further processing steps, namely document image classification and understanding. WISDOM++ is a document processing system that operates in five steps: document analysis, document classification, document understanding, text recognition with an OCR, and transformation into HTML/XML format. The innovative aspects described in the paper are: the preprocessing algorithm, the adaptive page segmentation, the acquisition of block classification rules using techniques from machine learning, the layout analysis based on general layout principles, and a method that uses document layout information for conversion to HTML/XML formats. A benchmarking of the system components implementing these innovative aspects is reported. Received June 15, 2000 / Revised November 7, 2000  相似文献   

18.
设计了一种基于XSLT与SVG的动态矢量WebGIS实现方案。在该方案中,WebGIS服务器通过对客户端请求的分析,对于存储为XML/GML数据库的地理空间数据,通过XML查询进行数据抽取,接着对得到XML/GML文档进行整理,得到该文档对应的元数据,并通过查询GIS应用服务器上的XSL元数据库,得到该文档中元数据所对应的XSL元数据,然后将出现的XSL元数据进行集成,生成一个新的样式表(XSL),根据这个样式表将XML/GML文档经XSLT转换转化为SVG图像,并经过GZIP压缩将其压缩为SVGZ格式传往客户端,从而实现了地理空间数据的矢量传输和显示。由于根据用户的请求动态下载数据生成包含SVGZ的Web页面传给客户端,所以这种WebGIS不仅安全可靠也具有较高的效率。  相似文献   

19.
XML是连接Web与数据库的桥梁,针对B/S模型的Web数据库存在的不足,提出并构造了基于XML的Web数据库三层体系结构模型,重点介绍中间件的主要代码。  相似文献   

20.
一种基于Web Service的分布式应用系统的设计*   总被引:13,自引:0,他引:13  
基于Web Service的设计框架为Web应用开发提出了一种新的分布式应用体系架构,如何充分利用原有系统组件改造为新的Web服务就成为应用设计的重点.论述了将一个传统的基于组件技术的分布式应用系统改造成为一个基于Web Service系统的实现过程.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号