首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 484 毫秒
1.
一种基于多叉树的HTML到XML的转换方法   总被引:4,自引:0,他引:4  
当前的Web信息大多数都是HTML格式的,由于HTML文件中没有严格的结构性,故很难能用一种有效的方法来检索或提取隐藏其中的数据,针对HTML的这种缺陷,本文提出了基于多叉树的HTML到XML转换方法,把对HTML的信息检索问题转化为对XML的检索问题,以便简化下一步的检索问题。  相似文献   

2.
传统互联网页面是基于HTML语法结构的,这种结构适合于计算机上的显示.但页面所表达的含义需要用户在浏览的时候加以识别,这对于信息的检索和实现知识的共享是非常不便的。文章介绍了一种根据HMTL语法结构来实现HTML页面到RDF文档的转化方法,它可以将HTML文档从结构上转换为以XML语法为基础的RDF文档。  相似文献   

3.
一种新的Web数据模型-EOEM   总被引:1,自引:0,他引:1  
随着XML的普及,开发具有同时查询XML文档和HTML文档能力的新一代Web查询语言已是当务之急.但现有的Web数据模型存在种种局限.本文提出了一种新的Web数据模型,能够同时支持HTML和XML等半结构化文档的查询.  相似文献   

4.
“可扩展标记语言”(XML)是一种简单的与平台无关并被广泛采用的结构化化语言标准。XML相对于HTML的优点是它将用户界面与结构化数据分隔开来,XML不是要替换HTML,实际上XML可以视作对HTML的补充。以下从两个方面浅谈XML与HTML的结合。  相似文献   

5.
信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析.文中提出了一种先将HTML转化为XML形式,再提取信息的方法.XML是用于描述在Intemet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离.数据可被XML唯一标识,从而有利于用户对数据的组织和检索.这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度.  相似文献   

6.
“可扩展标记语言”(XML)是一种简单的与平台无关并被广泛采用的结构化化语言标准。XML相对于HTML的优点是它将用户界面与结构化数据分隔开来,XML不是要替换HTML,实际上XML可以视作对HTML的补充。以下从两个方面浅谈XML与HTML的结合。  相似文献   

7.
基于XML的中间层交互技术的研究   总被引:1,自引:0,他引:1  
陆剑江 《微机发展》2004,14(8):30-33
由于HTML自身的不足.所以无法适应Web发展的复杂性和多变性,也不利于机器之间的数据交换和信息传递,通过对XML和HTML作多个角度的对比,文中提出将XML作为载体实现Web上的动态交互。首先从XML的自身特点出发,分析了XML驱动下的Web体系结构,从而得出基于XML的中间层交互技术的实现原理.重点研究了如何设计与XML相匹配的Web数据库,用XML查询数据库的实现方法,以及如何构造从XML到数据库的映射关系,具体包括从XIviL的DTD或者Schema出发来设计数据库的结构或者从数据库本身出发来构造与之相适应的DTD或Schema,最后分析了浏览XML格式信息的诸多策略。  相似文献   

8.
基于XML的HTML自动阅卷算法设计与实现   总被引:1,自引:0,他引:1  
自动阅卷技术在当今计算机基础教育中起着重要作用。当前主流的基于文档对象模型的HTML网页自动阅卷方法存在准确性低及在大数据量时阅卷效率差的问题。文中介绍了一种基于XML的HTML网页自动阅卷算法,它根据XML与HTML格式上的相似性将HTML文件转换成XML文件,然后利用各种程序语言对XML良好的支持来进行HTML网页自动阅卷过程中的信息处理。该算法不仅可以避免传统人工阅卷的低效率及结果的主观性,而且在准确率及稳定性方面比文档对象模型方法有很大提高,为HTML网页制作考核提供了一种有效可行的方法。  相似文献   

9.
利用XSLT将XML文档转换成格式化过的HTML代码的方法的提出,避免了Ajax中使用JavaScipt动态遍历XML节点来创建结果表格所导致创建一个大字符串所引发的种种问题.提高了代码的可维护性.改善了网络性能。  相似文献   

10.
随着Internet的发展,以HTML格式显示的Web数据越来越不适应新的发展需求,而用来描述和存储数据的XML语言有着许多优于HTML的技术,于是将HTML格式的数据用XML格式表示出来,是现在网络应用中需要解决的问题。这里介绍的基于Web的HTML到XML数据转换方法能够有效地把HTML格式的文件转换成XML(XHTML)格式的文件。  相似文献   

11.
基于XML的信息检索技术   总被引:1,自引:1,他引:1  
传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的。文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势。目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microsoft公司的.NETFramework为例,介绍了如何从XML文档中检索信息。试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难。  相似文献   

12.
Since the Web encourages hypertext and hypermedia document authoring (e.g., HTML or XML), Web authors tend to create documents that are composed of multiple pages connected with hyperlinks. A Web document may be authored in multiple ways, such as: (1) all information in one physical page, or (2) a main page and the related information in separate linked pages. Existing Web search engines, however, return only physical pages containing keywords. We introduce the concept of information unit, which can be viewed as a logical Web document consisting of multiple physical pages as one atomic retrieval unit. We present an algorithm to efficiently retrieve information units. Our algorithm can perform progressive query processing. These functionalities are essential for information retrieval on the Web and large XML databases. We also present experimental results on synthetic graphs and real Web data  相似文献   

13.
HTML到XML转换研究   总被引:1,自引:0,他引:1  
网络上的许多信息都是由HTML编写的,但HTML语言本身具有不足,使得其不能处理网络上的许多需求,而XML可以弥补很多HTML的不足,因此网络应用的传统数据和XML标记数据的转换变得日趋重要。本文对从HTML到XML的转换技术进行研究,并用Java语言实现该转换系统。  相似文献   

14.
智能搜索引擎是解决当前网络信息检索中存在诸多瓶颈问题的有效途径。智能搜索引擎需要获取、预处理、表示和集成不同层次的(如HTML/XML/RDF/OWL文档)的数据和信息,并最终转换成各领域的智能语义信息。领域本体是实行智能的关键。提出了一种实现从Web文档中(半)自动构建本体的学习系统框架,并讨论本体学习中概念的获取、相互关系的获取等关键问题。  相似文献   

15.
文章分析了HTML和XML的特点、论述了HTML向XML转换的必要性、介绍了转换的有关原理,采用了基于把HTML文档解析为DOM树形成节点信息,然后进行深度遍历的方法对各节点信息进行抽取映射为XML结构的信息,以达到转换为XML文档的目的。  相似文献   

16.
一种基于内容的HTML到XML转换策略   总被引:6,自引:0,他引:6  
互联网应用系统中传统HTML内容数据的重用及其与Web中标准XML格式数据的互交换非常重要。通过对HTML结构和语法特点的分析,文章定义了一种分离HTML格式信息与表达有效语义的内容数据的标记规则,建立了该标记规则到XML模式的一种影射,从而实现了一种从HTML内容到XML结构数据的转换策略。最后,在网页在线维护系统WOMS中应用该策略实现网站管理者对网页的在线维护。  相似文献   

17.
文章分析了HTML和XML的特点、论述了HTML向XML转换的必要性、介绍了转换的有关原理。采用了基于把HTML文档解析为DOM树形成节点信息,然后进行深度遍历的方法对各节点信息进行抽取映射为XML结构的信息。以达到转换为XML文档的目的。  相似文献   

18.
HTML与Internet的联接可以实时接收和发送大量最新的信息,但在信息交换的过程中,当大量复杂化的数据和数据格式通过HTML的显示越来越力不从心的时候,发展的XML(eXtensible Markup Language)靠便捷、可靠和有效而成为解决信息传输的关键技术。文章将对XML数据岛在HTML数据嵌入显示方面作出一些技术探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号