共查询到19条相似文献,搜索用时 750 毫秒
1.
在XML数据交换过程中,XQuery和XSLT将XML文档以树的形式在内存中转换,不仅速度慢,而且仅能处理小文件。为了快速并高效地处理大型的XML文档,定义了XML模式的表结构,应用排序方法实现了一个三阶段的数据交换算法。首先将源XML文档转换成符合源模式的表结构,然后按照目标模式对该表进行排序,最后将排序后的表转换成符合目标模式的XML文档。实验表明,该算法不但能高效地进行XML文档的转换,而且对大型的XML文档有着很好的扩展性。 相似文献
2.
针对当前XML文档结构聚类算法的一些不足,指出XML文档树中节点的重复和嵌套影响聚类的质量和效率.利用重复剪枝和嵌套剪枝简化XML文档树的表示,然后根据化简后的结构计算两棵XML文档树中的编辑距离,在此基础上得出两棵树整体的结构相似度量,按照层次聚类方法得到聚类结果.实验证明该算法有比较高的查全率和查准率,有效降低了时间复杂性,具有改进效果. 相似文献
3.
Native XML数据库快速查询的实现,可以采用基于XML文档编码的结构连接算法。而结构连接算法的实现需要对XML文档进行编码,以便于快速判断XML文档树结点之间的祖先后裔关系。在对现有编码机制进行综述的前提下,提出一种新的XML文档编码机制——前缀整除编码(PDIV)机制。该机制编码形式简单,只需要一个正整数即可充分表示结点在XML文档树中的位置信息;可以实现祖先后裔关系的快速查询;支持XML文档的更新操作;编码长度较短,编码长度约为o(ln(n))。 相似文献
4.
杨成 《数字社区&智能家居》2009,(26)
该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据。该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式。在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据。 相似文献
5.
本文给出了一个基于关系数据库的XML分解存储方案。首先,通过对XML语法的分析,定义了XML树,XML树是一棵结构规则的树:所有的节点都具有相同的格式。通过XML树可以把结构不规则的XML文档映射成结构规则的XML树。其次,通过定义关系XSR,将XML树存储到关系数据库中去。该方案可以保证数据的完整性。在分解存储时,一个XML文档只需映射到一个关系表,而其它分解方案一般需要映射到多个关系表。该方案是一个通用方案,可以处理任意的XML文档。 相似文献
6.
随着XML技术的发展,如何利用现有的数据库技术存储和查询XML文档已成为XML数据管理领域研究的热点问题。本文介绍了一种新的文档编码方法,以及基于这种编码方式提出了一种新的XML文档存储方法。方法按照文档中结点类型将XML文档树型结构分解为结点,分别存储到对应的关系表中,这种方法能够将任意结构的文档存储到一个固定的关系模式中。同时为了便于实现数据的查询,将文档中出现的简单路径模式也存储为一个表。这种新的文档存储方法能够有效地支持文档的查询操作,并能根据结点的编码信息实现原XML文档的正确恢复。最后,对本文提出的存储方法和恢复算法进行了实验验证。 相似文献
7.
XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段. 现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的PrefixSpan算法会产生大量的投影数据库,占用较大的内存. 针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法(PXFP,Prefix-based XML Frequent Path Mining Algorithm). PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为“节点:父节点”的形式,这种序列化的方式减少了节点冗余. 在序列挖掘阶段借鉴PrefixSpan 算法中前缀的概念,但不产生投影数据库,仅得到直接后缀(即前缀的子节点),通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描. 实验结果表明,PXFP算法取得了比PrefixSpan算法更高的时间和空间效率. 相似文献
8.
GA-Diff:一种快速XML文档变化检测算法 总被引:2,自引:0,他引:2
XML文档的变化检测可以广泛应用于构建XML数据仓库中的数据存储、文档模式提取以及增量查询等方面。随着被检测的数据规模的增加,对检测算法的效率也提出了更高的要求。利用遗传算法(GA),论文提出了一种新的XML文档的变化检测方法GA-Diff,针对XML文档树给出了树编辑距离的定义、实现算法并验证了该算法的效率。 相似文献
9.
基于模式的XML文档相似度算法 总被引:1,自引:0,他引:1
提出一种基于XML模式的文档相似度算法,其中,XML模式间的相似度是XML文档聚类的重要依据,元素是XML模式的主体,模式的相似度由元素相似度组成,该算法综合考虑XML模式中元素的结构和语义信息,进一步提高计算相似度的精度。另外,该算法通过计算XML模式间的相似度,可以降低算法的复杂度,提高聚类的准确性,易于提取聚簇的通用XML模式。 相似文献
10.
11.
概率XML文件是概率数据的网络数据交换和表示标准,元素取值及其概率的查询与计算是概率XML文件的重要研究内容.概率XML文件树是一种有效的概率XML文件的数据模型,定义了概率XML文件树的基本路径和扩展路径,提出了根据可能世界原理将概率XML文件树分解为普通子XML树的集合的算法,根据路径分析原理将概率XML文件树分解为子概率XML树的集合的算法和相应的查询与计算结点及结点集合概率的算法,并通过实验进行了比较分析.实验结果表明:这两种方法是有效的;与前一种方法比较,后一种方法适合较大的概率XML文件树、结点及结点集合的概率的查询,计算过程较简单. 相似文献
12.
13.
14.
15.
利用关系表构建XML文档解析的树模型 总被引:2,自引:1,他引:1
在对XML文档的数据解析和查询操作研究中,发现树能较好地反映XML文档的层次结构,但其查询效率较低,而关系表是一种适合存储大量数据且有较好查询效率与操作功能的数据结构。给出了一个把树和关系表相结合构建一种存储XML文档的数据模型;在这个模型的解析过程中,采用回调事件式的分段解析方法以减少解析时间和存储空间。这样既能较好保存XML文档的结构特点,又能提高其查询的效率和操作的便利性。通过对大数据量XML文档的解析和操作实验,实验结果证明这种数据模型在处理大型XML文档中具有明显优势。 相似文献
16.
17.
在研究程序代码相似性度量方法的基础上,提出一种基于XML store的程序代码查询匹配算法。由于XML store以树型结构保存XML文件,算法将通过查询XML store中DVM树来对判断程序之间是否具有相同结构的子树,进行相似度度量。最后,通过在原型系统上进行的一系列实验,进一步证明了提出的算法在程序代码相似度度量实际应用中的可行性和有效性。 相似文献
18.
19.
为了更加有效实现XML文档的结构查询,加强结构连接操作的效率,提出一种新结构连接算法.该算法采用扩展的前缀编码方案,在编码中增加了type、index等字段以利于定位树中结点在祖先结点列表或者后裔结点列表中的位置.该算法通过将XML文档树转换成左孩子右兄弟树,并定位树中一个祖先元素的起始点下标和终结点下标来找到该祖先元素的后裔结点列表.算法时间复杂度分析表明了该算法比现有算法的性能更好. 相似文献