首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 750 毫秒
1.
任柯  杨霞 《计算机科学》2014,41(5):223-226,234
在XML数据交换过程中,XQuery和XSLT将XML文档以树的形式在内存中转换,不仅速度慢,而且仅能处理小文件。为了快速并高效地处理大型的XML文档,定义了XML模式的表结构,应用排序方法实现了一个三阶段的数据交换算法。首先将源XML文档转换成符合源模式的表结构,然后按照目标模式对该表进行排序,最后将排序后的表转换成符合目标模式的XML文档。实验表明,该算法不但能高效地进行XML文档的转换,而且对大型的XML文档有着很好的扩展性。  相似文献   

2.
针对当前XML文档结构聚类算法的一些不足,指出XML文档树中节点的重复和嵌套影响聚类的质量和效率.利用重复剪枝和嵌套剪枝简化XML文档树的表示,然后根据化简后的结构计算两棵XML文档树中的编辑距离,在此基础上得出两棵树整体的结构相似度量,按照层次聚类方法得到聚类结果.实验证明该算法有比较高的查全率和查准率,有效降低了时间复杂性,具有改进效果.  相似文献   

3.
Native XML数据库快速查询的实现,可以采用基于XML文档编码的结构连接算法。而结构连接算法的实现需要对XML文档进行编码,以便于快速判断XML文档树结点之间的祖先后裔关系。在对现有编码机制进行综述的前提下,提出一种新的XML文档编码机制——前缀整除编码(PDIV)机制。该机制编码形式简单,只需要一个正整数即可充分表示结点在XML文档树中的位置信息;可以实现祖先后裔关系的快速查询;支持XML文档的更新操作;编码长度较短,编码长度约为o(ln(n))。  相似文献   

4.
该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据。该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式。在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据。  相似文献   

5.
本文给出了一个基于关系数据库的XML分解存储方案。首先,通过对XML语法的分析,定义了XML树,XML树是一棵结构规则的树:所有的节点都具有相同的格式。通过XML树可以把结构不规则的XML文档映射成结构规则的XML树。其次,通过定义关系XSR,将XML树存储到关系数据库中去。该方案可以保证数据的完整性。在分解存储时,一个XML文档只需映射到一个关系表,而其它分解方案一般需要映射到多个关系表。该方案是一个通用方案,可以处理任意的XML文档。  相似文献   

6.
随着XML技术的发展,如何利用现有的数据库技术存储和查询XML文档已成为XML数据管理领域研究的热点问题。本文介绍了一种新的文档编码方法,以及基于这种编码方式提出了一种新的XML文档存储方法。方法按照文档中结点类型将XML文档树型结构分解为结点,分别存储到对应的关系表中,这种方法能够将任意结构的文档存储到一个固定的关系模式中。同时为了便于实现数据的查询,将文档中出现的简单路径模式也存储为一个表。这种新的文档存储方法能够有效地支持文档的查询操作,并能根据结点的编码信息实现原XML文档的正确恢复。最后,对本文提出的存储方法和恢复算法进行了实验验证。  相似文献   

7.
XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段. 现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的PrefixSpan算法会产生大量的投影数据库,占用较大的内存. 针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法(PXFP,Prefix-based XML Frequent Path Mining Algorithm). PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为“节点:父节点”的形式,这种序列化的方式减少了节点冗余. 在序列挖掘阶段借鉴PrefixSpan 算法中前缀的概念,但不产生投影数据库,仅得到直接后缀(即前缀的子节点),通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描. 实验结果表明,PXFP算法取得了比PrefixSpan算法更高的时间和空间效率.  相似文献   

8.
GA-Diff:一种快速XML文档变化检测算法   总被引:2,自引:0,他引:2  
陈振洲  李磊 《计算机工程与应用》2004,40(18):186-188,207
XML文档的变化检测可以广泛应用于构建XML数据仓库中的数据存储、文档模式提取以及增量查询等方面。随着被检测的数据规模的增加,对检测算法的效率也提出了更高的要求。利用遗传算法(GA),论文提出了一种新的XML文档的变化检测方法GA-Diff,针对XML文档树给出了树编辑距离的定义、实现算法并验证了该算法的效率。  相似文献   

9.
基于模式的XML文档相似度算法   总被引:1,自引:0,他引:1  
孙霞  程宏斌 《计算机工程》2010,36(21):54-56
提出一种基于XML模式的文档相似度算法,其中,XML模式间的相似度是XML文档聚类的重要依据,元素是XML模式的主体,模式的相似度由元素相似度组成,该算法综合考虑XML模式中元素的结构和语义信息,进一步提高计算相似度的精度。另外,该算法通过计算XML模式间的相似度,可以降低算法的复杂度,提高聚类的准确性,易于提取聚簇的通用XML模式。  相似文献   

10.
随着B2B等应用的推广和普及,可以设想不久的将来大量的商业数据将存储在XML数据库中.因此,直接对XML数据进行联机分析是一个值得研究的问题.受Dwarf数据方体的启发,首先把事实表中的元组按照一定的维序变换为一棵前缀树,然后,利用XML文档的树结构性质,把前缀树表示成XML文档,这样,立方体就以"树模型"的格式存放在XML文档中.在此基础上,提出了一种XML立方体的计算方法.通过实验证明,此种XML立方体所需要的存储空间和计算时间大大减少.  相似文献   

11.
概率XML文件是概率数据的网络数据交换和表示标准,元素取值及其概率的查询与计算是概率XML文件的重要研究内容.概率XML文件树是一种有效的概率XML文件的数据模型,定义了概率XML文件树的基本路径和扩展路径,提出了根据可能世界原理将概率XML文件树分解为普通子XML树的集合的算法,根据路径分析原理将概率XML文件树分解为子概率XML树的集合的算法和相应的查询与计算结点及结点集合概率的算法,并通过实验进行了比较分析.实验结果表明:这两种方法是有效的;与前一种方法比较,后一种方法适合较大的概率XML文件树、结点及结点集合的概率的查询,计算过程较简单.  相似文献   

12.
结合XML文档的特点,采用XML数据模型XOEM和压缩结构树的存储结构,提出了一种高效的XML数据的频繁模式挖掘算法──AFPMX算法,并从理论和实验两方面证明了该算法是可行和有效的。  相似文献   

13.
从查找时间与存储容量2个方面分析了适用于井下人员定位系统读卡器的3种存储算法,即链式存储算法、哈希表存储算法和哈希二叉树存储算法,给出了该3种不同存储算法的使用效率与应用场合。测试结果表明,链式存储算法查找时间呈线性增长,哈希表存储算法明显优越于链式存储算法,如果测试数据增多,其优越性会更明显;当数据量较大时,哈希搜索二叉树存储算法又明显优于哈希表存储算法,当人数达到行业所要求的8 000人以上时,选择哈希搜索二叉树存储算法更为合理。  相似文献   

14.
针对BIRCH算法过分依赖内存且无法高效处理新增数据的问题,提出一种BIRCH算法的可继承性处理模型。该模型利用XML技术存储聚类特征树,并通过解析XML文档来还原聚类特征树,增强了BIRCH算法的灵活性,解决了BIRCH算法中处理新增数据的效率问题。实验结果表明,该模型是有效的。  相似文献   

15.
利用关系表构建XML文档解析的树模型   总被引:2,自引:1,他引:1  
祝青  阳王东 《计算机应用》2009,29(6):1719-1721
在对XML文档的数据解析和查询操作研究中,发现树能较好地反映XML文档的层次结构,但其查询效率较低,而关系表是一种适合存储大量数据且有较好查询效率与操作功能的数据结构。给出了一个把树和关系表相结合构建一种存储XML文档的数据模型;在这个模型的解析过程中,采用回调事件式的分段解析方法以减少解析时间和存储空间。这样既能较好保存XML文档的结构特点,又能提高其查询的效率和操作的便利性。通过对大数据量XML文档的解析和操作实验,实验结果证明这种数据模型在处理大型XML文档中具有明显优势。  相似文献   

16.
XML文档频繁模式挖掘是XML相关研究工作中的重要内容。在现有的频繁树结构挖掘算法WL的基础上,提出了一种高效的基于压缩结构树存储结构的XML数据频繁模式挖掘算法AFPMX_CST。该算法压缩了搜索空间,减少了扫描次数,相对于WL算法在时间效率和空间效率方面具有更加良好的性能。同时,该文进一步研究了将挖掘结果转换为相应的DTD格式的方法及过程。实验结果表明AFPMX_CST算法是可行和有效的。  相似文献   

17.
在研究程序代码相似性度量方法的基础上,提出一种基于XML store的程序代码查询匹配算法。由于XML store以树型结构保存XML文件,算法将通过查询XML store中DVM树来对判断程序之间是否具有相同结构的子树,进行相似度度量。最后,通过在原型系统上进行的一系列实验,进一步证明了提出的算法在程序代码相似度度量实际应用中的可行性和有效性。  相似文献   

18.
为提高XML文档的查询效率,提出一种基于倒排表与B+树的联合索引技术。DTD结构索引和内容索引采用倒排表作为索引单位,XML文档索引使用B+树作为索引基本组织。在DTD结构索引的结点编码中设置标识信息,便于确定需要查询的文档。通过建立DTD结构索引、XML文档索引和内容索引,实现混合型XML文档的查询。理论分析与实验结果表明,该技术具有较小的空间开销和较高的查询效率。  相似文献   

19.
为了更加有效实现XML文档的结构查询,加强结构连接操作的效率,提出一种新结构连接算法.该算法采用扩展的前缀编码方案,在编码中增加了type、index等字段以利于定位树中结点在祖先结点列表或者后裔结点列表中的位置.该算法通过将XML文档树转换成左孩子右兄弟树,并定位树中一个祖先元素的起始点下标和终结点下标来找到该祖先元素的后裔结点列表.算法时间复杂度分析表明了该算法比现有算法的性能更好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号