排序方式: 共有113条查询结果,搜索用时 421 毫秒
21.
SuffIndex--一种基于后缀树的XML索引结构 总被引:6,自引:1,他引:5
针对形如∥element1/dement2/…/elementm0的查询,提出了一种基于后缀树(suffix tree)的XML索引结构SuffIndex.SuffIndex的构造通过只对OEM数据树遍历一次以及在SurfIndex中引入后缀链(SuffIink)的方法,从而达到较低的构造代价.SuffIndex中所有结点利用Hash表保存到其所有子结点的指针,最终使查询∥element1/element2/…/elementm的处理代价为O(m). 相似文献
22.
物化视图的刷新是Web仓储进行系统维护的一项主要任务,而基础数据变化频率则是刷新方案中的重要因素.在已有文献中,研究者已经给出一些关于基础数据变化规律的算法和估测器.虽然这些估测器取得了不错的效果,然而他们却忽略了这些估测器都有一定的适用范围,超出这个范围则效果急剧下降.在此,基于泊松过程进行分析,对估测器的适用范围进行了讨论,根据估测结果的偏离值和有效性对估测公式进行参数调整,同时根据估测值的大小不断调整数据源的访问频率和次数,从而使数据源访问模式和估测器互相适应,使估测器在最佳估测范围内获得估测值.实验结果表明,与已有文献中的方法相比,新提出的自适应估测算法能够取得更好的效果. 相似文献
23.
一种基于DTD的XPath逻辑优化方法 总被引:12,自引:1,他引:12
Xpath成为XML数据查询的基本机制.Xpath中表达节点之间的祖孙关系的‘//'和任意匹配字符的‘*'等非确定操作符,增强了Xpath表达方式的灵活性,但同时引入了Xpath处理的复杂性.如何利用DTD减少Xpath中的不确定操作符,从而提高Xpath的执行效率成为一个基本的研究问题.传统方法主要侧重于特定受限Xpath的确定化重写.利用树自动机在一个框架中表达Xpath和DTD,提出了一种新的Xpath树自动机和DTD树自动机的乘积运算,并证明了乘积的结果就是基于DTD的Xpath优化形式,在多项式时间内基于代价获取了Xpath的优化结果.实验数据表明,基于提出的Xpath的逻辑优化方法,能够有效地提高Xpath执行器的执行效率. 相似文献
24.
25.
26.
Web数据集成系统基于QC模型的物化视图选择 总被引:2,自引:0,他引:2
在Web数据集成系统中,物化视图能够有效地减少网络传输代价,提高系统的查询效率.如何选择查询进行物化,使得选中的查询满足集成层的空间限制,同时获取最大物化收益,成为集成系统中一个迫切需要解决的问题.传统方法没有考虑到海量XML查询之间的包含关系,其选择的物化视图中可能包含冗余的信息.针对上述问题,提出了①Web数据集成系统中海量查询集合的QC(query containment)模型,该模型能够捕捉查询之间最常见的包含关系;②基于QC模型的物化视图选择算法,算法考虑了物化视图选择相关的主要因素,包括查询提交的频率、空间代价、查询重写能力和查询结果的完备性,提出了查询位图的物化视图组织方式,从而获取更加合理的物化视图选择方案.实验结果证明了该方法的有效性. 相似文献
27.
28.
PCCS部分聚类分类:一种快速的Web文档聚类方法 总被引:16,自引:1,他引:15
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。 相似文献
29.
本体内代数系统之研究 总被引:4,自引:0,他引:4
信息检索中的语义问题一直是研究的热点。本体作为能描述语义能力的建模方法,在信息系统领域得到广泛的关注和应用。文献犤1犦犤2犦研究了在不同本体之间构建代数系统来解决分布式系统之间的语义异构。文章研究单个本体内的代数系统,给出了该代数的定义和相关概念,并结合实例指出该代数系统有利于提高信息检索的质量。 相似文献
30.
Many modern applications(e-commerce,digital library,etc.)require integrated access to various information sources(from tr5aditional RDBMS to semistructured Web repositories).Extracting schema from semistructured data is a prereuisite to integrated heterogeneous information sources.The traditional method that extracts global schema may require time (and space)to increase exponentially with the number of objects and edges in the source.A new method is presented in this paper.which is about extracting local schema,In this method,the algorithm controls the scale of extracting schema within the “schema diameter“ by examining the semantic distance of the target set and using the Hash class and its path distance operation.This method is very efficient for restraining schema from expanding.The prototype validates the new approach. 相似文献