首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
政务信息资源检索是政务信息资源共享系统的重要功能。以《政务信息资源目录体系》国家标准中的XML元数据规范为依据,提出了一种支持关键词搜索的政务信息资源检索算法。该算法使用政务信息资源XML元数据的TF*IDF和关键词依赖度对检索结果集进行语义相关度排序,通过改进关键词倒排索引来提高检索效率。实验表明该算法在检索结果排序精确度和时间效率上均有较大的改善,可有效提高政务信息资源利用的数据共享服务能力。  相似文献   

2.
随着互联网上XML文档的大量增加,如何高效地索引、存储和检索这些XML数据成为一个非常值得深入研究的课题.目前,在XML关键词检索方面,主流的检索系统都是建立在一级索引的基础上.一级索引存在两个明显的缺点:1)索引的冗余度比较高;2)索引的可扩展性和灵活性较差.通过结合传统倒排索引和基于杜威编码的XML节点索引的优点,提出面向XML文档的二级索引模型,并把该模型应用于求解XML关键词检索中的SLCA,实现了基于二级索引的求解SLCA的栈算法.实验表明,二级索引模型能够节省约30%的空间开销,在时间效率方面,基于二级索引的栈算法在效率上比基于一级索引的栈算法要高1个数量级左右,并且随着关键词数目的增加,这种效率优势会越加明显.  相似文献   

3.
李求实  王秋月  王珊 《软件学报》2012,23(8):2002-2017
与纯文本文档集相比,使用语义标签标注的半结构化的XML文档集,有助于信息检索系统更好地理解待检索文档.同样,结构化查询,比如SQL,XQuery和Xpath,相对于纯关键词查询更加清晰地表达了用户的查询意图.这二者都能够帮助信息检索系统获得更好的检索精度.但关键词查询因其简单和易用性,仍被广泛使用.提出了XNodeRelation算法,以自动推断关键词查询的结构化信息(条件/目标节点类型).与已有的推断算法相比,综合了XML文档集的模式和统计信息以及查询关键词出现的上下文及其关联关系等推断用户的查询意图.大量的实验验证了该算法的有效性.  相似文献   

4.
传统的XML文档检索方法主要是基于关键词匹配的检索,忽略了关键词的语义信息和蕴涵于信息组合中的潜在信息。针对上述问题,提出了基于D-S证据理论的XML文档潜在信息的获取算法。该算法通过引入本体定义了概念间的语义关系和信息的组合方式,提出了基于D-S证据理论的检索模型和指标权重的计算方法,并结合似然函数设计了一个动态的阈值,有效地消除语义匹配过程中存在的不确定性,解决了信息组合中潜在信息的获取问题。此外,还将该算法应用于电子政务领域个人和企业敏感信息的检测中,实验证明了该算法比传统的方法有着更高的查准率和查全率。  相似文献   

5.
XML技术自身所具备的特点使其在数据交换和共享方面具有优势,通过基于扩展XML文档查询语言检索方法的模型分析,并利用其技术特点以及XML标签所带来的上下文信息,提高检索效率,满足用户基本信息检索需求。关键词:XML技术;解析;数字资源;检索  相似文献   

6.
XML关键词搜索使用户可以在不了解数据结构的情况下从XML数据中检索信息.之前的大部分XML关键词搜索引擎都是采用一次性的方式来呈现搜索到的XML结果段,不能使用户对结果进行进一步的优化.在这些情况下,由于关键词查询存在歧义,如何时刻保证搜索引擎准确地返回所需信息就十分重要了.提出了一种新的XML关键词搜索引擎XWord,该引擎为有效用户交互提供全面支持,自动返回单元认证及拥有灵活的匹配排序语义.XWord提供灵活的输入方式,允许用户对结果段进行扩展到邻近的分段,并会给用户有效的动态查询建议.XWord还有很好的自动兼容性,可以在无需用户干涉的情况下处理任意XML数据,这一点对从大量异构XML数据中检索信息是非常重要的.最后给出大量的实验结果来展示XWord的有效性和效率.  相似文献   

7.
针对应用系统的数据转换需求,分析数据转换的架构、XML数据在关系数据库中的存储,提出并论证了基于关系数据库的数据转换架构,并给出具体的实现算法。所提出的算法能比较完整地存储任何一篇XML文档,并较好地支持基于元素和文档片段的查询和检索。通过将XSL技术引入到该数据转换槊构中,在保证XML信息存储完备性的基础上,提高了在关系数据库中的查询检索速度。这种架构利用XML技术解决了进行各种数据转换带来的问题,实践证明该技术大大提高了系统的灵活性和可扩展性。  相似文献   

8.
介绍一种高性能的电子病历智能化全文检索系统.该系统是以关键词检索技术为基础,基于Clucene搜索引擎的结构原理进行二次开发,针对XML的电子病历文档进行全文检索.目的是给EMR系统提供一种高效快速的临床病历全文检索方法.与传统的病历检索系统相比,该系统在病历检索的效率与精度上有了很大提升与改进.  相似文献   

9.
XML检索时,考虑关键词在文档中的位置有助于改善检索效果,一种常用的方法是为文档中不同的标签赋予不同的权重,并根据关键词所在结点的标签合理地设置权重。然而,目前为标签赋予权重的方法大都是人工设置,这种方法工作量大且主观性强。提出了用主题概括强度衡量XML标签权重的方法,实验结果显示,该方法能有效提高XML检索的质量。  相似文献   

10.
姜姗  曹莉 《计算机仿真》2022,(4):408-412
为避免在隐私数据库检索过程中因服务器端返回的文件相关度低而增加检索耗时,在秘密同态技术的基础上,设计了隐私数据库多关键词检索方法.在模拟隐私数据系统模型的基础上,并利用秘密同态技术分析隐私数据库检索的过程,根据加密解密算法获取该技术的运算定理.在保证数据检索安全性的同时将数据关键词检索分为五个模块,使用相关性分数计算基...  相似文献   

11.
一种基于XML文档关键字检索的结构索引   总被引:2,自引:0,他引:2  
娄颖  李战怀  郭文琪  陈群  韩萌 《计算机科学》2010,37(12):120-124
XML数据索引对其检索效率有较大的影响。在深入分析现有XMI、结构索引之后,结合XML文档特点,提出了一种基于关键字检索的结构索引--LSS(Level Structure Summary) . LSS采用了把具有相同标签路径的结点进行合并的策略,具有高效判断结点之间同构异构关系的能力。实现了LSS索引生成算法CSCAN,并在LSS索引的基础上设计了XML关键字检索算法LSSearch。该算法依据LSS索引,将各个关键字的原始倒排表集合分拆成不同类型的子集合,最后在所有子集合上进行查询。实验结果表明,LSS可以帮助减少XML文档中关键字倒排表的规模,提高检索效率。  相似文献   

12.
姚全珠  余训滨 《计算机应用》2012,32(4):1090-1093
针对目前XML关键字查询结果中包含了许多无意义的节点的问题,提出了一种语义相关的查询算法。由于XML文档具有半结构化和自描述的特点,通过充分利用节点间的语义相关性,提出了最小最低实体子树(SLEST)的概念,在这个概念中,关键字之间仅存在物理连接关系;为了捕获关键字之间的IDREF引用关系,提出基于最小相关实体子树(SIEST)的算法,并利用最小最低实体子树和最小相关实体子树代替最小最低公共祖先(SLCA)作为查询结果。实验结果表明,提出的算法能有效提高XML关键字查询结果的查准率。  相似文献   

13.
张永  李泉霖  刘博 《计算机科学》2016,43(10):229-233
XML关键字查询作为一种信息检索方式,一直是相关领域的热点研究问题。在经典查询语义SLCA的基础上,设计并实现了一种基于智能分组策略的XML关键字查询的优化算法。提出的算法通过合理的分组策略可以保证在运算过程中及时 去除组内祖先节点和重复节点,减少了大量冗余计算,提高了算法的效率。最后设计多组实验在不同的XML数据上进行测试,实验结果表明了该算法的有效性和高效性。  相似文献   

14.
韩萌  陈群  王鹏 《计算机工程》2010,36(23):59-62
以ELCA的语义为基础,分析ELCA的诸多性质,给出ELCA结果查找算法复杂度高的原因。在其基础上提出BHFA算法,包括2种实现算法BHFA I和BHFA II。该算法计算出分布在各层的LCA,根据ELCA的性质由底向上、向左向右筛选并获取结果。实验结果表明,该算法的查询性能在绝大多数情况下优于现有算法。  相似文献   

15.
Extensible Markup Language (XML) is commonly employed to represent and transmit information over the Internet. Therefore, how to effectively search for keywords of massive XML data becomes a new issue. In this paper, we first present four properties to improve the classical ILE algorithm. Then, a kind of parallel XML keyword search algorithm, based on intelligent grouping to calculate SLCA, is proposed and realized under MapReduce programming model. At last, a series of experiments are implemented on 7 datasets of different sizes. The obtained results indicate that the proposed algorithm has high execution efficiency and is applicable to keyword search of massive XML data.  相似文献   

16.
As probabilistic data management is becoming one of the main research focuses and keyword search is turning into a more popular query means, it is natural to think how to support keyword queries on probabilistic XML data. With regards to keyword query on deterministic XML documents, ELCA (Exclusive Lowest Common Ancestor) semantics allows more relevant fragments rooted at the ELCAs to appear as results and is more popular compared with other keyword query result semantics (such as SLCAs). In this paper, we investigate how to evaluate ELCA results for keyword queries on probabilistic XML documents. After defining probabilistic ELCA semantics in terms of possible world semantics, we propose an approach to compute ELCA probabilities without generating possible worlds. Then we develop an efficient stack-based algorithm that can find all probabilistic ELCA results and their ELCA probabilities for a given keyword query on a probabilistic XML document. Finally, we experimentally evaluate the proposed ELCA algorithm and compare it with its SLCA counterpart in aspects of result probability, time and space efficiency, and scalability.  相似文献   

17.
近年来,随着XML数据的爆炸式增长,对XML关键字查询技术的研究日益受到关注。数据编码是关键字查询的基础,目前主要有2种方式--基于路径的编码及区间编码。区间编码可更好地适应对查询中的XML数据进行动态的更新,因而具有更多的优势。本文研究基于区间编码的关键字查询问题,提出一种新的查询算法。该算法首先根据预留的区间值建立索引,再根据最小范围值对索引进行选择遍历,减少了不必要的比较,达到了提高查询效率的目的。研究发现,预留空间的选择对查询效率有一定的影响。为此,本文设计一种基于节点自身进行区间预留的编码方式(Interval Reservation Based on Node, IRBN),为节点设置权值,并根据权值进行区间值的设定,形成根据节点自身分配区间的较为均衡的编码。实验表明,IRBN编码是合理的,有较高的查询效率。  相似文献   

18.
覃遵跃  汤庸  徐洪智  黄云 《软件学报》2019,30(4):1062-1077
关键字检索具有友好的用户操作体验,该检索方式已在文本信息检索领域得到了广泛而深入的应用.对XML数据采用关键字检索是目前研究的热点.基于查询语义的XML关键字检索方法存在返回大量与用户查询意图无关的查询片段或者丢失符合用户查询意图的片段这两个问题.针对这些问题,在考虑LCA横向和纵向两个维度的基础上,提出了用户查询意图与LCA相关性的两个规则,根据两个规则定义了LCA的边密度和路径密度,建立了综合的LCA节点评分公式,最后设计TopLCA-K算法对LCA进行排名,并利用中心位置索引CI提高了TopLCA-K算法的效率.实验结果显示,利用所提出的方法返回的查询节点更加符合用户需求.  相似文献   

19.
李婷  程海涛 《计算机科学》2017,44(9):216-221, 226
在精确XML文档上的关键字查询方法的研究大多是基于LCA语义或者其变种语义(SLCA,ELCA等)开展的,将包含所有关键字的最紧致XML子树片段作为查询结果返回。但是这些基于LCA语义产生的查询结果中通常包含了大量的冗余信息,现实世界中存在着大量的不确定和模糊信息,因而如何从模糊XML文档中搜索到高质量的关键字查询结果是一个需要研究的问题。针对模糊XML文档上的关键字近似查询方法进行研究,通过引入最小连接树(MCT)的概念,提出在模糊XML文档上关键字查询的所有GDMCTs问题,并给出解决这一问题的基于栈的算法All fuzzy GDMCTs,该算法可以得到满足用户指定的子树大小阈值和可能性阈值条件的所有GDMCTs结果。实验表明,该算法在模糊XML文档上能够得到较高质量的关键字查询结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号