首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
自然语言网络答疑系统中倒排索引技术的研究   总被引:1,自引:0,他引:1  
为了提高自然语言网络答疑系统(Natural Language Web Answer System,简称NLWAS)中问答对的匹配速度和精度,提出了基于倒排词的倒排索引设计方案,详细阐述了索引体系结构、数据结构、匹配策略、动态维护,并对时间复杂度进行了分析。实际应用结果表明,使用倒排索引后系统性能优化效果明显增强。  相似文献   

2.
提出一个基于乐纹特征和倒排索引的音乐检索系统。该系统由预处理、特征提取、索引和精匹配四部分组成。通过两次基于动态阈值的筛选,选取频谱中最为稳定的点作为特征点,将特征作为关键词,采用倒排索引实现系统的初次查询。而精匹配则是对初次查询的优化和重排序,用优化后的编辑距离来计算两个特征序列的相似度。实验结果表明,提取的特征数据较小,系统具有较高的鲁棒性和查询准确率。  相似文献   

3.
压缩树索引技术是XML数据压缩的热点问题之一,本文提出一种压缩树索引改进方法.针对压缩树在查询过程中不能很好的解决向上匹配与向下匹配的问题,改进方法引入正排索引和倒排索引.当查询到组一级时,利用正排索引可以快速的查找出以该组为父节点的子组.而选出符合值谓词的元素后,在进行向上匹配时利用倒排索引可找出该元素的父节点.新的索引方法在保留原压缩树索引优点的基础上,解决了压缩树索引在查询过程中匹配问题.  相似文献   

4.
搜索引擎通常使用签名文件、倒排索引、后缀树/后缀数组来构建索引,其中倒排文件由于性能可靠、实现简单,得到广泛应用.但是在现今海量数据情况下,有时倒排索引仍显力不从心,导致检索性能不佳,提出了分块索引术,可以有效提高基于倒排索引搜索系统检索效率.  相似文献   

5.
受嵌入式系统的软硬件资源限制,目前在路由器中对于海量路由表的正则匹配查找,各大网络厂商普遍存在处理效率较低问题。目的是研究一种应用于实时嵌入式软件系统中,符合正则匹配语法的海量路由信息搜索技术。提供的高效正则匹配搜索算法的方法关键是减少正则匹配的路由搜索范围,为此需要建立一个以数字为索引的快速倒排索引结构。基于快速倒排索引结构,首先确定符合部分正则匹配摘要的路由较小范围,然后进一步对此小范围的每条路由进行精确正则匹配,以确定符合条件的所有路由。研究结果表明,对于一般正则匹配长度10~30的查找,平均查找时间快了约30倍,且随着正则匹配长度增加,查找效率呈指数级提高。当采用内存方式记录时,索引位置信息的内存平均约占总路由容量内存空间的3%。由此可见,以海量路由信息为研究对象,给出的数字正则匹配算法,不仅在索引搜索时间上而且在索引信息存储空间上都十分理想,可广泛应用于嵌入式软件系统中的海量信息快速正则匹配。  相似文献   

6.
《软件工程师》2017,(6):12-14
如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直接影响搜索引擎检索的结果和响应的速度。之所以文章详细介绍了一个自主开发的藏文网页倒排索引系统,它以XML文档的标签内容作为索引对象,定义了文档和文档属性等概念,采用C#语言对文藏文网页正文构建倒排索引的关键技术和实现方法进一步的阐述,实现了基于XML文档的藏文网页倒排索引数据库的底层实现,提供了技术参考。利用这种方法藏文搜索引擎中信息检索的速度和准确率有所提高。  相似文献   

7.
针对实际密文数据库的应用,在全文检索倒排索引技术的基础上,设计了一种通过密文倒排索引文件对其进行快速检索的方法。密文索引文件中主要包含有索引项、相对应的记录主键等信息。检索时,通过用检索词匹配索引文件中的索引项,找到对应的记录主键集合,再根据记录主键集合查询密文数据库,获取相应的密文数据,进行解密即可获取明文数据信息。整个检索过程中不对数据库进行解密,从而实现了在不解密的情况下对密文数据库的快速检索。  相似文献   

8.
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

9.
基于Lucene的中文倒排索引技术的研究   总被引:2,自引:0,他引:2  
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。  相似文献   

10.
为了有效提高搜索引擎检索服务系统的整体性能,提出了一种基于倒排文件索引的缓存机制优化方法。具体研究过程是:首先分析倒排文件缓存的体系结构和数据加载,接着讨论负载数据对倒排文件缓存和缓存替换算法的影响,最后通过设计仿真实验研究倒排文件的缓存优化。研究结果表明,采用倒排文件索引的缓存机制优化方法可以明显减少磁盘系统I/O访问次数,提高磁盘系统带宽的利用率。  相似文献   

11.
叶晓舟  王劲林 《计算机工程》2008,34(11):246-248
对基于分布式哈希表的Chord网络进行文件的精确匹配。采用反向索引方法可以实现基于关键字的检索,但难以解决普遍关键字问题。HIKEC是基于IMS的移动P2P文件共享服务网络架构,采用混合Chord重叠网络。该文针对混合Chord网络,在反向索引的基础上,采用簇窗口映射、稀缺关键字优先查询和热点回溯等方法,实现有效的关键字检索。仿真实验表明,采用该方法各节点平均映射负载下降为原反向索引方法的54.6%,平均信令负载下降为原反向索引方法的10.3%。  相似文献   

12.
Internet搜索引擎主要由搜索器、索引器和用户界面三部分组成。通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。  相似文献   

13.
Similarity matching in video databases is of growing importance in many new applications such as video clustering and digital video libraries. In order to provide efficient access to relevant data in large databases, there have been many research efforts in video indexing with diverse spatial and temporal features. However, most of the previous works relied on sequential matching methods or memory-based inverted file techniques, thus making them unsuitable for a large volume of video databases. In order to resolve this problem, this paper proposes an effective and scalable indexing technique using a trie, originally proposed for string matching, as an index structure. For building an index, we convert each frame into a symbol sequence using a window order heuristic and build a disk-resident trie from a set of symbol sequences. For query processing, we perform a depth-first traversal on the trie and execute a temporal segmentation. To verify the superiority of our approach, we perform several experiments with real and synthetic data sets. The results reveal that our approach consistently outperforms the sequential scan method, and the performance gain is maintained even with a large volume of video databases.  相似文献   

14.
实时性是影响搜索引擎性能的重要因素.针对这个因素,提出一种可实时更新的倒排索引结构并将其应用于国产万亿次高性能计算平台KD-60.该方案采用主、辅倒排索引和内容过滤索引相结合的方式,实现了搜索过程的实时性.同时,我们将其应用于高性能绿色计算平台KD-60,使之在一定的程度上实现了搜索的高效能.实验证明,基于KD-60平台的倒排索引结构有效的解决了搜索引擎的实时性问题,并可作为绿色计算的实际应用的一个典型实例.  相似文献   

15.
Recent work on incremental crawling has enabled the indexed document collection of a search engine to be more synchronized with the changing World Wide Web. However, this synchronized collection is not immediately searchable, because the keyword index is rebuilt from scratch less frequently than the collection can be refreshed. An inverted index is usually used to index documents crawled from the web. Complete index rebuild at high frequency is expensive. Previous work on incremental inverted index updates have been restricted to adding and removing documents. Updating the inverted index for previously indexed documents that have changed has not been addressed. In this paper, we propose an efficient method to update the inverted index for previously indexed documents whose contents have changed. Our method uses the idea of landmarks together with the diff algorithm to significantly reduce the number of postings in the inverted index that need to be updated. Our experiments verify that our landmark-diff method results in significant savings in the number of update operations on the inverted index.  相似文献   

16.
针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块大小可变的分块倒排索引存储模式和基于CLOCK替代策略的专用缓冲管理机制。实验结果表明在禁用和启用缓冲的情况下,分块访问模式检索效率都优于ASPSeek。在启用缓冲并使用16万中文词条或5万高频中文词条作为测试集合的条件下,分块存储模式在访问倒排索引100万次后的检索时间趋于常量,即使以全部的827309个词条作为测试集合的条件下,分块存储模式在访问倒排索引200万次后的检索时间趋于收敛。  相似文献   

17.
基于索引表和二分图的Web服务操作发现   总被引:1,自引:0,他引:1       下载免费PDF全文
李季辉  贾永伟 《计算机工程》2012,38(13):37-39,43
在通用的Web服务描述语言基础上,提出一种基于倒排序索引表和二分图匹配的两阶段服务操作发现方法。第1个阶段利用倒排序索引表得到相关服务,获取服务操作的输入和输出参数,用户根据需要选取期望的输出参数作为服务请求。第2个阶段采用二分图匹配方法对服务请求进行服务操作匹配,发现所需的Web服务操作。实验结果表明,该方法能提高服务发现的准确性和灵活性,并提供功能相同的备选服务操作。  相似文献   

18.
Recently, feature grouping has been proposed as a method for improving retrieval results for logos and web images. This relies on the idea that a group of features matching over a local region in an image is more discriminative than a single feature match. In this paper, we evolve this concept further and apply it to the more challenging task of landmark recognition. We propose a novel combination of dense sampling of SIFT features with interest regions which represent the more salient parts of the image in greater detail. In place of conventional dense sampling used in category recognition that computes features on a regular grid at a number of fixed scales, we allow the sampling density and scale to vary based on the scale of the interest region. We develop new techniques for exploring stronger geometric constraints inside the feature groups and computing the match score. The spatial information is stored efficiently in an inverted index structure. The proposed approach considers part-based matching of interest regions instead of matching entire images using a histogram under bag-of-words. This helps reducing the influence of background clutter and works better under occlusion. Experiments reveal that directing more attention to the salient regions of the image and applying proposed geometric constraints helps in vastly improving recognition rates for reasonable vocabulary sizes.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号