首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 78 毫秒
1.
考虑到不同的数据资源(数据集)之间存在的覆盖问题,基于集合覆盖理论,针对提问Q的检索结果在融合排序后位置的不同,对其赋以不同的权值,用来计算该项检索结果对其所在的数据集的贡献。若检索结果在先选的数据集中出现过,则不再计入后选的数据集得分内。通过加权求和得到待选数据集的得分,从而确定资源选择的先后顺序。由此优选出的资源集合可用于检索与问题Q同类或类似的提问Q’,缩短由于数据库之间的覆盖而重复检索的时间。  相似文献   

2.
张刚  郭岩  张凯 《计算机工程》2007,33(2):158-159
集合选择是分布式信息检索中的重要问题,将集合选择问题转化为文档检索问题,尝试了多种文档检索方法来解决集合选择问题,并将各种方法的文档检索结果与集合选择结果进行了对比,通过与经典的集合选择算法CORI相比较,实验发现语言模型的集合选择方法能够取得令人满意的结果。  相似文献   

3.
张刚  谭建龙 《软件学报》2008,19(1):136-143
分布式信息检索的文档集合划分方案的评价是一个困难的问题,目前还没有良好的评价标准.从文档集合划分问题本身出发,给出了两个划分模型来刻画文档集合划分问题,从而使这两个模型可以作为文档集合划分的有效评价指标.在此基础上,提出了一种类Huffman编码的模型快速求解算法,可以求出在给定查询测试集情况下的最优文档划分方案,该方案可以作为其他文档划分方案的参考.实验表明,两个文档划分模型可以成为有效的文档集合划分评价标准.  相似文献   

4.
张刚  周昭涛  王斌 《计算机工程》2006,32(12):80-81,84
介绍了一种基于主题的分布式信息检索方法,并对算法的有效性进行了深入的分析。该文通过文本聚类方法,把文档按照主题的方式来划分,经过实验发现查询答案明显地汇聚在少数的文档集合中。由此表明,基于主题的分布式信息检索方法比传统分布式信息检索方法在检索效果上有了显著的提高。  相似文献   

5.
LDA主题模型     
在自然语言处理领域,LDA主题模型是进行文本语义挖掘的一种统计模型,用来发现文档中的隐含主题,将词项空间表达的文档约简为主题空间的低维表达,实现信息检索、文本分类等。本文阐述了LDA模型的文档生成过程、LDA模型的图模型表示、基于LDA的扩展模型以及未来的研究趋势。  相似文献   

6.
合理的文档集合划分能够有效的提高分布式信息检索的效果,本文针对分布式信息检索中的集合划分问题,提出了一种基于查询空间的文档集合划分算法。与传统的基于文档空间的划分算法相比,该算法从一种全新的角度看待和理解文档集合划分问题,给出了一种针对大规模海量信息的文档集合划分解决方案。实验表明该算法在算法效果和算法效率方面都有很大的提高。  相似文献   

7.
传统的话题模型假设每个文档只属于一个话题,而实际情况下一个文档往往与多个话题相关。应用LDA 模型将文档表示为多个话题的组合,并基于语言模型框架,提出了一种基于 LDA 的混合模型用于文本信息的 Ad hoc 检索。该方法将 LDA 模型与文档模型相结合,与聚类模型相比,在保持较低的计算复杂度外,具有很高的检索性能,因此更适用于大规模文档集的信息检索。  相似文献   

8.
基于LDAP的分布式异构信息检索模型研究   总被引:5,自引:0,他引:5  
随着网上信息数量和种类的增加,传统的集中式信息检索方式已不能满足广大用户的需求,分布式信息检索技术日益成为研究的热点。以分布、异构的信息环境为背景,提出了基于LDAP目录服务的分布式异构信息检索模型。该模型具有大数据量容纳性、扩展性强、可靠性高、信息访问效率高等特点,能在异构信息环境中实现资源信息的快速定位,为用户提供快捷、方便的信息检索服务。  相似文献   

9.
基于LDA模型的主题分析   总被引:9,自引:0,他引:9  
石晶  范猛  李万龙 《自动化学报》2009,35(12):1586-1592
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理.  相似文献   

10.
《软件》2016,(12):38-42
用户兴趣是对微博用户研究的重要内容,本文使用聚类方法提取用户兴趣。由于微博短文本的特征稀疏和上下文依赖性,传统方法不能取得良好的效果。本文对微博短文本进行基于LDA主题模型的特征拓展处理。LDA主题模型引入隐含主题,通过主题相似性,在一定程度上拓展文本特征,弥补原文本特征稀疏的缺点。并且,在处理多义词时,主题相似性能明显区分不同词义,以解决上下文依赖问题。在此基础上,通过文本聚类方法提取用户兴趣。通过实验表明,在引入LDA模型下,聚类效果和用户兴趣抽取的到明显提升,有效解决的微博用户兴趣发现中文博短文本特征稀疏和上下文依赖问题。  相似文献   

11.
文章对分布式信息检索中通常采用的洪泛策略进行分析,发现其容易重复转发相同消息,导致产生大量冗余通信,造成网络拥塞等问题。提出采用基于路由标记的分布式信息检索策略,以减少冗余消息的产生并避免网络拥塞,最后以实例进行两种策略的对比分析,并通过理论推导证明了后者的有效性。  相似文献   

12.
Searching information through the Internet often requires users to separately contact several digital libraries, use each library interface to author the query, analyze retrieval results and merge them with results returned by other libraries. Such a solution could be simplified by using a centralized server that acts as a gateway between the user and several distributed repositories: The centralized server receives the user query, forwards the user query to federated repositories—possibly translating the query in the specific format required by each repository—and fuses retrieved documents for presentation to the user. To accomplish these tasks efficiently, the centralized server should perform some major operations such as: resource selection, query transformation and data fusion. In this paper we report on some aspects of MIND, a system for managing distributed, heterogeneous multimedia libraries (MIND, 2001, http://www.mind-project.org). In particular, this paper focusses on the issue of fusing results returned by different image repositories. The proposed approach is based on normalization of matching scores assigned to retrieved images by individual libraries. Experimental results on a prototype system show the potential of the proposed approach with respect to traditional solutions.  相似文献   

13.
浅析了当前藏文数据采集与检索存在的问题.基于元搜索技术提出了一种藏文信息采集方案;基于全文检索工具包Lucene并针对藏文的特点,提出了一种藏文信息的索引、检索的设计方案,并对其关键技术进行了探讨.实际系统应用证明方案可行.介绍的数据采集、索引、检索方案同样适用于藏文外的其他语种.  相似文献   

14.
基于LDA模型的主题词抽取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
石晶  李万龙 《计算机工程》2010,36(19):81-83
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。  相似文献   

15.
针对水利信息资源目录服务中资源发现服务高查全率和实时性的需求,提出一种基于语义扩展的分布式元数据检索方法。该方法利用《水利公文主题词表》构建领域本体结合知网语义实现专业词汇与通用词汇的扩展,定义语义推理规则和词汇相关度,并结合推理机以支撑查询词汇的扩展;同时定义相似度阈值和选择方法防止"语义飘移"以保证检索查准率;采用语义相似度和文本相似度相结合的方式进行结果排序;基于MapReduce对索引创建和查询处理进行并行化改造提高检索的处理效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号