共查询到15条相似文献,搜索用时 78 毫秒
1.
考虑到不同的数据资源(数据集)之间存在的覆盖问题,基于集合覆盖理论,针对提问Q的检索结果在融合排序后位置的不同,对其赋以不同的权值,用来计算该项检索结果对其所在的数据集的贡献。若检索结果在先选的数据集中出现过,则不再计入后选的数据集得分内。通过加权求和得到待选数据集的得分,从而确定资源选择的先后顺序。由此优选出的资源集合可用于检索与问题Q同类或类似的提问Q’,缩短由于数据库之间的覆盖而重复检索的时间。 相似文献
2.
3.
分布式信息检索的文档集合划分方案的评价是一个困难的问题,目前还没有良好的评价标准.从文档集合划分问题本身出发,给出了两个划分模型来刻画文档集合划分问题,从而使这两个模型可以作为文档集合划分的有效评价指标.在此基础上,提出了一种类Huffman编码的模型快速求解算法,可以求出在给定查询测试集情况下的最优文档划分方案,该方案可以作为其他文档划分方案的参考.实验表明,两个文档划分模型可以成为有效的文档集合划分评价标准. 相似文献
4.
5.
6.
7.
传统的话题模型假设每个文档只属于一个话题,而实际情况下一个文档往往与多个话题相关。应用LDA 模型将文档表示为多个话题的组合,并基于语言模型框架,提出了一种基于 LDA 的混合模型用于文本信息的 Ad hoc 检索。该方法将 LDA 模型与文档模型相结合,与聚类模型相比,在保持较低的计算复杂度外,具有很高的检索性能,因此更适用于大规模文档集的信息检索。 相似文献
8.
9.
基于LDA模型的主题分析 总被引:9,自引:0,他引:9
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准确, 利用LDA (Latent dirichlet allocation)为语料库及文本建模, 以Clarity度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵. 实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的工作提供有价值的预处理. 相似文献
10.
11.
文章对分布式信息检索中通常采用的洪泛策略进行分析,发现其容易重复转发相同消息,导致产生大量冗余通信,造成网络拥塞等问题。提出采用基于路由标记的分布式信息检索策略,以减少冗余消息的产生并避免网络拥塞,最后以实例进行两种策略的对比分析,并通过理论推导证明了后者的有效性。 相似文献
12.
Berretti Stefano Del Bimbo Alberto Pala Pietro 《Multimedia Tools and Applications》2004,24(3):215-232
Searching information through the Internet often requires users to separately contact several digital libraries, use each library interface to author the query, analyze retrieval results and merge them with results returned by other libraries. Such a solution could be simplified by using a centralized server that acts as a gateway between the user and several distributed repositories: The centralized server receives the user query, forwards the user query to federated repositories—possibly translating the query in the specific format required by each repository—and fuses retrieved documents for presentation to the user. To accomplish these tasks efficiently, the centralized server should perform some major operations such as: resource selection, query transformation and data fusion.
In this paper we report on some aspects of MIND, a system for managing distributed, heterogeneous multimedia libraries (MIND, 2001, http://www.mind-project.org). In particular, this paper focusses on the issue of fusing results returned by different image repositories. The proposed approach is based on normalization of matching scores assigned to retrieved images by individual libraries. Experimental results on a prototype system show the potential of the proposed approach with respect to traditional solutions. 相似文献
13.
浅析了当前藏文数据采集与检索存在的问题.基于元搜索技术提出了一种藏文信息采集方案;基于全文检索工具包Lucene并针对藏文的特点,提出了一种藏文信息的索引、检索的设计方案,并对其关键技术进行了探讨.实际系统应用证明方案可行.介绍的数据采集、索引、检索方案同样适用于藏文外的其他语种. 相似文献
14.