首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 889 毫秒
1.
中文全文检索算法研究   总被引:3,自引:0,他引:3  
一、全文检索系统概况1.全文检索系统应具备的功能一个全文检索系统至少要具备两个功能:仅)文章中任何有意义的词、字都可被检索。(2)能对检索词之间的关系进行位置和逻辑操作。另外,全文检索的响应时间应在秒级以内。2.本文全文检索的善本技术目前,已开发出来的中文全文检索系统,其基本技术可归纳为三种类型:(1)主题词索弓I。建立主题词索弓l。根据主题词典,对检索条件中切分后相邻自由词组合与主题词典匹配。得出检索结果。(2)词索引。对源文献进行分词,抽词,用切分获得的词的全体作为标引词,据此建立索引文件。检索时…  相似文献   

2.
周必水  蒋鹏 《计算机时代》2007,(2):24-25,28
针对电子商务信息检索效率比较低的问题,提出了基于本体的电子商务信息智能检索方法.该方法首先对电子商务信息源分析出其领域概念词,并根据概念词利用本体描述语言建立本体,接着对用户输入的检索短语进行概念词抽取得到相应领域的概念词,利用所得到的概念词通过智能检索算法得出用户检索结果集.文章最后给出了该方法的一个实现,应用结果表明该方法提高了电子商务信息的检索效率.  相似文献   

3.
面向主题的概念检索研究   总被引:3,自引:1,他引:2  
该文提出了一种基于概念网络和主题概念树的面向主题的文本检索算法。依托概念网络建立主题概念树,利用主题概念树对用户的查询请求进行语义扩展,实现同义和语义蕴涵检索。关联度的计算模型考虑了词与词之间,句与句之间的语义激励。通过关联度在主题概念树上的传播模型,实现复合概念关联度的计算。检索结果按关联度大小降序排列。基于主题概念树的概念检索导航为用户检索提供了便利。  相似文献   

4.
词间相关性在Web检索中的新应用   总被引:1,自引:2,他引:1  
首先分析了以往信息检索中利用词间相关性的局限性,针对Internet检索对象是Web页面,具有篇幅较小的特点犤2犦,提出“主题关键词集合”的概念,利用词间相关性,通过计算用户查询词集合与网页主题关键词集合之间的距离,对检索结果重新排序。  相似文献   

5.
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。  相似文献   

6.
中文信息的全文检索技术   总被引:3,自引:0,他引:3  
前言信息时代产生了大量的信息,迫切需要一个高效的信息整理工具,以便快速得到自己的所需要的文章。全文检索以其易用和实用件、成为包括中义在内的信息领域的基本技术。1、全文检索技术的基本概念全文检索的基本工作方式是能够将所有包含检索词的文献检索出来,不管这个词出现在文献的什么位置;或者说文献中的任意一个词都可以作为检索到该文献的条件。全文检索是信息检索的一个分支。70、80年代得到迅速的发展,90年代以来得到广泛的应用。信息检索的核心在于在文献信息中抽取出能够表现文献的特征值,对特征值建立索引,以便于检索时…  相似文献   

7.
向量空间模型是最常用的信息检索模型,它根据词频来计算文档之间的相关度,这种方法虽然能够满足用户的基本检索需求,但是对于检索要求较高的用户,其效果仍然不甚理想。文中在向量空间模型的基础上,首先通过领域本体和上层本体来计算特征词项之间的相似度,据此得出与查询词相关的词,在求词项频率和逆文档频率时考虑这些词,然后引入了词序相关度和词语相邻相关度这两个概念,把特征项的位置关系也考虑进来。实验结果表明,文中提出的模型相比原始向量空间模型,在准确率上有了较大的改善。这完全说明,与原始向量空间模型相比,文中提出的检索模型不仅考虑了与原有词项具有相似语义的词项,而且还考虑了词项顺序和词项相邻信息,从而更能符合用户的检索要求。  相似文献   

8.
查询扩展是提高检索效果的有效方法,传统的查询扩展方法大都以单个查询词的相关性来扩展查询词,没有充分考虑词项之间、文档之间以及查询之间的相关性,使得扩展效果不佳。针对此问题,该文首先通过分别构造词项子空间和文档子空间的Markov网络,用于提取出最大词团和最大文档团,然后根据词团与文档团的映射关系将词团分为文档依赖和非文档依赖词团,并构建基于文档团依赖的Markov网络检索模型做初次检索,从返回的检索结果集合中构造出查询子空间的Markov网络,用于提取出最大查询团,最后,采用迭代的方法计算文档与查询的相关概率,并构建出最终的基于迭代方法的多层Markov网络信息检索模型。实验结果表明 该文的模型能较好地提高检索效果。  相似文献   

9.
词袋模型是图像检索中的一种关键技术。词袋模型中每张图像表示为视觉词在码本中的频率直方图。这样的检索方式忽视了视觉词间对于图像表示很重要的空间信息。提出一种全新的基于最长公共视觉词串的图像检索方法。词串的提取基于视觉词间的拓扑关系,包含很多图像的空间信息。在Holiday数据集上的实验结果表明提出的方法提升了词袋模型的检索效果。  相似文献   

10.
基于概率推理模型的博客倾向性检索研究   总被引:2,自引:0,他引:2  
近年来博客作为一种新兴的大众化新闻发布媒介越来越受到人们和业界的关注.博客之间通过互相引用、互相推荐形成一个巨大的博客空间.在博客空间中,人们既可以自由发表对现实生活各种问题的观点,表达自己的情感,也可以对市场上出现的新产品进行评论.准确检索出博客空间中人们对重要话题、热点事件的观点看法对市场调研、网络舆情发现与预警等应用有重要意义.博客倾向性检索的目标是检索出与给定查询既要主题相关又要有与该查询相关评论的博文.为实现该目标,把概率推理模型应用于博客倾向性检索中,提出一个基于概率推理模型的博客倾向性检索算法.该算法把主题相关性评分和倾向性评分合并到一个统一的概率推理理论模型,能够有效计算博文中出现的主题描述与查询的主题相关性,合理度量倾向性词描述查询主题的倾向性强弱,并融合二者分数形成最后整体评分.实验表明,该算法能够有效地识别博客空间中与给定查询相关的观点,获得较好的结果.  相似文献   

11.
基于文摘的信息检索模型   总被引:1,自引:0,他引:1  
李卫疆  赵铁军  臧文茂 《软件学报》2008,19(9):2329-2338
基于文摘的检索模型是基于一个假设。即出现在文摘中的词要比未出现在文摘中的词更能表达文章的主题,因此对检索贡献更大.提出了两个基于文摘的语言检索模型,一个是用文摘模型代替文档模型直接检索文件(SQL),另一个是用文摘模型平滑文档模型(SBDM).在TREC数据集上的实验表明,该模型能够提高检索的性能.其中,SBDM的性能一致接近或优于传统的标准文档查询相似模型.有两个方面的贡献,一方面提出了面向检索的文摘抽取方法并考察了这些文摘方法对检索性能的影响;另一方面提出了新的检索模型,即基于文摘的检索模型.  相似文献   

12.
在文本特征选择中,由于词语概率空间和词义概率空间的差异,完全基于词语概率的主题特征往往不能很好地表达文章的思想,也不利于文本的分类。为达到主题特征更能反映文章思想这一目的,提取出一种基于词义降维的主题特征选择算法。该算法通过在词林基础上构建"同义词表",作为词到词义的映射矩阵,构造一个基于词义之上的概率分布,通过LDA提取文本特征用于分类,分类准确率得到了明显提高。实验表明,基于此种方法所建立的主题模型将有更强的主题表示维度,通过该算法基本解决文本特征提取中词语概率和词义概率之间差异的问题。  相似文献   

13.
提出一种在无标注图像库中进行的基于关键词的检索方法.该方法在用户输入关键词后,首先利用图像周围的文字信息从网页中过滤一部分与检索主题无关的图像.然后利用图像的视觉特征在之前的基础上筛选出与检索词具有高度相关性的图像.最后利用数据审计技术对筛选出的图像进行进一步精化,并利用精化后的图像对图像库进行检索.实验结果表明,借助数据审计技术,该方法可有效提高对无标注图像库进行基于关键词的检索性能.  相似文献   

14.
针对从大数据评论语料库中检索出与新闻主题相关且含有情感倾向性的中文评论的研究较少的问题,研究在不同新闻粒度下的特征检索方法,从中文评论语料库中检索生成评论。采用主题特征检索的方法检索出与新闻主题特征相关的评论;采用情感特征融合的检索方法从主题特征检索的结果中生成所需情感倾向性的评论。实验结果表明,在新闻标题粒度下生成评论的主题相关性最高;采用主题特征融合的检索方法和情感特征融合的检索方法比单一检索方法生成准确率更高。  相似文献   

15.
一种面向元数据描述文档的概念检索方法   总被引:2,自引:0,他引:2  
元数据描述文档在检索过程中仍然存在着检索词和描述词不匹配的问题。文章在准确描述领域概念之间关系的概念网的支持下,给出检索词和描述词的概念相关度计算公式,提出了用概念扩展来提高检索质量的新方法。并在领域概念网和元数据描述的科技文档组成的实验系统上,进行了多种实验和分析,证明了检索方法的有效性。  相似文献   

16.
为了解决搜索引擎检索结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,提出基于主题短语的搜索引擎结果聚类方法。首先从检索结果中提取查询词并与相邻词语组成主题短语,建立包含高频独立词语及主题短语的混合向量空间模型,同时引入同义词词林对特征项进行语义扩充,最后采用改进的k-means聚类算法对搜索结果进行聚类,并为各个类别提取类别标签。实验结果表明,该算法能有效提高聚类结果的准确率。  相似文献   

17.
汉语语音检索的集外词问题与两阶段检索方法   总被引:2,自引:0,他引:2  
该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外词可以以词表词序列的形式被识别和检索到,因此被认为不存在集外词问题;该文发现集外查询词性能远远低于集内查询词,将此问题定义为汉语语音检索任务的集外词问题,并提出两阶段的检索方法,第一阶段通过模糊音素匹配的方法提高查全率,第二阶段通过词格修正的方法提高查准率。实验表明,两阶段的检索方法极大的提高了典型集外查询词的检索性能,FOM指标相对基线系统提高了24.1%。  相似文献   

18.
查询扩展是提高检索性能的有效方法。为了弥补在数据集中由于词对没有直接出现而导致无法统计出词间关系进行查询扩展的缺陷,该文通过提取Markov网络中的词团信息来量化词间的混合相关性,将强化后的词间混合相关性应用于信息检索扩展模型中。实验表明 基于混合相关的Markov网络信息检索扩展模型的检索效果优于基于直接相关的查询扩展模型;此外,该文提出的模型在总体检索性能上略优于基于团的Markov网络信息检索模型,但在词团提取上大大减少了计算开销。  相似文献   

19.
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。  相似文献   

20.
主题分割技术是快速并有效地对新闻故事节目进行检索和管理的基础。传统的基于隐马尔可夫模型(HiddenMarkov Model,HMM)的主题分割技术仅使用主题和主题之间的转移寻找主题边界进行新闻分割,并未考虑各主题中词与词之间存在的潜在语义关系。本文提出一种基于隐马尔科夫模型的改进算法。该算法使用潜在语义分析(Latent Se-mantic Analysis,LSA)对词频向量进行特征提取和降维,考虑了词与词之间的上下文关系,通过聚类得到文档类别信息,以LSA特征和主题类别作为HMM的观测和隐状态,这样同时考虑了主题之间的关系,最终实现对文本主题分割。数据实验表明,该算法具有较好的分割性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号