首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 97 毫秒
1.
一种基于语义特征的Web文档检索方法   总被引:2,自引:0,他引:2  
Web文档聚类在Web信息检索中起着重要的作用。文中提出了一种新的Web文档聚类和检索算法。该算法采用有序聚类的方法,根据Web文档的物理结构概括其语义段落和提取相应的语义特征,并以此作为文档检索的基础;在此基础上,根据用户的检索要求直接在文档的语义段落层次计算其相似性,大大提高了检索的精度和效率。实验结果表明,文中提出的算法具有一定的实用性。  相似文献   

2.
郭红建  黄兵 《计算机应用研究》2013,30(11):3299-3301
针对多文档文摘生成过程中话题容易中断和文摘句子语义出现不连贯这两个研究难点, 分析了潜在语义分析聚类算法在句子排序中的应用, 以期提高文摘的生成质量。先采用潜在语义分析聚类算法将文摘句子聚类, 从而形成话题集, 以达到解决话题中断的目的。通过计算文档的文摘展现力, 挑选出文摘展现力最大的文档作为模板, 然后根据模板对文摘句子进行两趟排序。实验结果表明, 提出的算法是有效的, 该算法能够提高文摘的可读性。  相似文献   

3.
一种基于LDA的潜在语义区划分及Web文档聚类算法   总被引:2,自引:0,他引:2  
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。  相似文献   

4.
针对如何为构件检索提供更合理的候选构件集问题,设计了一种基于标识潜在语义分析的模糊聚类方法 (TL-SAF)。首先设计了标识提取算法从构件描述文档中提取出构件的标识,然后应用潜在语义分析对标识进行降维并提取潜在语义关系,最后使用模糊聚类的思想对构件进行聚类。TLSAF聚类摆脱了传统聚类的硬划分模式,使构件可以分别隶属于不同的簇,对构件检索将能够提供更好的支持。通过在原型构件库中应用TLSAF对本文方法的可行性与有效性进行了验证。  相似文献   

5.
文章介绍一种网页聚类算法利用潜在语义分析LSA(Latent Semantic Analysis)降低词一文档矩阵的秩,在聚类分析中,采用概率潜在语义分析改善聚类精度。首先利用潜在语义分析对词一文档矩阵进行奇异值分解,达到降秩和去噪的目的;然后在聚类分析中,采用概率潜在语义分析设计文档相似度计算函数,实验结果表明该算法的有效性。  相似文献   

6.
基于潜在语义索引和句子聚类的中文自动文摘   总被引:2,自引:0,他引:2  
自动文摘是自然语言处理领域的一项重要的研究课题.提出一种基于潜在语义索引和句子聚类的中文自动文摘方法.该方法的特色在于:使用潜在语义索引计算句子的相似度,并将层次聚类算法和K-中心聚类算法相结合进行句子聚类,这样提高了句子相似度计算和主题划分的准确性,有利于生成的文摘在全面覆盖文档主题的同时减少自身的冗余.实验结果验证了该文提出的方法的有效性,对比传统的基于聚类的自动文摘方法,该方法生成的文摘质量获得了显著的提高.  相似文献   

7.
一种基于潜在语义分析的查询扩展算法   总被引:5,自引:0,他引:5  
该文提出一种新的查询扩展算法。通过对文本进行潜在语义分析,引入计算词语间语义相似度的方法,将文本聚类应用到检索的交互过程中,以提高信息检索的质量。实验结果表明该算法对于提高检索的准确率是十分有效的。  相似文献   

8.
张群  王红军  王伦文 《计算机科学》2016,43(Z11):443-446, 450
短文本因具有特征信息不足且高维稀疏等特点,使得传统文本聚类算法应用于短文本聚类任务时性能有限。针对上述情况,提出一种结合上下文语义的短文本聚类算法。首先借鉴社会网络分析领域的中心性和权威性思想设计了一种结合上下文语义的特征词权重计算方法,在此基础上构建词条-文本矩阵;然后对该矩阵进行奇异值分解,进一步将原始特征词空间映射到低维的潜在语义空间;最后通过改进的K-means聚类算法在低维潜在语义空间完成短文本聚类。实验结果表明,与传统的基于词频及逆向文档频权重的文本聚类算法相比,该算法能有效改善短文本特征不足及高维稀疏性,提高了短文的本聚类效果。  相似文献   

9.
基于改进LSA的文档聚类算法   总被引:1,自引:0,他引:1  
提出一种基于改进潜在语义分析MLSA(Modified Latent Semantic Analysis)的文档聚类算法.采用新的特征提取方法构建词-文档矩阵,利用潜在语义分析对词-文档矩阵进行奇异值分解以达到垃圾信息过滤的目的,同时使得向量空间模型中文本的高维表示变成在潜在语义空间中的低维表示,缩小了问题的规模.然后将共现数据对转换成概率统计模型来计算,提高了聚类质量.实验表明,本文提出的方法是有效的.  相似文献   

10.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

11.
语义网是提高网络信息检索质量的重要途径。利用现在流行的Web信息检索系统,扩展其处理语义Web文档中的苎义评注的能力,采用更有效的文档分类算法,将语义Web文档组织成蔟,提高检索质量。介绍的算法与标准的基于图匹配算法相比,计算代价降低,便于后续的存储、抽取和处理等工作。  相似文献   

12.
潜在语义分析在中文信息处理中的应用   总被引:13,自引:2,他引:11  
潜在语义分析是一种关于自然语言信息提取和再现的理论方法,它通过代数的方法提取语义空间中潜在结构。论文叙述了潜在语义分析的基本理论方法,概述了这种方法所建立的潜在语义空间的数学意义;然后通过一个简单示例说明LSA在中文信息处理中的分析方法,并通过分析结果中文本间、词汇间关联度的变化来说明LSA在中文信息处理中的重要意义。  相似文献   

13.
提出一种英文文本检索算法,从文本中提取奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量.实验结果表明,该算法在检索准确率和运算效率上都优于传统的LSA算法.  相似文献   

14.
We present the results of our work that seek to negotiate the gap between low-level features and high-level concepts in the domain of web document retrieval. This work concerns a technique, called the latent semantic indexing (LSI), which has been used for textual information retrieval for many years. In this environment, LSI determines clusters of co-occurring keywords so that a query which uses a particular keyword can then retrieve documents perhaps not containing this keyword, but containing other keywords from the same cluster. In this paper, we examine the use of this technique for content-based web document retrieval, using both keywords and image features to represent the documents. Two different approaches to image feature representation, namely, color histograms and color anglograms, are adopted and evaluated. Experimental results show that LSI, together with both textual and visual features, is able to extract the underlying semantic structure of web documents, thus helping to improve the retrieval performance significantly, even when querying is done using only keywords.  相似文献   

15.
刘磊 《电脑开发与应用》2006,19(3):43-44,47
为了更精确、有效地检索JAVA类库,应用潜在语义分析的理论,设计了基于潜在语义分析的JAVA类库的检索方法,提高了对JAVA类库的检索质量。基于潜在语义分析的理论和方法可以适用于大多数的检索系统,对提高检索系统的检索精确性有很大的帮助。  相似文献   

16.
Semantic search has been one of the motivations of the semantic Web since it was envisioned. We propose a model for the exploitation of ontology-based knowledge bases to improve search over large document repositories. In our view of information retrieval on the semantic Web, a search engine returns documents rather than, or in addition to, exact values in response to user queries. For this purpose, our approach includes an ontology-based scheme for the semiautomatic annotation of documents and a retrieval system. The retrieval model is based on an adaptation of the classic vector-space model, including an annotation weighting algorithm, and a ranking algorithm. Semantic search is combined with conventional keyword-based retrieval to achieve tolerance to knowledge base incompleteness. Experiments are shown where our approach is tested on corpora of significant scale, showing clear improvements with respect to keyword-based search  相似文献   

17.
设计了一种对基于XML描述的软件构件进行聚类的算法(即基于模拟退火的构件聚类算法),该算法通过模拟金属退火基本原理对构件库中的软件构件聚类进行全局优化.构件聚类时,根据一般意义的树间编辑距离,提出一种用于判断基于XML描述的构件间是否相似的度量测度(称为XML编辑距离).利用XML编辑距离,可将构件间相似性度量的时间复杂度限制在多项式级,且能保持构件的XML描述文档的节点语义信息和节点间的祖孙嵌套关系.最后,在构件库测试模型上进行实验,结果证实了基于模拟退火的构件聚类算法在构件查询实践中的可行性和有效性.  相似文献   

18.
语义桌面作为语义Web的一个重要分支,可以为个人计算机用户提供丰富的元数据,用以记录桌面文档的各种特征。这些特征包括文件的常规属性和与用户行为相关的属性,它们为桌面文档检索提供帮助。受到"概念图"理论的启发,本文提出了一种语义桌面环境下的文档检索算法。该算法能有效地利用语义桌面提供的元数据建立一种便于快速查找的文档索引结构,迅速地确定用户查询与桌面文档之间的投影算子。实验表明,该算法的时间效率比以往的基于匹配推理的投影算法有很大的提高,可以在很大程度上满足用户对桌面文档进行快速检索的需求。  相似文献   

19.
基于潜在语义分析的信息检索   总被引:14,自引:1,他引:14  
潜在语义分析是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。文章介绍了基于潜在语义分析的文本信息检索的基本思想、特点以及实现方法。  相似文献   

20.
基于潜在语义分析的中文文本层次分类技术   总被引:9,自引:0,他引:9  
从网络文本自动分类的需求出发,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量,并在此基础上进行分类处理,在不损害分类精度的同时提高了分类及其后处理速度,并设计实现了一个原型系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号