首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
针对VSM不能揭示隐藏在不同特征词后面的相同概念语义、反映文档中的潜在语义关系、在相似度计算中精度较低的问题,提出一种基于领域本体的文档向量空间模型DOBVSM(domain ontology-based vector spacemodel)。该模型把领域本体中的概念扩展为文档特征词,并通过概念间的语义关系对特征词权重进行调整,最终建立包含语义关系的文档DOBVSM。通过实验分析表明:DOBVSM计算的文档相似度值更加发散,与专家评价值最为接近,能够较好地反映文档之间的相似情况。  相似文献   

2.
针对向量空间模型VSM中,在计算文档相似度时要求文档标引词必须相互独立这一缺陷,提出融合本体与粗糙集的文档相似度计算方法。在该方法中,不仅可以利用本体对概念关系的准确揭示,计算文档之间的概念相似度,还可以结合粗糙集对相关概念实例的属性重要性进行度量,从而计算属性相似度,克服了传统方法需要依赖人的先验知识这一缺陷,最后综合形成文档语义向量相似度,并通过实验分析证明该方法可以在很大程度上提高文档相似度计算的准确性。  相似文献   

3.
对基于向量空间模型的检索方法进行改进,提出基于本体语义的信息检索模型。将WordNet词典作为参照本体来计算概念之间的语义相似度,依据查询中标引项之间的相似度,对查询向量中的标引项进行权值调整,并参照Word-Net本体对标引项进行同义和上下位扩展,在此基础上定义查询与文档间的相似度。与传统的基于词形的信息检索方法相比,该方法可以提高语义层面上的检索精度。  相似文献   

4.
为提高网页内容与特定主题之间相关度计算的准确度,提出一种基于领域本体的网页主题相关度计算模型OBWTCCM(ontology based webpage-topic correlation calculation model)。使用领域本体刻画主题,通过计算本体概念间的语义关系提取主题概念并构造主题语义矩阵,将特征词的统计信息与该矩阵相结合计算网页与主题之间的相关度。该模型改进了向量空间模型在相关度计算时对特征词语义层次分析的不足。实际项目应用结果表明,使用该方法计算得到的网页主题相关度与领域专家的判断总体相符,具有较理想的准确度。  相似文献   

5.
基于语义信息的中文短信文本相似度研究   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。  相似文献   

6.
袁晓峰 《计算机时代》2014,(11):40-41,43
计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。  相似文献   

7.
针对传统的向量空间模型和潜在语义分析方法应用于计算机辅助评估时存在的问题,提出一种将领域本体、一阶逻辑和潜在语义分析方法相结合的本体空间表示模型.该模型采用一阶逻辑表示从短文问题得到的二元关系并建立索引,使用潜在语义分析来计算关系集合中关系和包含段落的文档的相似度,从而得到段落在关系子集的平均相似度.实验结果表明,与向量空间模型相比,该模型的表示效果更好.  相似文献   

8.
文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的.提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法.采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示.然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类.针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性.实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高.  相似文献   

9.
通过对Internet上的模具知识特点的分析,提出了一种基于模具本体的语义标注方法,对Internet上的模具知识进行描述,并结合 实例对该方法进行了说明.该方法使用基于模具本体的向量空间模型(VSM)方法,将从页面中提取的特征词,用领域本体进行理解、扩充,然后基于改进后的TFIDF算法,求出扩充后每个特征词的权值.通过这种方法对网页文档进行语义标注后,可以把文档隐含语义信息显式地表现出来,为模具知识搜索引擎的设计提供了基础.  相似文献   

10.
随着语义Web技术的广泛应用,如何实现在数据量大且形态各异的信息集中准确快速定位信息的需求成为热点问题,文中详细介绍在向量空间模型中引入语义概念对数据抽象建模为语义向量空间模型,根据每个特征项的权重计算向量间的语义相似度。随后分析该模型的利弊,针对其局限性提出基于本体模型的加权语义相似度度量方法。  相似文献   

11.
构建《数据结构》课程的领域本体和标准(学生)答案的句框架,在此基础上,形成一种新的主观题自动阅卷方法。该方法对标准(学生)答案进行分词、词性标注、句法分析、代词消解、提取句框架、计算词语相似度。与以往的主观题自动阅卷系统相比,该系统尽可能地让计算机以理解“语义”为核心,保持标准答案和学生答案的语义联系,评分准确率有所提高。  相似文献   

12.
传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关键词和林业领域内其他词汇的语义距离、语义重合度和概念的层次差,并计算语义相关度;结合TF-IDF和语义相似度的结果计算特征权重。实验证明该模型可以提高文本检索的查准率和查全率,使检索结果更加满足用户的需求。  相似文献   

13.
基于加权语义网和有效信息的个性化用户兴趣建模*   总被引:1,自引:0,他引:1  
为了提高个性化用户兴趣建模的准确率,对用户建模过程进行了优化。在计算文档相似度时,综合考虑特征词的语义关系以及在文档中的分布情况,引入加权语义网,提高了文档相似度计算精度;在计算兴趣度权值时,引入有效信息的概念及量化方法,以解决用户兴趣类权值计算过于主观的问题,并提出具体权值算法,提高了权值计算的准确性。实验结果表明,改进的方法在用户兴趣聚类和兴趣类别权值计算的准确率上都较以往方法有较大提高。  相似文献   

14.
基于本体的Web智能检索研究   总被引:1,自引:0,他引:1       下载免费PDF全文
尹焕亮  孙四明  张峰 《计算机工程》2009,35(23):44-46,4
针对传统的基于关键词信息检索方式存在的问题,提出一种基于领域本体的语义检索模型,在建立本体概念与文档内容关联关系的基础上,对用户的查询输入预处理,利用本体计算两者的相似程度,给出与查询请求相关的排序后的文档。通过搭建基于本体的Web智能检索原型系统,验证了该模型的有效性。  相似文献   

15.
基于领域本体的语义标注方法研究   总被引:3,自引:0,他引:3  
介绍了语义Web.本体以及语义标注的基本概念,对语义标注方法以及现有技术工具进行了简单地说明和分析,提出了一种基于领域本体的语义标注方法,并结合石油产品领域的本体对该方法进行了实例说明.该方法通过分析文档的特征词汇,使用基于领域本体的空间向量模型方法建立词汇与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的语义信息显式的表现出来,这样数据库内部文档之间就具有了语义关联关系,为检索的智能推理提供基础.  相似文献   

16.
Knowledge-based vector space model for text clustering   总被引:5,自引:4,他引:1  
This paper presents a new knowledge-based vector space model (VSM) for text clustering. In the new model, semantic relationships between terms (e.g., words or concepts) are included in representing text documents as a set of vectors. The idea is to calculate the dissimilarity between two documents more effectively so that text clustering results can be enhanced. In this paper, the semantic relationship between two terms is defined by the similarity of the two terms. Such similarity is used to re-weight term frequency in the VSM. We consider and study two different similarity measures for computing the semantic relationship between two terms based on two different approaches. The first approach is based on the existing ontologies like WordNet and MeSH. We define a new similarity measure that combines the edge-counting technique, the average distance and the position weighting method to compute the similarity of two terms from an ontology hierarchy. The second approach is to make use of text corpora to construct the relationships between terms and then calculate their semantic similarities. Three clustering algorithms, bisecting k-means, feature weighting k-means and a hierarchical clustering algorithm, have been used to cluster real-world text data represented in the new knowledge-based VSM. The experimental results show that the clustering performance based on the new model was much better than that based on the traditional term-based VSM.  相似文献   

17.
This paper proposes a self-organized genetic algorithm for text clustering based on ontology method. The common problem in the fields of text clustering is that the document is represented as a bag of words, while the conceptual similarity is ignored. We take advantage of thesaurus-based and corpus-based ontology to overcome this problem. However, the traditional corpus-based method is rather difficult to tackle. A transformed latent semantic indexing (LSI) model which can appropriately capture the associated semantic similarity is proposed and demonstrated as corpus-based ontology in this article. To investigate how ontology methods could be used effectively in text clustering, two hybrid strategies using various similarity measures are implemented. Experiments results show that our method of genetic algorithm in conjunction with the ontology strategy, the combination of the transformed LSI-based measure with the thesaurus-based measure, apparently outperforms that with traditional similarity measures. Our clustering algorithm also efficiently enhances the performance in comparison with standard GA and k-means in the same similarity environments.  相似文献   

18.
胡哲  朱强 《数字社区&智能家居》2010,(5):1025-1026,1037
查询扩展是优化信息检索的一种有效方法。基于关键词的查询扩展对语义信息的忽略为结果带来了不好的影响,因而提出一种基于本体的查询扩展方法。首先建立本体模型,通过计算本体中的概念语义相似度和实例语义相似度,实现语义查询扩展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号