首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
针对VSM不能揭示隐藏在不同特征词后面的相同概念语义、反映文档中的潜在语义关系、在相似度计算中精度较低的问题,提出一种基于领域本体的文档向量空间模型DOBVSM(domain ontology-based vector spacemodel)。该模型把领域本体中的概念扩展为文档特征词,并通过概念间的语义关系对特征词权重进行调整,最终建立包含语义关系的文档DOBVSM。通过实验分析表明:DOBVSM计算的文档相似度值更加发散,与专家评价值最为接近,能够较好地反映文档之间的相似情况。  相似文献   

2.
基于本体的向量空间模型的压缩算法   总被引:2,自引:0,他引:2       下载免费PDF全文
采用本体(Ontology)为向量空间模型提供更为丰富、详细的概念空间,在本体的支持下,文档中的术语不再被孤立地看成关键词,而是彼此间有了一定的语义联系。以已获得丰富而详细的本体为前提,考虑当本体空间很大时,解决向量空间的高维数给计算带来复杂性与难度这一问题,提出基于HCA(Hierarchical Clustering Algorithm)的向量空间压缩算法。  相似文献   

3.
基于向量空间模型的过滤不良文本方法   总被引:10,自引:3,他引:10  
李强  李建华 《计算机工程》2006,32(10):4-5,8
就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验。试验和结果分析表明,Naive Bayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向最法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中。  相似文献   

4.
为了实现异构模糊本体之间的知识共享和重用等语义互操作,需要为它们建立映射关系,为此提出了一种新的模糊本体映射方法VSM-FR(vector space model based on fuzzy relation)。VSM-FR方法首先利用模糊本体中的模糊关系构建向量空间模型;然后将模糊概念表示成此向量空间模型中的向量,这样模糊概念之间的相似度就可以通过向量运算的方法来获得;最后为相似度大于给定阈值的模糊概念对建立映射关系。附带的实例也充分地证明了VSM-FR方法在处理模糊本体映射时的可行性和有效性。  相似文献   

5.
针对传统的向量空间模型和潜在语义分析方法应用于计算机辅助评估时存在的问题,提出一种将领域本体、一阶逻辑和潜在语义分析方法相结合的本体空间表示模型.该模型采用一阶逻辑表示从短文问题得到的二元关系并建立索引,使用潜在语义分析来计算关系集合中关系和包含段落的文档的相似度,从而得到段落在关系子集的平均相似度.实验结果表明,与向量空间模型相比,该模型的表示效果更好.  相似文献   

6.
数据是作战指挥训练模拟系统的基础,权威数据的缺乏、数据检索的困难等,容易出现数据失控的现象。加强对数据的管理,建立统一的标准是目前亟待解决的问题。该文通过引入本体有效地解决了上述问题,本体的建立使得资源数据定义格式有了统一的规范,在军事训练网中可共享数据。  相似文献   

7.
基于向量空间模型的网页文本表示改进算法   总被引:7,自引:0,他引:7  
曾致远  张莉 《计算机工程》2006,32(3):134-135,139
介绍了一种新的文本表示算法,应用在网页文本过滤系统中。比起传统的向量空间模型,这种建立在其上的改进算法有更快的过滤速度和更高的过滤精度。该算法直接从过滤模板的特征集中取出词条,只在网页文本出现该词的地方进行精确处理。根据特征项所在的网页标签,赋予不同的权值系数,以准确定义特征词在文中的重要程度,最后建立该网页的文本表示模型。  相似文献   

8.
采用经典的向量空间模型对网页文本进行分类。由于传统特征项权重计算公式TFIDF在网页关键词计算和关键词类间区分度不高等问题的存在,本文将网页结构分成两个部分,含有标题、元数据、链接锚文件等的关键词部分和网页的正文部分,对关键词部分的权重进行了加强,而对网页正文部分采用改进的IDF进行计算,使关键词在类的区分度的效果上得到一定程度的提升,试验证明该方法是可行的。  相似文献   

9.
黄剑韬 《计算机应用》2011,31(Z2):67-69
为了降低基于向量空间模型(VSM)的文本分类方法的向量维数,并减少噪声对分类的影响,现利用商空间的粒度理论对基于VSM的分类模型进行改进,提出了一种基于商空间的新的VSM分类方法,该方法降低了基于VSM文本分类的向量维数,提高了不同文本之间的辨别能力.  相似文献   

10.
基于向量空间模型的文本过滤系统   总被引:64,自引:0,他引:64       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献   

11.
针对文本自动分类问题,提出了一种基于模糊向量空间模型和径向基函数网络的分类方法.网络由输入层、隐层和输出层组成.输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来.该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.  相似文献   

12.
针对维英本体共性知识的获取问题,提出一种基于跨语本体重用的快速构建维语领域本体方法。该方法将初始维语本体转换为英语本体,通过本体选择、映射和合并等过程对其丰富,达到一定阈值,转换为维语本体。提出了数据源势、本体势等概念和构建维语本体的数据模型。基于该方法构造了一个旅游领域本体实例,转换率达到78.8%,充分验证了该方法的可行性与有效性。  相似文献   

13.
随着计算机技术及互联网的高速发展,越来越多的办公主机接入互联网,敏感信息的泄露隐患增多,文档的敏感信息检测显得尤为必要。为了解决传统的查询扩展检测方法查准率和查全率低的问题,构建了监测者关于敏感信息的兴趣本体,提出基于兴趣本体的概念相似度查询扩展算法,并验证了算法的可行性。实验证明该算法有效提高了文档敏感信息检测的查全率和查准率。  相似文献   

14.
根据试题具有一般文本的特点,提出把计算机分类技术应用于试题分类.借鉴文本分类的关键技术,成功创建了一个基于向量空间模型的试题分类系统.把全国专业技术人员计算机应用能力考试的"PowerPoint 2003中文演示文稿"模块题库作为试题语料,进行试题分类实验,结果表明了该试题分类系统的可靠性.同时探讨了如何利用试题分类系统对题库进行质量控制.  相似文献   

15.
曾超  吕钊  顾君忠 《计算机应用》2008,28(12):3248-3250
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。  相似文献   

16.
手工构建本体是一项既费时又费力的工作,为解决此项工作的瓶颈问题,本体自动构建成为当前的一个研究热点和重点。考虑到不同语言描述的本体在本质上是相同的,只是表层的表示符号不同,提出了一种基于本体翻译的领域本体自动构建算法,该算法针对已存在本体中概念标签的不同情况,分别采用不同的统计指标来筛选标签的目标语翻译。通过将一个英文金融本体翻译成中文对算法进行了实验验证,说明了算法的有效性。  相似文献   

17.
基于向量空间的信息检索模型的改进   总被引:1,自引:0,他引:1  
向量空间模型是有代表性的信息检索模型之一,针对该模型存在的问题进行了研究和探讨.在仅用统计词频表-示文档向量方面,引入知网作为语义知识库,提出基于概念的特征选择模型;在因词语的同义和多义,不能满足文档向量相互独立方面,提出潜在语义索引模型.实验验证了改进后的检索模型更能体现文本的内容,降低文本向量的维数,提高检索的准确率.  相似文献   

18.
基于向量空间模型的信息安全过滤系统   总被引:6,自引:0,他引:6  
信息过滤是指通过监控信息源以找到满足用户需求的信息的过程。详细地论述了基于向量空间模型的信息过滤系统,系统由训练和自适应过滤两个阶段组成,在训练阶段,通过主题处理和特征抽取建立初始的过滤模板,设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值,最后给出了评估方法和实验结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号