首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 0 毫秒
1.
基于SUMO和WordNet本体集成的文本分类模型研究   总被引:1,自引:0,他引:1  
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。  相似文献   

2.
本文探讨了本体与语义Web的关系、本体在语义Web文本分类中的作用,并重点探讨了基于本体的语义Web文本分类的特点以及Web文本分类器的一般工作原理.  相似文献   

3.
根据知识网格在描述领域知识概念间各种关系所具有的独特功能,探讨基于本体的知识网格集成服务流程过程中有关语义概念的映射表达,相似度实现算法,并提出具有本体功能的一站式集成服务平台的构想。  相似文献   

4.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

5.
自美国ARPANET网络的起步和挪威采用TCP/IP协议经SANNET接入Internet开始,网络从Web1.0(互联网)→Web2.0(社区网)→Web3.0(语义网)→Web4.0(泛在网)以加速度的方式发展,而目前我们处于语义网向泛在网发展阶段,如图1所示:在该阶段,在异构资源之间、异地用户之间以及用户  相似文献   

6.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

7.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

8.
基于SOA的网络信息资源集成研究   总被引:1,自引:0,他引:1  
文章将SOA理念引入网络信息资源集成中,建立了基于SOA的网络信息资源集成模型和结构,为网络信息资源集成提供了一个崭新的视角。  相似文献   

9.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

10.
基于潜在语义分析和改进的HS-SVM的文本分类模型研究   总被引:1,自引:0,他引:1  
张玉峰  何超 《图书情报工作》2010,54(10):109-113
为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法-基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。  相似文献   

11.
基于本体的CSSCI学术资源网络模型构建及其应用研究   总被引:1,自引:0,他引:1  
具有语义描述能力的知识组织方式本体机制的提出和发展,为改善CSSCI信息服务提供了新的契机.本文在分析CSSCI数据和服务现状的基础上,提出了基于本体构建CSSCI学术资源网络模型的解决方案,即通过本体的面向对象的知识结构来组织CSSCI中的学术资源,以达到提高CSSCI信息服务质量的目的.在完整地阐述CSSCI本体概念模型的建立和基于概念模型的CSSCI数据语义标注过程的基础上,提出了专门用于CSSCI-Onto的评价模型,认为可以从正确性、合理性、有效性三个方面分阶段实现本体评价.最后通过具体的实践应用(包括建立基于CSSCI-Onto的知识检索服务平台和实现基于本体的引文分析)验证了该解决方案具有可行性和有效性.  相似文献   

12.
本文从理论上探讨了向量空间模型及其改进模型在专题文献过滤中的相关算法。概念扩充模型解决了词的同义现象,提高了召回率;潜在语义分析模型通过统计方法,提取并量化这些潜在的语义结构,进而消除同义词、多义词的影响,提高文本表示的准确性,从而使专题研究中文献过滤的召回率和准确率都有显著提高。  相似文献   

13.
在向文献数据库发送检索提问后,用户检索到的往往是数量众多且线性排列的文献记录,如何进一步分类这些文献记录以方便用户使用是信息检索领域的重要课题之一。本文以一个比较狭小的主题(脊髓损伤)为文献查询提问,探索利用原数据库中提供的论文主题相似性信息对检索到的文献记录进行聚类的方法,并对每个类别赋予类别标签。本文①利用生物医学权威文献数据库Medline,分别检索PubMed中有关脊髓损伤的部分文献(源文献),实际操作中我们抽取近两年发表的有关脊髓损伤的1906篇文献中前50篇;②利用PubMed中的相关文献功能分别检索出源文献的相关文献(共5108篇),筛选出频次较高的相关文献(出现频次大于或等于5次,共31篇);③形成源文献和相关文献的关联矩阵,根据该矩阵对来源文献进行聚类分析;④分别采用人工分析和主题词的向量空间模型算法提取各类的文献内容或类标签,初步评价分类结果的正确性。经过基于相似性的聚类分析,可以将脊髓损伤的源文献分为3个大类,对比人工分析和主题词向量空间模型方法对来源文献的内容提取,二者基本相符。就本文研究涉及的主题而言,利用文献数据库中提供的论文相关性信息对检索结果进行再次分类的方法是可行的。  相似文献   

14.
现有的CSSCI信息服务系统只能提供单一、线性的检索功能,检索效果不佳,主要原因在于后台数据组织的不合理。为此,提出使用基于本体的知识服务平台代替现有CSSCI检索服务系统的解决方案,提供知识层次的服务,以改善用户的检索环境。在提出基于本体信息检索系统一般模式的基础上,设计一个实用的基于CSSCI_Onto的知识服务平台KRSP_CSSCI_Onto,对该平台的基本功能和系统框架进行探讨,并据此开发一个试验性的知识检索系统,详细阐述本体在知识检索服务中的具体应用,包括用户检索式的语义扩展,查询结果的关联知识推荐,基于学术资源网络模型的知识导航以及基于规则库的知识关系检索等。  相似文献   

15.
基于本体的政府信息资源组织研究   总被引:1,自引:0,他引:1  
将本体工程引入到政务领域,从研究和构建政务领域的本体入手,建立一个基于领域本体的统一、规范的政府信息资源元数据集,在信息资源语义描述和语法表示的层次上实现对分布、异构的政府信息资源的共享和互操作.具体考虑了GIR领域资源的特点和分布式异构环境的影响,提供统一、规范的GIR领域表示元数据集,并依据元数据表达政府信息资源,以实现政府信息资源间的无缝链接和交换,实现分布、异构的数据共享和互操作.  相似文献   

16.
由马林青博士担任课题负责人的中国人民大学信息资源管理学院研究团队开展了国家档案局“网络环境下文件与档案分类的理论基础和方法模型研究”课题研究。课题以全程管理理论为指导,考察我国现有文件与档案分类的概念及分类模式的特点及存在问题,分析电子文件分类与数字档案资源分类的需求与功用,完善了网络环境下文件与档案分类的理论基础,建立了电子文件分类与数字档案资源分类相关联的方法模型。课题成果成功应用于一些中央企业及事业单位。该课题荣获2014年度国家档案局优秀科技成果三等奖。  相似文献   

17.
目前国外基于专利和期刊两类异种资源的集成数据预测科技发展趋势已成为重要的研究方向。由于集成数据库构建和分析的复杂性,国内还延续着专利、期刊数据的独立分析方法。为此,文章提出了基于专利和期刊两类异种信息资源的集成数据库构建方法,并对其应用进行了探讨。具体地说,文章分析了知名数据库提供商的专利和期刊的数据结构,从含义上选择了专利和期刊中相互匹配的字段,设计了两类异种数据信息资源的集成数据库,对该数据库的应用进行了概念分析。最后,给出了文章的结论及未来课题。  相似文献   

18.
一、档案网络共享的技术背景 在网络平台上实现档案信息资源的广域共享,是档案信息化发展的必然要求。实现这一目标的技术方案有两种:基于开放的互联网建立起逻辑上相互链接的档案网站集群,通过统一的入口网站提供开放档案服务;将分布式的档案信息系统通过某种安全的方式联接起来,  相似文献   

19.
通过对网络信息资源评价研究的内容和收集数据的工具和方法进行说明,比较分析目前常用的几种搜索引擎的性能,总结搜索引擎存在的问题,并提出了今后利用搜索引擎进行数据收集的方法及发展方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号