首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
赵辉  刘怀亮 《图书情报工作》2013,57(11):120-124
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。  相似文献   

2.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

3.
针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。  相似文献   

4.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

5.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

6.
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度.  相似文献   

7.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性.  相似文献   

8.
文章分析维基百科中的文档、目录、超链接、重定向以及消歧义等基本元素与结构关系特点,围绕维基百科在信息检索、文本分类、文本聚类、歧义消解、查询扩展与信息抽取以及本体构建等信息处理任务中的典型解决方法与相关项目,综述和评析基于维基百科的语义知识挖掘的研究与应用方法,从整体上把握基于维基百科的知识挖掘研究现状与进展,为当前知识服务系统建设提供借鉴。  相似文献   

9.
基于语义网络的概念检索研究与实现   总被引:50,自引:8,他引:42  
本文介绍一种基于语义网络的中文搜索引擎概念检索模型,并应用此模型,针对计算机及其应用领域,创建了一个含有500多个概念节点,包括一个分类体系和近300种概念相关关系的语义网络,初步实现了特定领域的概念检索。实验结果表明,该模型对于建设知识化、智能化的中文搜索引擎是非常有用的。  相似文献   

10.
李毅  庞景安 《情报学报》2003,22(4):403-411
为了提高中文医学信息检索效率,本文应用语义学研究成果,深入剖析统一医学语言系统(UMLS),从理论上对多层次概念语义网络结构进行了探讨,以此设计了适用于中文医学信息特点的三层概念语义网络结构,并分别确定了各个概念语义网络层次的语义类型和语义关系,进一步完善了医学信息语义网络.以信息检索的认知理论为依据,建立了基于三层概念语义网络结构的中文医学信息语义标引体系和语义检索模型.对扩展检索和语义检索进行统计学Kappa检验,认为两种检索方法的一致性非常显著(p<0.01);与扩展检索中的任何一种方法相比,语义检索方法具有更高的检索效率.  相似文献   

11.
维基百科分类页面所构成是一种在用户自发的协同编辑行为下建立起来的、具备自组织特性的全新知识分类结构。依据维基百科分类结构特点,将其看成是以分类页面为领域知识节点,以节点间相互包含关系为边的领域知识分类结构。采用自回避随机游走方法(self-avoiding random walks)构建领域知识节点熵测量模型,从而测定领域知识结构中心领域知识和边缘领域知识节点,以研究领域知识节点随时间演化的规律。研究表明,大多数情况下,多样性熵值越大的节点,越趋向于知识结构的中心领域知识,且其创建的时间也越长;处于相同社团结构中的节点间存在关联关系,使得它们的多样性熵值表现出相似的变化趋势。  相似文献   

12.
基于个体概念语义关系的微内容发现研究   总被引:1,自引:0,他引:1  
传统的超文本标记语言只能显示而不能使计算机理解页面信息,导致传统的基于关键词的检索工具的查准率、查全率和智能化程度都较低.虽然语义网可以解决计算机对页面信息的理解问题,但以往基于本体的语义匹配算法通常是面向类概念的,在精度上不能满足微内容的发现需求.本文面向微内容检索应用,在分析了个体概念的语义特征的基础上,提出了基于语义关系的个体匹配规则、索引结构和相应的语义检索算法.最后,通过实验验证,证明了基于个体语义关系的聚合机制具有更高的聚合细腻度,所提出的语义检索算法在面向微内容的检索应用中是有效的.  相似文献   

13.
一种基于类别信息的文本自动分类模型   总被引:2,自引:0,他引:2  
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。  相似文献   

14.
客观知识体系中的相关性研究   总被引:1,自引:1,他引:0  
本文针对信息科学领域相关性研究对客观知识体系中相关性(即语义相关)的忽略问题,对语义相关进行了较全面的综述性研究,从语义相关的概念理解、语义相关与检索相关的比较、语义相关与知识组织的关系、语义相关度量方法以及语义相关的应用5个方面展开了论述,旨在清晰语义相关内涵,强调语义相关在信息科学领域相关性研究中的基础性地位,突出语义相关对知识组织深化的决定性作用,从而引起学者对客观知识体系中相关性研究的高度关注.  相似文献   

15.
[目的/意义]研究利用维基百科条目的丰富信息来补充完善当前中文名称规范档附加信息不足、名称难以准确区分的问题。[方法/过程]探讨网络环境下个人名称规范档的部分缺陷和维基百科相应的优势,重点阐述维基百科的接口Media Wiki API,并从两个方面探讨实现个人名称规范档与维基百科的链接应用:一是实现从名称规范档到维基百科的链接,二是动态生成个人简介,为名称规范档提供必要的信息来源。[结果/结论]集成维基百科的资源实现中文名称规范档信息的自我完善,有效地建立中文人名名称规范档与维基百科的链接,有助于个人名称的识别与检索。  相似文献   

16.
[目的/意义] 微博转发是实现微博信息传播的重要方式,对用户转发行为进行研究可以更好地理解微博信息传播机制,对热点话题检测、舆情监控、微博营销等具有重要意义。针对以往研究中用户兴趣表示不够全面准确以及未考虑情感差异对用户转发行为的影响,提出一个融入情感差异和用户兴趣的微博转发预测模型。[方法/过程] 该模型首先从维基百科中提取概念语义关系构建维基知识库,将其作为语义知识源对微博文本进行语义扩展,解决语义稀疏问题;对语义扩展后的用户历史微博进行聚类,提取用户兴趣主题和主题对用户的影响力;然后计算微博中各类情感的情感强度,提取情感差异特征;最后结合用户行为特征、用户交互特征、微博特征、用户兴趣特征和情感差异特征,运用SVM实现微博转发预测。[结果/结论] 在新浪微博真实数据集上进行实验,验证了所提模型的有效性。  相似文献   

17.
语义相关度算法在主题抽取中的适用性研究   总被引:1,自引:0,他引:1  
语义相关度的计算方法在信息检索、文本挖掘和自然语言处理等方面有着广泛的应用,而其算法种类很多,这些算法针对不同的应用环境具有不同的适用性.本文汇总了多种语义相关度的计算方法,首先全面地概括分析了各类方法的特点,并以应急预案的主题抽取为背景,通过各种语义相关度算法在基于词汇链的主题抽取中的应用,研究了各种算法对主题抽取效果的影响,从而对各种算法在主题抽取中的适用性给出了相应的评价.  相似文献   

18.
针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC (Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号