首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。  相似文献   

2.
潜在语义分析在中文信息处理中的应用   总被引:11,自引:2,他引:11  
潜在语义分析是一种关于自然语言信息提取和再现的理论方法,它通过代数的方法提取语义空间中潜在结构。论文叙述了潜在语义分析的基本理论方法,概述了这种方法所建立的潜在语义空间的数学意义;然后通过一个简单示例说明LSA在中文信息处理中的分析方法,并通过分析结果中文本间、词汇间关联度的变化来说明LSA在中文信息处理中的重要意义。  相似文献   

3.
提出了一种基于小波变换、奇异值分解与空间支持向量域分类器相结合的人脸识别方法。在使用空间支持向量分类器对不同人脸图像的奇异特征向量进行分类时,计算所测样本到各个超球球心的距离,并根据其与超球半径的关系来判断其所归属。并在ORL人脸数据库中进行实验。实验表明提出的人脸识别方法识别精度可达97.5%。  相似文献   

4.
为使汪培庄先生提出的因素空间理论便于应用,和基于该理论对多域值属性影响对象集合进行聚类分析,提出了以研究对象为中心的图形化域值属性表示方法,即属性圆。属性圆可以表示无穷多个域属性对对象的影响。先基于属性圆概念进行对象的相似性分析,后为计算方便将图形定义转化为数值相似性定义,进而研究了对象集合的聚类分析方法。实施的聚类原则为:严格遵照相似与不相似划分,参考模糊相似划分。列举了一个实际电气系统的系统可靠性表述群作为研究对象集合,对表述群进行聚类分析。结果表明:决策集D与对象集U的对应关系说明对对象集的划分就其决策属性而言是非奇异的、准确的。这说明尽管在不同环境下对系统进行了可靠性评价,但是这些评价语义是相对客观的,评价的语义可以相互佐证。  相似文献   

5.
针对现有的Web文本分类与表示方法中出现的各种分类效果与性能优化等问题,基于局部潜在语义分析的理论原理,利用支持向量机分类优势,设计出一种基于文档与类别之间相关度的生成局部区域的算法,即S-LLSA。该算法在语义分析使用矩阵的奇异值分解过程中引入不同类别信息,分析特征词的局部特征,使用支持向量机分类器计算文本对类别的相关度参数,并应用于局部区域生成过程。通过实验表明,S-LLSA算法有效解决了局部区域如何进行局部奇异值分解问题,有效提高并优化了Web文本分类效果,更好地表示了Web文本潜在语义空间。  相似文献   

6.
肖升  何炎祥 《计算机应用研究》2012,29(12):4507-4511
中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。  相似文献   

7.
基于潜在语义分析的视频检索   总被引:1,自引:1,他引:1       下载免费PDF全文
潜在语义分析技术是建立在视频分析基础之上的,它通过某种映射关系来建立视频特征矩阵,实现了基于内容的视频检索。阐述了潜在语义分析技术,进行了视频颜色和纹理特征提取研究,实验结果表明,潜在语义分析对于视频内容检索效果较好。  相似文献   

8.
针对潜在语义分析中词汇-文本矩阵奇异值分解的特点,设计并实现了一种基于单边Jacobi的矩阵奇异值分解的并行算法.并行算法采用了一种新的扫描策略和任务划分策略,该策略在一次扫描中能产生n(n-1)/2个不同的列向量对,同时能够对矩阵的列向量按模排序,使奇异值按从大到小的顺序排列.通过在自强3000高性能计算机上的实验表明,并行算法大大缩短了奇异值分解的计算时间,而且随着矩阵规模逐渐变大,加速比趋于稳定.  相似文献   

9.
目前存在的一些区间值属性决策树算法都是在无序情况下设计的,未考虑条件属性和决策属性之间的序关系.针对这些算法处理有序分类问题的不足,提出区间值属性的单调决策树算法,用于处理区间值属性的单调分类问题.该算法利用可能度确定区间值属性的序关系,使用排序互信息度量区间值属性的单调一致程度,通过排序互信息的最大化选取扩展属性.此外,将非平衡割点应用到区间值属性决策树构建过程中,减少排序互信息的计算次数,提高计算效率.实验表明文中算法提高了效率和测试精度.  相似文献   

10.
网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战。该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息的一种压缩表示,是针对目前指纹提取方法语义缺失的一种改进。该方法主要通过奇异值分解获取原始文档的潜在语义特征,然后将原文档向量空间转换到与其对应的潜在语义空间,再根据随机超平面原理将该空间的文档转换成二进制数字指纹,最终用汉明距离来衡量指纹间的差异程度。实验以中国知网上的学术论文作为数据对象,通过对论文文本进行相似度实验和聚类实验对该文提出的方法进行实验验证。实验结果表明该方法能够较好地表征文档语义信息,进而验证了文本语义压缩表示的准确性和有效性。  相似文献   

11.
赵蕊  李宏 《计算机工程》2007,33(13):87-89
提出了一种多值属性和多类标数据的决策树算法(SSC),在MMC算法中,对用孩子结点的类标集相似度来评定结点属性分类效果的计算方法进行了改进,综合考虑集合的同一性和一致性,提出了相似度评定方法,使类标集相似度的计算更加全面和准确。实验证明该算法的分类效果优于MMC算法。  相似文献   

12.
目前,已有许多种构建决策树的方法。大多数是基于信息熵的,例如,ID3算法,Min-Ambiguity算法以及它们的变异。文中提出了一种新的启发式算法,它是基于属性对于分类的重要程度的。在选择扩展属性时,有两个选择,即敏感属性和不敏感属性,通常人们习惯选择敏感属性而忽视了不敏感属性。文章主要将其应用到了几个具有符号型属性类分明的数据库。根据对几个数据库所做的实验,对这两种方法从几方面进行了比较,指出了他们各自的利弊所在。  相似文献   

13.
决策树算法是数据挖掘中重要的分类算法。目前,已有许多构建决策树的算法,其中,ID3算法是核心算法。本文首先对ID3算法进行研究与分析,针对计算属性的信息熵十分复杂的缺点,提出了一种新的启发式算法SID3,它是基于属性对分类的敏感度的。文章最后通过实例对两种算法进行比较分析,结果表明,SID3算法能够生成正确的决策树,并且使建树过程更简便,更快速。  相似文献   

14.
在已有的多种决策树测试属性选择方法中,未见将属性值遗漏数据处理集成在测试属性选择过程中的报道, 而现有的属性值遗漏数据处理方法都会不同程度地带入偏置。基于此,提出了一种将基于联合墒的信息增益率作为 决策树测试属性选择标准的方法,用以在生成决策树的过程中消除值遗漏数据对测试属性选择的影响。在WEKA机 器平台上进行了对比实验,结果表明,改进算法能够从总体上提高算法的执行效率和分类精度。  相似文献   

15.
本文介绍了一种信息抽取和自动分类的新应用,分析了传统分类方法的不足,介绍了一种基于隐含语义索引技术的文本分类改进方案。该技术是一新型的检索模型,它通过奇异值分解,或增强或消减词在文档中的语义影响力,使得文档之间的语义关系更为明晰,从而能容易地剔除掉那些语义关联弱的噪声数据,提高特征值提取精度和最后的分类准确度。  相似文献   

16.
One view of finding a personalized solution of reduct in an information system is grounded on the viewpoint that attribute order can serve as a kind of semantic representation of user requirements. Thus the problem of finding personalized solutions can be transformed into computing the reduct on an attribute order. The second attribute theorem describes the relationship between the set of attribute orders and the set of reducts, and can be used to transform the problem of searching solutions to meet user requirements into the problem of modifying reduct based on a given attribute order. An algorithm is implied based on the second attribute theorem, with computation on the discernibility matrix. Its time complexity is O(n^2 × m) (n is the number of the objects and m the number of the attributes of an information system). This paper presents another effective second attribute algorithm for facilitating the use of the second attribute theorem, with computation on the tree expression of an information system. The time complexity of the new algorithm is linear in n. This algorithm is proved to be equivalent to the algorithm on the discernibility matrix.  相似文献   

17.
李树臣 《数字社区&智能家居》2009,(11):8687-8688,8693
该文对粗糙集理论进行了研究,提出一种基于树的约简算法。该算法的特点是能够得到决策表的所有约简,并且适合相容决策表和不相容决策表。通过构造约简树,得到基于约简树的决策表的极小属性集,最后通过实例来验证该算法。  相似文献   

18.
该文对粗糙集理论进行了研究,提出一种基于树的约简算法。该算法的特点是能够得到决策表的所有约简,并且适合相容决策表和不相容决策表。通过构造约简树,得到基于约简树的决策表的极小属性集,最后通过实例来验证该算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号