共查询到18条相似文献,搜索用时 125 毫秒
1.
随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活.利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点.聊天文本不同于普通的文章,它是一种动态输入的文本,对于这种文本,传统的TFIDF算法存在着缺陷.文中针对传统TFIDF在处理此类文本时的不足之处,利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力. 相似文献
2.
一种基于本体论的文本特征选取方法 总被引:1,自引:0,他引:1
针对文本特征向量高维数的问题,给出了一种基于本体论的文本特征选取方法.通过由专业领域本体所建立的概念树,把文本的特征项映射到概念,同时进行了特征项频度到概念频度的转换,使得选取得到的特征概念能够很好表征文本的内容.实验结果表明,与未进行特征概念选取相比,采用此方法选取得到的特征概念能够在尽可能减少对文本分类精度的影响下,达到降低特征维数的目的. 相似文献
3.
Web文本挖掘中的特征选取方法研究 总被引:11,自引:0,他引:11
研究了Web文本挖掘中的高维特征选取问题,对常见的评估函数法、主成分分析法、模拟退火法等特征选取和降维算法进行了理论分析与性能比较,通过实验对各种算法的优劣性及适用性进行了讨论。旨在通过降维处理来解决高维空间的文本挖掘问题。 相似文献
4.
5.
6.
在文本分类中,对高维的特征集进行降维是非常重要的,不但可以提高分类精度和效率,也可以找出富含信息的特征子集.而特征选择是有效降低特征向量维数的一种方法.目前常用的一些特征选择算法仅仅考虑了特征词与类别间的相关性,而忽略了特征词与特征词之间的相关性,从而存在特征冗余,影响了分类效果.为此,在分析了常用的一些特征选择算法之后,提出了一种基于mRMR模型的特征选择方法.实验表明,该特征选择方法有助于提高分类性能. 相似文献
7.
基于TFIDF文本特征加权方法的改进研究 总被引:2,自引:0,他引:2
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 相似文献
8.
一种基于粗集的文本数据特征信息的挖掘方法 总被引:2,自引:0,他引:2
1.引言随着Internet的飞速发展,人们的信息交流越来越多地依赖于网络,人们在网上发表自己的意见和见解、相互讨论各种问题、交流情感和思想。在网上传输的这些数据中,大量涉及到的是文本数据,网络应用的普及使得文本数据呈现出高速膨胀的态势,面对浩瀚的文本大海,人们迫切需要快速、准确地从需要的文本数据中了解其观点、思想或热点问题等等。例如,在远程教育中,教师可能面对的是成百上千个学生,教师希望快速地从学生的讨论和交谈中寻找学生集中关心的问题,以便及时回答和调整教学。又如,出于国家安全的考虑,需要对类似于BBS的公众论坛的文档进行鉴别,以便进行有效地监督和管理。以上问题所涉及的都需要高效、快捷地对文本数据进行特定的信息挖掘。 相似文献
9.
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,本文介绍了一种文本数据挖掘方法。并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性。 相似文献
10.
一种基于TFIDF的网络聊天关键词提取算法 总被引:2,自引:0,他引:2
随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活。利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点。聊天文本不同于普通的文章,它是一种动态输入的文本,对于这种文本,传统的TFIDF算法存在着缺陷。文中针对传统TFIDF在处理此类文本时的不足之处,利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力。 相似文献
11.
分析几种常见的特征选择评价函数,将权值计算函数应用于特征选择,提出一种新的基于改进TFIDF的文本特征选择评价函数,即TFIDF-Dac.它从提高特征项的类区分能力角度考虑,将特征项在类问的分布信息引入公式,弥补了传统的TFIDF的不足.实验测试表明,使用改进的特征选择方法能够有效提高文本分类的准确度. 相似文献
12.
13.
14.
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文
本特征选择方法(TDpIU)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用
特征出现概率计算信息增益权值,以降低低频词对特征选择的千扰。最后使用离散度分析特征在每类中的信息增益
值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。
通过对比实验表明,选取的特征具有更好的分类性能。 相似文献
15.
基于TFIDF的文本特征选择方法 总被引:12,自引:3,他引:12
本文在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于术语频率和逆文档频率的特征选择方法TDF。采用KNN和NaiveBayes两种分类算法对该方法进行了测试。实验结果表明,TDF方法较其他几种方法有较好的分类精度。 相似文献
16.
文本分类是文本信息处理领域一个非常重要的研究方向,为了节省文本分类处理中所需的存储空间和运算时间,在分类之前用高效的算法减少所需分析的数据是非常必要的。该文介绍了一种文本分类中特征降维的方法。和传统的方法不同,该文所涉及的特征是从句子中提取的不同长度的词组,然后用比数比来对其进行特征选择。实验结果表明,该文提出的方法与传统方法相比,提高了文本分类的准确率。 相似文献
17.
领域内文本褒贬倾向性分类中的特征提取技术 总被引:1,自引:0,他引:1
本文介绍了文本褒贬倾向性分类的方法和技术,重点论述了文本的表示方法和褒贬特征抽取的方法,提出了基于MI特征提取方法的改进办法。实验结果表明,这种改进有利于褒贬特征的抽取,从而提高了分类的精度。 相似文献
18.
本文研究了文档频率DF、信息增益IG、互信息MI、x2分布(CHI)、期望交叉熵、优势率、文本证据权七种不同的特征选取方法.针对DF对高频词过于依赖,以及MI,IG和CHI对低频词过于依赖这一特点,试验了将它们组合起来形成DF-MI,DF-IG两种组合式特征选择方法-同时针对DF的特点提出了新的特征选取方法DFR-用KNN分类器试验了几种组合方法和DFR方法-实验结果表明DFR较DF-MI、DF-IG对分类效果有明显的提高,而组合特征选取方法较单个特征选取方法对分类器的分类效果有了很大的提高. 相似文献