首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
基于改进TFIDF算法的文本分类研究   总被引:1,自引:0,他引:1  
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。  相似文献   

3.
基于文本分类TFIDF方法的改进与应用   总被引:32,自引:0,他引:32       下载免费PDF全文
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。  相似文献   

4.
《软件工程师》2018,(2):4-6
TFIDF算法作为一种加权算法,在信息检索和数据挖掘等自然语言处理领域发挥了巨大的作用。它的计算模型相对简单,适合大数据并行计算,适用领域广泛,且拥有很好的解释性。基于以上这些特点,本文在TFIDF算法基础之上,利用监督的学习,并通过引入加权因子和词贡献度,来修正TFIDF算法结果权值。利用这个算法可以在自然语言处理中有效地提取特征标签,并且改进后的算法在这一细分领域具有极高准确度。  相似文献   

5.
基于TFIDF文本特征加权方法的改进研究   总被引:2,自引:0,他引:2  
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。  相似文献   

6.
分析几种常见的特征选择评价函数,将权值计算函数应用于特征选择,提出一种新的基于改进TFIDF的文本特征选择评价函数,即TFIDF-Dac.它从提高特征项的类区分能力角度考虑,将特征项在类问的分布信息引入公式,弥补了传统的TFIDF的不足.实验测试表明,使用改进的特征选择方法能够有效提高文本分类的准确度.  相似文献   

7.
随着电商行业的蓬勃发展,网上购物逐渐取代线下商店成为最受欢迎的购物方式之一。因此从海量的商品评价中挖掘出有用的信息,对顾客购买商品和商家提高服务质量具有重要的意义。在深度学习背景下,论文在关键词提取中对TF-IDF算法进行改进,主要是关键词权重的优化。实验结果表明,基于论文改进的算法构建的商品评论模型比传统的模型分类效果好。  相似文献   

8.
基于信息增益与信息熵的TFIDF算法   总被引:1,自引:0,他引:1       下载免费PDF全文
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。  相似文献   

9.
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。  相似文献   

10.
TFIDF算法研究综述   总被引:25,自引:0,他引:25  
文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一.在ú回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考.  相似文献   

11.
基于网页特征的TFIDF改进算法   总被引:6,自引:1,他引:6  
本文分析了传统的TFIDF算法。提出了一种改进的TFIDF算法,将提取到的网页特征加入传统的TFIDF算法,从而更为准确地抽取网页中的重要文字。  相似文献   

12.
针对传统的分类算法不能满足多层次的工程信息分类,提出一种基于词频逆文档频率TFIDF(term frequency inverse document frequency)和分类树的多层工程信息分类法。通过对每条工程信息生成多层分类树,在不同层次构建TFIDF矩阵,减少冗余计算。通过计算树结点中储存的相似度,进行判决得出分类结果。与传统单层分类算法相比,基于树的判决方法可以对类进行多级划分、多类属划分,且计算时间仅为单层分类的59%,并获得了95.1%的召回率和97.4%的准确率,具有很好的灵活性与鲁棒性。实验结果证实了算法的有效性。  相似文献   

13.
吕佳 《计算机工程与设计》2007,28(24):6039-6041
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异.为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重.仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果.  相似文献   

14.
基于信息熵的改进TFIDF特征选择算法   总被引:2,自引:0,他引:2       下载免费PDF全文
特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。  相似文献   

15.
近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一。该文提出一种结合词频反文档频率算法(term frequency, inverse document frequency, TFIDF)和潜在语义分析算法(latent semantic analysis, LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果。将从网页上采集到的11 456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient, SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index, CHI)和戴维斯-堡丁指数(Davies-Bouldin index, DBI)的值表明,该方法不仅能保证文本聚类...  相似文献   

16.
《微型机与应用》2019,(5):48-52
近年来以大数据为中心的人工智能技术得到蓬勃发展,自然语言处理成为了人工智能时代最突出的前沿研究领域之一。然而,在自然语言处理领域的短文本分类中,不同的特征提取方法与机器学习算法集成时,处理效果差异明显。针对短文本分类精度较低的问题,基于组合的方式和预设的评价指标,通过将不同特征提取方法与不同机器学习算法进行组合,探究其在超短文本分类中的效果以寻求最优组合模型进而获得最佳分类效果。实验结果表明,在所选取的四种最优组合方法中,以词频-逆文件频率为特征提取方法、以逻辑回归为算法的组合模型在公开数据集中取得最好的实验效果,精度为92. 13%,查全率为90. 12%,适合应用于超短文本的分类应用场景。  相似文献   

17.
文本分类的特征提取方法比较与改进   总被引:12,自引:0,他引:12  
文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的χ2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明χ2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。  相似文献   

18.
近些年来,卷积神经网络算法在自然场景文本检测效果上较传统算法已经有了很大提升,但如何有效处理神经网络输出层候选框仍然值得研究。非极大值抑制算法(non-maximum suppression,NMS)通过选择最高置信度候选框作为检测结果,往往容易对较长文本以及混叠文本区域检测失效。考虑到该问题,可以将候选框集合进行排序滤波与融合计算,得到更准确的候选框,有效减少上述检测失效的情况。这种方法,可以直接嵌入原有方法中,而不需要改变网络结构或者增加任何训练量。通过在公开数据集上进行实验,对比其他方法,该方法有较大优势。  相似文献   

19.
针对颜色特征提取这一图像识别和检索领域的研究重点,提出了一种在RGB颜色空间实现的颜色特征提取改进算法。首先,在RGB颜色空间通过对整幅图像分块进行灰色关联聚类,确定初始聚类中心,然后应用改进的灰色聚类算法进行聚类,最后提取特征颜色。实验表明本文算法不仅能够对近似纯色或具有简单纹理的物体表面特征颜色进行有效提取,还可有效提取较为复杂的图像特征颜色。  相似文献   

20.
分析了信息增益方法的不足,并将类内离散度、类间离散度和权重协调因子应用到信息增益算法上,提出了一种改进的信息增益算法.实验表明,该方法在分类效果上与经典算法相比有一定的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号