首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题。为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法。该算法以TF-IDF为基础,引入去中心化词频因子和特征词位置因子以加强特征权重的准确性。为了验证该算法的效果,采用了搜狗实验室的搜狗新闻数据集进行实验,实验结果表明,在朴素贝叶斯分类算法中引入TF-IDF-DL算法,能够使该算法在进行文本分类中的准确率、召回率和F 1值都有较好的表现,相比国内同类研究TF-IDF-dist贝叶斯方案,分类准确率提高8.6%,召回率提高11.7%,F 1值提高7.4%。因此该算法能较好地提高分类性能,并且对不易区分的类别也能在一定程度上达到良好的分类效果。  相似文献   

2.
为了清理互联网与移动通信网络所带来的不良诈骗信息,使用文本分类技术来识别电信诈骗信息。采用中文分词技术(jieba)对数据样本的中文信息进行分词,用TF-IDF算法提取电信诈骗信息的特征,向量空间模型(VSM)构建文本内容的特征,选取朴素贝叶斯分类算法的伯努利模型和多项式模型,分别训练数据并对比测试得出各自对电信诈骗信息的识别效果评估。  相似文献   

3.
为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过(1-0)检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。  相似文献   

4.
为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从维度和数量两个方面对文档的向量空间模型进行约简,以期提高支持向量机的训练速度和分类性能。仿真实验结果表明,该算法具有良好的召回率和分类准确率。  相似文献   

5.
为了提高关键词提取的准确率,在利用文本中相同词的前后词共现频率识别组合词的基础上,提出一种基于改进词语统计特征的朴素贝叶斯关键词提取算法。该算法选取词语的词长、词性、位置、TF-IDF值作为词语的特征项,改进了统计词长、TF-IDF和词频的方法,使长词和TF-IDF大的词具有更高的概率,而在统计词频时,考虑了词语之间包含与被包含的关系。然后,采用朴素贝叶斯模型对标记好关键词的文本进行训练,获得各个特征项出现的概率,用来提取文本的关键词。实验表明,与传统基于词频和决策树C4.5的关键词提取算法相比,采用该方法提取的关键词具有更高的准确率和可读性。  相似文献   

6.
基于加权词向量和卷积神经网络的新闻文本分类   总被引:1,自引:0,他引:1  
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.  相似文献   

7.
针对传统卡方统计量(CHI)方法在全局范围内进行特征选择时忽略词频信息问题,提出了一种改进的文本特征选择方法。通过引入特征分布相关性系数,选择局部出现的强相关性特征,并利用修正因子解决CHI方法的负相关困扰,从而提升语料集的分类指标。对网易新闻语料库和复旦大学中文语料库进行实验时,利用以上方法进行特征选择,使用改进后的词频—逆文本频率(TF-IDF)权重计算公式加权,分类器选择支持向量机(SVM)和朴素贝叶斯法。结果表明:改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定。  相似文献   

8.
支持向量机在文本分类中的应用   总被引:1,自引:0,他引:1  
文中提出了基于朴素贝叶斯的支持向量机的分类方法,首先采用文本预处理,再根据文本的特征进行特征降维,然后用基于朴素贝叶斯的算法对支持向量机进行训练后,再对新的文本进行分类。实验表明,该方法比传统的SVM算法具有较高的准确率。  相似文献   

9.
经典的TF-IDF算法仅考虑了特征词频率和逆文档频率等,忽略了特征词的类间、类内分布信息.本文通过TF-IDF算法计算特征词在不同规模语料库中的权重,分析特征词的类信息对权重的影响,并进一步针对该影响提出一种新的衡量特征词的类间、类内分布信息的方法.本文通过增加两个新的权值,类间离散因子和类内离散因子,将其与经典的TF-IDF算法结合,提出了基于类信息的改进的TF-IDF-CI算法.本文通过朴素贝叶斯模型对改进后的算法的分类性能进行了验证.实验证明,改进后的权重算法在测试数据集上的表现,在准确率、召回率和F1值上均优于经典的TF-IDF算法.  相似文献   

10.
采用支持向量机(SVM)、随机森林(RF)和逻辑回归(LR)等机器学习方法对脑卒中患者进行分类研究,构建脑卒中疾病预测模型,以期为疾病发生提供早期预警.对kaggle网站下载healthcare-dataset-stroke-data的数据通过SMOTE智能过抽样算法构建均衡数据集,运用支持向量机、随机森林和逻辑回归算法构建脑卒中预测模型.将SMOTE算法优化前后的预测结果进行比较分析,并采用支持向量机、随机森林和逻辑回归算法对优化后的数据集构建疾病预测模型,其结果的准确率、精确度、召回率和ROC值都有明显提高.仿真实验结果可知SMOTE+随机森林算法预测模型的准确率、精确度、ROC值都优于支持向量机和逻辑回归预测模型,可用于脑卒中疾病的早期预测,为医疗手段干预赢得时间,对降低脑卒中的发病具有重要意义.  相似文献   

11.
不同皮肤病间发病率的差异导致了皮肤病数据类不平衡现象,对使用机器学习方法构建高效、准确的皮肤病诊断模型带来了巨大挑战。提出一种融合生成对抗网络(generative adversarial networks,GAN)和朴素贝叶斯的皮肤病二分类诊断方法:在皮肤病数据集上训练朴素贝叶斯二分类器作为诊断器,创新性地使用GAN为前者生成补充训练样本,使其训练集正负类样本达到平衡。针对皮肤病诊断多分类问题,提出一种融合生成对抗网络和朴素贝叶斯的多分类诊断方法:使用GAN和朴素贝叶斯训练皮肤病单病种二分类器,并结合了词频-逆文档频率算法(term frequency-inverse document frequency,TF-IDF),将多个二分类器组合成一个多分类器作为诊断器。与六种诊断方法进行了对比实验,提出的两种皮肤病诊断方法准确率和召回率均有提升。  相似文献   

12.
朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对该问题,提出一种基于泊松分布的特征加权NB文本分类算法.结合泊松分布模型和NB算法,将泊松随机变量引入特征词权重,在此基础上定义信息增益率对文本特征词加权,削弱传统算法属性独立性假设造成的影响.在20-newsgroups数据集上的实验结果表明,与传统NB算法及其改进算法RwC-MNB和CFSNB相比,该算法可使文本分类的准确率、召回率和F1值得到提升,并且执行效率高于K-最近邻算法和支持向量机算法.  相似文献   

13.
《软件工程师》2020,(3):1-3
自然语言处理是人工智能领域中的一个热门方向,而文本分类作为自然语言处理中的关键技术受到专家学者的广泛关注。随着计算机网络的发展,海量的文本踊跃出来。文本越来越多,通过人工对文本进行分类的成本越来越高。本文针对短文本分类问题,使用词袋模型从词向量中提取词频矩阵,删除停止词与低频词。再使用TF-IDF算法提取文本特征,进行文本分类研究,最终可以使短文本以较高的正确率归类。  相似文献   

14.
为解决投诉举报文本分类困难这一问题,提出一种基于改进果蝇优化算法的文本分类方法.针对果蝇优化算法存在的搜索半径相对固定、种群多样性低等问题,对算法进行改进;采用支持向量机建立文本分类模型,利用改进后的果蝇优化算法对支持向量机的参数进行动态寻优,以此提高模型的分类精度.实验结果表明,该文本分类方法的准确率和召回率相比于文...  相似文献   

15.
目前,对小规模数据集进行预测时,主要使用传统机器学习算法,但传统单一模型预测效果不能达到预期准确率,且无法兼顾多项评价指标。因此,文中以小规模数据集为研究对象,融合决策树、逻辑回归、支持向量机三类模型,提出了一种多模型融合算法,并分析了其在小规模数据集上的应用效果。首先,简述了决策树、逻辑回归和支持向量机的算法原理;其次,使用决策树、逻辑回归和支持向量机作为基学习器并完成单独训练,将各模型输出结果用于下一阶段模型输入,同时使用最大似然估计迭代优化参数,从而完成多模型融合过程;最后,对数据集进行分析和处理,通过实验与单一模型进行指标对比。实验结果表明,多模型融合算法在预测精确率、召回率、准确率等方面有明显提升。  相似文献   

16.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

17.
特征词的选取与文本表示是文本分类信息预处理的核心问题之一,鉴于此,论文提出一种改进的加权连续词袋模型(CBOW)与基于注意力机制的双向长短期记忆网络模型(BI-LASM-ATT)应用于文本分类研究.该模型以词频作为特征选择依据,改进了频次与反频次,利用加权CBOW模型得到词向量表示,作为BI-LSTM-ATT模型的词嵌入层,得到Soft-max分类器分类结果.论文在复旦大学提供的语料集的实验结果表明,该模型在文本分类的精确率、召回率、F_meature效果对比中,比传统机器学习和深度学习算法均有明显提高.  相似文献   

18.
针对当前入侵检测系统普遍存在的误报、漏报和缺乏自适应性问题,采用ODM的分类算法中的决策树分类算法、支持向量机分类算法、朴素贝叶斯算法和二元变量逻辑回归算法等四种重点技术对实验数据进行模型建立和测试.并通过对四种应用结果准确度的对比分析证明本文所采用的技术路线的可行性和生成结果的准确性.从中找出在实际应用中较为常用、直接、有效的和有一定通用价值的方法。  相似文献   

19.
针对传统的中文文本分类在海量的互联网信息中难以胜任的现状,提出一种语句级的卷积神经网络中文新闻分类方案。通过信息提取算法从长短不一的新闻数据中提取固定大小的新闻摘要,压缩输入量的同时统一输入格式。信息提取时,通过对TF-IDF算法进行改进提升新闻摘要的质量,结合word2vec技术和卷积神经网络完成文本分类任务。与传统方法相比,词向量模型的引入弥补了传统词袋模型的缺陷,且语句的语义远比词的更加全面,使用语句进行分类更加可靠。通过实验对比验证了该方案具有较好的性能。  相似文献   

20.
针时标准支持向量机多分类算法不能解决多主题文本分类问题,提出了一种基于超球支持向量机的多主题文本分类算法.该算法用超球支持向量机训练得到每个超球,计算待分类文本到每个超球球心的距离,依据距离得到隶属度向量,最后根据隶属度向量判定该文本所属的主题.实验结果表明,该算法具有更好的召回率,准确率和F1值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号