首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
可分性判据在中文网页分类中的应用   总被引:3,自引:0,他引:3  
提出了一种改进的基于统计的中文网页的分类算法。通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法,贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。  相似文献   

2.
基于TFIDF文本特征加权方法的改进研究   总被引:2,自引:0,他引:2  
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。  相似文献   

3.
一种应用向量聚合技术的KNN中文文本分类方法   总被引:3,自引:2,他引:3  
针对KNN文本分类方法中不考虑特征词关联的问题,提出一种改进方法.这种方法基于对体现词和类别问相关程度的CHI统计值分布的分析,应用向量聚合技术很好地解决了关联特征词的提取问题.其特点在于:聚合文本向量中相关联的特征词作为特征项,从而取代传统方法中一个特征词对应向量一维的做法,这样不但缩减了向量的维教,而且加强了特征项对文本分类的贡献.实验表明该方法明显提高了分类的准确率和召回率。  相似文献   

4.
传统的医学文本数据分类方法忽略了文本的上下文关系,每个词之间相互独立,无法表示语义信息,文本描述和分类效果差;并且特征工程需要人工干预,因此泛化能力不强。针对医疗文本数据分类效率低和精度低的问题,提出了一种基于Transformer双向编码器表示BERT、卷积神经网络CNN和双向长短期记忆BiLSTM神经网络的医学文本分类模型CMNN。该模型使用BERT训练词向量,结合CNN和BiLSTM,捕捉局部潜在特征和上下文信息。最后,将CMNN模型与传统的深度学习模型TextCNN和TextRNN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明,CMNN模型在所有评价指标上整体优于其他模型,准确率提高了1.69%~5.91%。  相似文献   

5.
随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,研究者们比以往任何时候都迫切地需要高效、全面、方便的学术信息。因此中文科技论文文本分类研究已经成为信息领域中的一个热门话题。该文针对中文科技论文文本特殊的文体格式和语言风格进行了系统地研究,并提出了基于层次分类模型的文本分类算法。实验表明,随着分类类别粒度的细化.采用新的分类算法的分类器在精确率和召回率方面优势逐渐突出。相对于KNN、NB和SVM分类器更适合于中文科技论文文本的分类要求。  相似文献   

6.
随着人们对科学技术和社会发展的日益重视,学术领域呈现多元化、信息化、现代化的趋势。在这种情况下,研究者们比以往任何时候都迫切地需要高效、全面、方便的学术信息。因此中文科技论文文本分类研究已经成为信息领域中的一个热门话题。该文针对中文科技论文文本特殊的文体格式和语言风格进行了系统地研究,并提出了基于层次分类模型的文本分类算法。实验表明,随着分类类别粒度的细化,采用新的分类算法的分类器在精确率和召回率方面优势逐渐突出。相对于KNN、NB和SVM分类器更适合于中文科技论文文本的分类要求。  相似文献   

7.
针对目前文本分类中对向量空间模型的依赖以及文档频率(DF)特征提取方法在二值分类方面的不足,提出了基于差异频度的类别空间模型的二值分类方法,该方法突破了向量空间模型的限制,采用改进DF的差异频度方法进行特征提取,实现了二值分类功能。实验结果表明,改进的方法是有效的,其分类结果中精确率、召回率、F1测试值均有改善,提高了分类的准确率。并且本文的方法在其他领域的二值分类中同样值得借鉴。  相似文献   

8.
一种改进的基于VSM的文本分类算法   总被引:2,自引:0,他引:2  
在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算。对这两部分的计算结果进行加权求和,来综合判定文本的类别。对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值。  相似文献   

9.
实时文本分类系统的研究与实现   总被引:5,自引:1,他引:4       下载免费PDF全文
分析文本分类过程中影响实时性的因素,即分词处理高耗时和特征空间维数过高问题。结合网页过滤的实时应用提出一种实时文本分类方法,弱化分词处理过程,降低特征空间维数,以提高分类速度。通过优化特征项选取维持分类效果,基于贝叶斯理论实现实时文本分类系统。实验结果表明,该方法在维持精确率和召回率分别为85%, 94%的情况下,显著提高了分类速度。  相似文献   

10.
目的 图文数据在不同应用场景下的最佳分类方法各不相同,而现有语义级融合算法大多适用于图文数据分类方法相同的情况,若将其应用于不同分类方法时由于分类决策基准不统一导致分类结果不理想,大幅降低了融合分类性能。针对这一问题,提出基于加权KNN的融合分类方法。方法 首先,分别利用softmax多分类器和多分类支持向量机(SVM)实现图像和文本分类,同时利用训练数据集各类别分类精确度加权后的图像和文本正确判别实例的分类决策值分别构建图像和文本KNN模型;再分别利用其对测试实例的图像和文本分类决策值进行预测,通过最邻近k个实例属于各类别的数目确定测试实例的分类概率,统一图像和文本的分类决策基准;最后利用训练数据集中图像和文本分类正确的数目确定测试实例中图像和文本分类概率的融合系数,实现统一分类决策基准下的图文数据融合。结果 在Attribute Discovery数据集的图像文本对上进行实验,并与基准方法进行比较,实验结果表明,本文融合算法的分类精确度高于图像和文本各自的分类精确度,且平均分类精确度相比基准方法提高了4.45%;此外,本文算法对图文信息的平均整合能力相比基准方法提高了4.19%。结论 本文算法将图像和文本不同分类方法的分类决策基准统一化,实现了图文数据的有效融合,具有较强的信息整合能力和较好的融合分类性能。  相似文献   

11.
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。  相似文献   

12.
孙劲光  马志芳  孟祥福 《计算机工程》2013,(12):211-215,222
受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本主题分类的水平。为此,提出一种基于情感词属性和云模型的情感分类方法。结合情感词属性和简单句法结构以确定情感词的权重值,并利用云模型对情感词进行定性定量表示的转换。实验结果表明,该方法对情感词权重值计算是有效的,召回率最高达到78.8%,且与基于词典的方法相比,其文本情感分类结果更精确,正确率最高达到68.4%,增加了约9%的精度。  相似文献   

13.
FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在FastText模型输入阶段使用TextRank算法提取文本的关键子句输入训练模型,同时采用TF-IDF提取文本的关键词作为特征补充,从而在减少训练语料的同时尽可能保留文本分类的关键特征.实验结果表明,此文本分类方法在数据集上准确率达到86.1%,比经典的FastText模型提高了约4%.  相似文献   

14.
为了适应Web新闻以指数趋势增长,传播迅速,且Web突发事件新闻在互联网上散布等特点,同时针对传统文本分类方法准确率和效率低,寻找特定主题的突发事件新闻信息难等问题,提出一种基于规则与统计相结合的Web突发事件新闻多层次自动分类方法。首先提取类别关键词形成规则库,然后利用分类规则将突发事件分成四大类,再用朴素贝叶斯分类方法将各大类突发事件新闻进行细分,从而形成了基于规则与统计的两层分类模型。实验结果表明,该分类方法的准确率和召回率都达到90%以上,分类效率也普遍高于传统的分类方法。  相似文献   

15.
在长文本数据中存在很多与主题不相关词汇,导致这些文本数据具有信息容量大、特征表征不突出等特点。增加这些文本中关键词汇的特征影响,是提高文本分类器性能需要解决的问题。提出一种结合自注意力机制的循环卷积神经网络文本分类模型RCNN_A。注意力机制对文本词向量计算其对正确分类类别的贡献度,得到注意力矩阵,将注意力矩阵和词向量矩阵相结合作为后续结构的输入。实验结果表明,RCNN_A在10类搜狗新闻数据集上,得到了97.35%的分类正确率,比Bi-LSTM(94.75%)、Bi-GRU(94.25%)、TextCNN(93.31%)、RCNN(95.75%)具有更好的文本分类表现。通过在深度神经网络模型中引入注意力机制,能够有效提升文本分类器性能。  相似文献   

16.
卢玲  杨武  王远伦  雷子鉴  李莹 《计算机应用》2018,38(5):1272-1277
新闻文本常包含几十至几百条句子,因字符数多、包含较多与主题无关信息,影响分类性能。对此,提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量,再构建段落向量与文本类别的神经网络注意力模型,用于计算句子的注意力,将句子注意力的均方差作为其对类别的贡献度,进行句子过滤,然后构建卷积神经网络(CNN)分类模型,分别将过滤后的文本及其注意力矩阵作为网络输入。模型用max pooling进行特征过滤,用随机dropout防止过拟合。实验在自然语言处理与中文计算(NLP&CC)评测2014的新闻分类数据集上进行。当过滤文本长度为过滤前文本的82.74%时,19类新闻的分类正确率为80.39%,比过滤前文本的分类正确率超出2.1%,表明结合注意力机制的句子过滤方法及分类模型,可在句子级信息过滤的同时提高长文本分类正确率。  相似文献   

17.
直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型.  相似文献   

18.
微博短文本是一种典型的用户生成数据(user generate data),蕴含了丰富的用户情感信息,微博短文本情感分类在舆情分析等众多应用中具有较强的实用价值.微博短文本具有简洁不规范、话题性强等特征,现有研究表明基于有监督的深度学习模型能够显著提升分类效果.本文针对广播电视领域微博文本展开情感分类研究,实验对比了多种文本分类模型,结果表明基于Bert的情感分类方法准确率最高.深入分析实验结果发现,Bert模型对于困难样本的分类错误率较高,为此本文引入Focal Loss作为Bert模型的损失函数,提出一种基于Bert与Focal Loss的微博短文本情感分类方法(简称为Bert-FL方法),使得Bert模型能够更容易学习到困难样本的类别边界信息,实验表明Bert-FL方法的分类准确率绝对提升了0.8%,同时对困难样本的分类准确率也有显著提升.  相似文献   

19.
短文本分类是自然语言处理的一个研究热点.为提高文本分类精度和解决文本表示稀疏问题,提出了一种全新的文本表示(N-of-DOC)方法.采用Word2Vec分布式表示一个短语,将其转换成的向量作为卷积神经网络模型的输入,经过卷积层和池化层提取高层特征,输出层接分类器得出分类结果.实验结果表明,与传统机器学习(K近邻,支持向量机,逻辑斯特回归,朴素贝叶斯)相比,提出的方法不仅能解决中文文本向量的维数灾难和稀疏问题,而且在分类精度上也比传统方法提高了4.23%.  相似文献   

20.
基于自学习规则和改进贝叶斯结合的问题分类*   总被引:8,自引:2,他引:6  
根据对中文问题的分析可知,问题中的疑问词和中心词等关键词对问题所属类型起着决定性的作用。提出利用自学习方法建立疑问词—类别和疑问词+中心词—类别两种规则,并结合改进贝叶斯模型的问题分类方法。该方法充分利用了关键词对分类的贡献。实验结果表明,该分类方法有很大的改进,准确率达到了84%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号