首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。  相似文献   

2.
文本倾向性分类可以广泛应用到信息检索,产品质量在线跟踪,民情民意调查分析以及聊天系统等.本文提出了基于限定词性词语与信息增益、基于情感倾向词汇与信息增益的两种混合特征选择方法,并设计了基于支持向量机的分类器.以汽车产品、篮球赛事以及中日关系3种中文评论文本为训练与测试语料,对本文所提方法进行了实验验证,结果表明:限定词性词语与信息增益的混合特征选择优于信息增益与情感倾向词汇混合特征选择方法.  相似文献   

3.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展,其中基于支持向量机的文本分类方法的研究是信息检索领域的一个重要分支。本文首先讨论了该领域的研究状况,接着阐述并分析了在该领域中的主要研究方法以及实例.最后对该领域研究中存在的问题和方向进行了分析。  相似文献   

4.
文本分类系统的评价因素探讨   总被引:1,自引:0,他引:1  
在介绍电子文本自动分类系统的基础上,分析影响文本分类系统评价的若干因素,包括分类算法、测试方法、分类标准、分类标准的理解程度和分类层次等。测试用的分类语料库(超出6000万汉字)是由带人工分类标记的公开发表的《解放日报》和《大众日报》近年各类文章组成,人工分类标记和文章正文均由第三方提供,未作任何修改;语料由各类长短不一、风格各异、体裁不同的文章构成。建议建立权威的分类测试语料库和分类标准,公正客观地评价各分类系统,推进电子文本分类系统的应用。  相似文献   

5.
为了提高党政机关公文办理的自动化、科学化程度。尝试将业已成熟的汉语多类文本分类技术应用于机关公文办理系统中,并加入专家评估和反馈模块,使该系统具备“渐进式学习”的能力,将公文办理的经验积累在数据库中,不断提高输出结果的准确度。经过实验证实了文本分类技术在党政机关公文办理中的应用价值。  相似文献   

6.
为了有效地对不断涌现的海量互联网信息进行采集、分析、检索,基于网络舆情分析涉及到的热点发现与文本倾向性分析两个关键技术,改进了相似主题检测和基于语气标注方法的文本倾向性分析算法.实验结果表明,直接通过关键词匹配法,误差较大;基于关联规则的相似主题检测,可以明显提高检测精度.同时,无论是对正面文档还是对负面文档,经过改进...  相似文献   

7.
中文文本分类的特征选取评价   总被引:9,自引:0,他引:9  
在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种特征选取方法(文档频度DF、互信息MI、信息增益IG、x^2统计X^2、术语强度TS)进行评价,选用Naive Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x^2的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的F1值为64.60%;IG为69.36%,而DF则达到87.01%.  相似文献   

8.
为解决单一的卷积神经网络(CNN)缺乏利用上下文本信息与单一循环神经网络(RNN)对局部信息把握不全面问题,提出一种基于注意力机制的多通道TextCNN-BiGRU分类模型.首先,通过word2vec对初始文本向量化,经实验选取窗口值组成三通道.然后利用CNN的强学习能力提取局部特征,利用双向门控循环单元(BiGRU)提取上下文全局信息,运用注意力层与池化层获取并优化重要的特征.最后采用softmax函数使误差loss极小化.仿真实验结果表明,提出的模型分类性能,准确度达94%,损失函数值稳定在0.22%左右,具有良好的泛化能力,能够有效解决单一模型挖掘信息不全问题,有效提高分类效果.  相似文献   

9.
基于多项式分布模型的Web文本分类   总被引:1,自引:0,他引:1  
利用信息增益函数对文档进行特征提取,根据特征在文档中出现的次数,将文档表示成为向量的形式。假设文档的特征之间是相互独立的,其特征和主题类别的联合概率分布为服从多项式分布。利用训练集中已标注的文档、学习特征和主题类别的联合概率分布参数,根据学习的结果,对测试集中未分类的文档进行分类。实验结果表明,分类具有较高的准确性。  相似文献   

10.
针对招标文件中因数据稀疏导致的特征提取困难影响分类准确率的问题,提出了一种基于极端梯度提升(eXtreme gradient boosting,XGBoost)和文本聚焦表示模型的分类方法.聚焦表示部分通过提取对分类结果有显著影响的关键字段部分,使用N-Gram分词,结合词性级词频-逆文档频率(term frequen...  相似文献   

11.
针对文本分类问题,从分片线性学习的角度出发,提出了一种文本分类的组合凸线性感知器模型.首先,对文本样本集进行预处理,包括特征选择、特征项赋权等;然后,分别利用生长支持组合凸线性感知器算法(growing support multiconlitron algorithm,GSMA)和支持组合凸线性感知器算法(support multiconlitron algorithm,SMA)构造组合凸线性感知器,对样本集进行分类.该模型基于支持向量机的最大间隔思想,通过集成线性分类器,实现了对2类数据的划分,具有计算简单、适应能力强的优点.在标准文本数据集上的实验结果表明:该模型所构造的分类器具有良好的文本分类性能,与其他典型文本分类方法的对比也说明了该方法的有效性.  相似文献   

12.
针对已标记数据与未标记数据分布不一致可能导致半监督分类器性能降低的不足,提出了一种基于特征映射的半监督文本分类算法.首先通过不同的特征选择方法,分别在训练集的已标记数据、未标记数据以及测试集数据中选取各自的特征集,并初始化特征的权值;在此基础之上,分别建立已标记数据与未标记数据、已标记数据与测试集数据、未标记数据与测试集数据之间的映射函数,并利用这3个特征映射函数重新计算特征的权重;最后利用期望最大比(expectation maximization,EM)算法进行半监督文本分类.在标准数据集上的实验结果表明:提出的算法是有效的.  相似文献   

13.
结合安全生产事故案例文本特点,利用自然语言处理(NLP)技术对安全生产事故分类,基于转换器的双向编码表征(BERT)模型利用“抽取+生成”相结合的方式获得文本摘要,再通过迁移学习训练提升模型性能,并利用分组分类算法对文本的52个标签进行多标签分类,获得较好的分类效果,为安全生产监管、事故隐患的排查和分析奠定基础。  相似文献   

14.
提出了一种基于BP神经网络和主成分分析的文本分类模型。该模型利用主成分分析实现对特征矩阵的降维,通过大量的模拟实验逐步优化BP网络的各项参数。在20_newgroups数据集上的模拟实验表明,该模型具有较好的性能并能得到较高的分类精度。  相似文献   

15.
提出了一种基于BP神经网络和主成分分析的文本分类模型。该模型利用主成分分析实现对特征矩阵的降维,通过大量的模拟实验逐步优化BP网络的各项参数。在20_newgroups数据集上的模拟实验表明,该模型具有较好的性能并能得到较高的分类精度。  相似文献   

16.
为改善动态卷积神经网络在文本情感分类方法中的泛化能力,提出了一种动态卷积超限学习算法.对动态卷积神经网络的输出层加以改进,使用浅层随机神经网络替代全连接层,利用参数随机生成的扰动性能,降低分类端对训练样本的依赖,避免过拟合,提升分类性能.在公共数据集上的实验证明:相对改进前的动态卷积学习算法以及超限学习机,所提出的方法在准确率、F1测度等多个标准指标上均体现了更优的分类性能.  相似文献   

17.
对文本特征表示模型和文本特征提取方法进行了探讨,分析了分类效果的影响因素,设计了一种动态调整训练集的文本分类算法,并结合支持向量机验证了该分类系统的类别特征信息和分类适应性.  相似文献   

18.
基于加权频繁项集的文本分类规则挖掘   总被引:2,自引:0,他引:2  
针对特征向量分量的权重和文本大小对分类规则产生的影响,提出一种可以提高关联文本分类性能的文本分类规则挖掘方法,提出了加权频繁项集的概念和相应的加权频繁项集挖掘算法,在分类规则中突出特征向量权重大的向量分量;提出一种特征向量预处理方法,消除文本大小对挖掘分类规则的影响.实验表明,解决上述两个问题将可以很好的提高文本分类的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号