首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 875 毫秒
1.
突发事件类别众多,若采用传统的平面文本分类方法对突发事件分类,模型训练所需计算量剧增,并且对测试文本分类时要和全部分类器进行比较,导致极大的时间开销。根据突发事件类别体系结构层次性特点,提出了一种基于领域特征词的突发事件层次分类方法,将领域特征词自动提取算法用于特征选择,并在每个分类平面上采用改进的基于二叉树的SVM多类分类算法构建分类器。实验证明,基于领域特征词提取算法的特征选择方法优于传统方法,采用层次分类方法对突发事件分类,降低了时间复杂度,同时改善了分类效果,有效降低了错误分类的风险。  相似文献   

2.
文章研究了基于向量空间模型的文本分类中特征词权重算法,综合考虑特征词在文本中出现的位置信息,提出一种改进算法并给出实验结果。  相似文献   

3.
中文文本分类中基于词性的特征提取方法研究   总被引:6,自引:0,他引:6  
在介绍常用的文本分类中特征词提取方法的基础上,提出了一种全新的,适用于中文文本分类的特征提取方法——基于词性的特征提取方法,实验结果显示,这种基于词性的特征提取方法在提高特征提取效率和降低特征向量维数方面都有显著改善。  相似文献   

4.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。  相似文献   

5.
提出了一种基于SVM的博客大数据分类算法BBD-SVM,根据RSS博客文本特点提取博客特征词,通过SVM模型参数寻优化SVM分类模型实现博客大数据分类。并设计了RSS博客爬虫,以互联网上各种计算机程序设计语言的技术博客为爬取对象,利用BBD-SVM算法对相关技术博客进行专业分类,为用户学习程序设计语言提供专业推荐服务。其中,博客文本特征的提取选用改进的TF-IDF作为权重计算函数,SVM分类模型的参数寻优很好地提高了分类效率。实验结果表明,BBD-SVM算法具有准确率高,耗时少的优势,能够实现快速准确的博客推荐服务。  相似文献   

6.
针对文本分类中传统的TFIDF特征提取算法的缺陷,引入信息熵与词长信息改进TFIDF算法。传统的TFIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征。改进的TFIDF算法中加入了表达词长信息的因子并且引入词条信息熵来反映特征词在文本中的分布特征,实验比较了其与TFIDF、TFIDFL等算法在相同数据集上使用逻辑回归分类器的分类准确率。改进的算法平均准确率比TFIDF算法高了7.34%,比TFIDFL算法高了5.99%,结果表明引入信息熵与词长信息改进TFIDF算法能够有效提升分类准确率。  相似文献   

7.
针对基于局部时空特征与特征词袋模型相结合的算法中计算效率低、识别率不高的问题,提出一种基于局部块模型与特征数据预处理结合的行为识别算法。该算法基于特征词袋模型,采用局部块模型提取特征,将多变量的复杂问题简化为低维空间的简单问题,对其数据处理过程进行改进,同时优化了局部块模型中的帧采样过程。与原算法相比,计算效率与识别率都有较大提升,较其他同类算法也具有一定优势。2个通用视频库上的实验证明了算法的有效性。  相似文献   

8.
针对基于局部时空特征与特征词袋模型相结合的算法中计算效率低、识别率不高的问题,提出了一种基于局部块模型与特征数据预处理结合的行为识别算法。该算法基于特征词袋模型,采用局部块模型提取特征,针对局部块模型算法中处理数据维度高,相关性强导致的识别率低的问题,将多变量的复杂问题简化为低维空间的简单问题,对其数据处理过程进行了改进,同时优化了局部块模型中的帧采样过程。与原算法相比计算效率与识别率都有较大提升,较其他同类算法也具有一定优势。两个通用视频库上的实验证明了算法的有效性。  相似文献   

9.
针对短文本单一共现词特征扩展效果不理想的情况,提出一种改进的基于共现关系的短文本特征扩展算法,改进之处在于考虑了多个共现词同时出现的情况,改进了特征词权重计算公式及特征扩展策略,并应用于中文短文本分类,使分类准确度得到了一定提升。  相似文献   

10.
针对Web地震新闻挖掘的需求,采用网络爬虫抓取新闻文本作为研究语料,采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)算法对语料集进行文本训练,选取权值较大的特征词初步识别地震类文档;采用特征词构成要素描述地震事件,构建了地震事件的知识框架;基于框架的要素特征词匹配从地震类文档中获取候选事件语句,对候选事件语句进行句法分析,总结出地震要素出现形式和规律,构造抽取规则,编写抽取算法,完成了地震事件识别和提取实验,并对地震事件提取的精度进行分析和评价,验证了该方法具有较高的地震事件识别和提取精度,是一种有前景的Web专题事件挖掘的途径.  相似文献   

11.
一种基于多重词典的中文文本情感特征抽取方法   总被引:1,自引:1,他引:0  
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

12.
文档的高维性导致朴素贝叶斯文本分类器的复杂度较高,进而影响到文本分类的效率和精度.针对这一问题,首先采用k-means算法对单词进行聚类,将得到的单词簇视为文本特征,再使用朴素贝叶斯分类器进行文本分类.实验表明:基于簇的分类方法在分类精度和效率上均优于基于单词的分类方法.  相似文献   

13.
为了利用商品文本标题实现商品自动分类,提出一种基于高层特征融合的商品分类模型.首先,提出基于字嵌入和词嵌入的文本底层特征表示法,进而获得更强的商品标题结构特征表达;其次,提出了联合自注意力、卷积神经网络和通道注意力的机制,对文本标题的底层特征进行增强并获得高层增强特征;最后,通过将文本的字嵌入和词嵌入的高层增强特征进行融合,最终获得商品文本标题的综合特征,并实现商品自动分类.以商品标题语料作为数据集进行了实验,实验结果表明,该模型对三级商品类别的分类精度能够达到84.348%,召回率和F1值分别达到了47.8%和49.4%,优于现有可用于商品文本标题分类的先进短文本分类方法.  相似文献   

14.
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。  相似文献   

15.
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。  相似文献   

16.
目前有多种特征提取方法用于文本自动分类,其中CHI方法效果较好,研究发现CHI方法存在着词与类别的无独立性假设及计算复杂度高等缺点,提出一种改进了的CHI方法ICHI(ImprovedCHI),通过分类实验仿真数据显示,在SVM与KNN分类中这种改进后的特征提取方法ICHI特征提取效果优于传统的CHI方法,改进后的方法ICHI能提高文本分类的准确率,适合局部特征提取.  相似文献   

17.
随着互联网的发展,网上购物成为主流消费方式,随之产生了大量的商品文本数据,需要对商品进行准确而高效的分类。利用机器学习进行文本分类需要进行复杂的人工设计特征和提取特征过程。随着深度学习领域的发展,基于深度学习的文本分类技术效果显著。设计了一个基于长短期记忆网络(LSTM)的中文文本多分类器。首先对数据进行预处理,利用Tokenizer分词技术将文本处理为计算机可理解的词向量传入LSTM网络,并加入Dropout算法以防止过拟合得出最终的分类模型。将该模型与逻辑回归、多项式朴素贝叶斯、线性支持向量机、随机森林模型进行对比发现,基于LSTM的中文文本多分类方法具有较好的效果。  相似文献   

18.
针对现有序列挖掘算法特征维度高、学习算法时间复杂度高等方面的不足,提出一种主题特征表示法,将符号序列转换为一组表示多个主题呈现度的概率向量。基于文本挖掘中常用的隐含狄利克雷分配(latent Dirichlet allocation, LDA)主题模型,视短序列元组为序列的浅层特征(词),利用LDA模型学习算法提取主题及其概率分布,作为序列的深层特征。在6个实际序列数据集上进行试验,并与基于元组、Markov模型的现有方法作对比,结果表明,新方法在降低特征维度的同时提高了表示模型的学习效率,在符号序列分类应用中可以取得较理想的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号