首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法。通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果。在AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单独使用的fasttext、TextCNN、RCNN模型相比,其文本分类性能显著提升。  相似文献   

2.
吕佳 《计算机工程与设计》2007,28(24):6039-6041
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异.为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重.仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果.  相似文献   

3.
基于信息增益与信息熵的TFIDF算法   总被引:1,自引:0,他引:1  
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。  相似文献   

4.
文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛.研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进.通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类.采用支持向量机分类器对文本分类.通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度.  相似文献   

5.
针对网络流量分类识别系统尤其是实时识别系统对实现复杂度和分类准确率的要求,提出一种复杂度和准确率的折中方案。通过基于密度的思想对K-means算法随机选取初始聚类中心这一关键缺陷进行改进,以及引入聚类有效性判别准则函数确定最终聚类个数实现对算法的全面优化,进而提出基于改进K-means算法的网络流量分类方法,在兼顾K-means算法简单易实现、分类快速特点的同时,提高了分类的准确率。在公开的权威网络流量数据集上的实验表明,与普通K-means方法相比,该方法在网络流量分类方面具有更高的分类准确率和更好的稳定性。  相似文献   

6.
针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means 聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:(1)聚类的平均准确率在实验所采用的4种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类算法都有所提高;(2) 聚类的平均运行效率在实验所采用的5种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于粒子群优化算法改进的并行K-means聚类算法。可以得出结论,在大数据情景下,应用该算法的聚类效果较好。  相似文献   

7.
提出一种基于减聚类、K-means算法及改进的粒子群优化(PSO)算法的径向基函数(RBF)神经网络混合学习算法. 该算法首先使用减聚类确定隐层节点数和K-means初始聚类中心; 然后通过K-means算法求取RBF网络所有参数, 作为PSO的初始粒子群; 为了提高PSO算法的收敛性和稳定性, 对基本PSO算法进行了优化改进, 最后使用改进的PSO算法训练RBF神经网络中的所有参数. 对IRIS数据集分类识别的仿真结果表明, 改进的混合算法具有更高的分类准确率和更好的稳定性.  相似文献   

8.
针对心电图自动诊断困难这一问题,提出了一种新的聚类算法:基于均方差属性加权的遗传模拟退火K-means改进聚类算法,用于改进心电图(ECG)信号的自动识别技术。利用小波变换的多分辨率和抗干扰能力好的特点,检测QRS波、P波、T波,提高了特征检测的准确性;利用聚类分析具有较好的鲁棒性和适合于大数据量分析的特点,对心电信号进行波形分类。采用MIT-BIH标准心电数据库中的部分数据对识别结果进行判断,改进后的K-means聚类算法的准确率高于传统的K-means聚类算法,实验表明该算法对心电信号可以进行有效分类。  相似文献   

9.
为克服传统聚类算法在关键帧提取过程中对初始参数较为敏感的问题,提出一种基于改进K-means算法的关键帧提取算法。在人工鱼群算法中,依据人工鱼群体相似度对提取的特征向量进行自组织聚类,采用进步最大原则使人工鱼聚集在几个极值点位置,以每个极值点群体相似度最高的人工鱼为初始聚类中心,执行K-means算法,得到聚类结果,并提取关键帧。实验结果表明,该算法的准确率较高,能较好地表达视频的主要内容。  相似文献   

10.
由于电网公司95598工单分类不合理,影响客服对工单的处理效率及客户满意度。针对这种情况,结合分词工具、TF-IDF算法、K-means算法对投诉工单样本进行多维度整合分析,建立基于计算语言方法的95598工单分类优化模型。可以实现工单的文本分词、特征向量模型构建、主题分析、原投诉分类的相似度分析及可视化展示。结果表明,该模型可以确认原投诉工单分类标签是否合理,对工单进行相应优化措施,讨论工单分类合并的可行性,实现合理的业务分类,还原用户真实诉求。  相似文献   

11.
同义词和近义词现象以及强关联语义信息加大了文本向量的特征维数,对文本分类的效率和精度都会带来极大影响.为了有效降低文本向量的特征维数,提出一种基于混合并行遗传聚类的文本特征抽取方法.该方法首先使用K-means聚类算法进行特征词粗粒度聚类,然后采用混合并行遗传算法对各类特征词进行细粒度聚类,最后对各聚类中的特征词进行分析并压缩,得到最终能反映文本类别特征和语义信息的文本特征词集合.实验证明,该方法是一种有效的文本特征抽取方法,能切实提高文本分类的效率和精度.  相似文献   

12.
融合语义特征的关键词提取方法   总被引:1,自引:0,他引:1  
关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义特征后模型的F-Score提升了7.2%。  相似文献   

13.
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。  相似文献   

14.
主题分割技术是快速并有效地对新闻故事节目进行检索和管理的基础。传统的基于隐马尔可夫模型(HiddenMarkov Model,HMM)的主题分割技术仅使用主题和主题之间的转移寻找主题边界进行新闻分割,并未考虑各主题中词与词之间存在的潜在语义关系。本文提出一种基于隐马尔科夫模型的改进算法。该算法使用潜在语义分析(Latent Se-mantic Analysis,LSA)对词频向量进行特征提取和降维,考虑了词与词之间的上下文关系,通过聚类得到文档类别信息,以LSA特征和主题类别作为HMM的观测和隐状态,这样同时考虑了主题之间的关系,最终实现对文本主题分割。数据实验表明,该算法具有较好的分割性能。  相似文献   

15.
针对车道线检测中特征点匹配方法存在实时性不高和精度低的问题,本文首先提出了基于消失点改进的Hough变换提取特征线,剔除了干扰线,提高的计算量;然后对特征数据集采用 K-means 聚类和RANSAC拟合算法,首先利用 K-means 聚类对改进的Hough变换提取的特征点进行预处理,剔除了孤立的特征点,接着匹配Catmull-Rom 样条曲线进行RANSAC拟合,相当于二次优化,实现了车道线的快速和精确配准。通过实验表明,该算法不仅提高了车道线识别的精确度,而且具有很好的鲁棒性。  相似文献   

16.
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。  相似文献   

17.
随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长。如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题。现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下,忽略了档案固有的内容信息。此外,对于档案信息发现和利用来说,需进一步挖掘分析档案数据内容之间的关联性。面向档案智能管理的需求,从档案数据的文本内容角度出发,对人工分类的档案进行进一步分析。采用LDA模型提取文档的主题特征向量,进而用[K]-means算法对档案的主题特征进行聚类,得到档案间的关联。针对新收录档案数据的分类问题,采用现有档案数据,有监督的训练FastText深度学习模型,用训练完成的模型对新收录的档案数据进行全自动分类。在数据集上测试的结果表明,所提聚类方法在文档数据集的准确率相较于传统的基于TF-IDF特征的聚类算法提升6%,基于FastText的档案分类方法准确率超过96%,达到了代替手工分类的级别,验证了该方法的有效性和实用性。  相似文献   

18.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

19.
图像语义自动标注问题是现阶段一个具有挑战性的难题。在跨媒体相关模型基础上,提出了融合图像类别信息的图像语义标注新方法,并利用关联规则挖掘算法改善标注结果。首先对图像进行低层特征提取,用“视觉词袋”描述图像;然后对图像特征分别进行K-means聚类和基于支持向量机的多类别分类,得到图像相似性关系和类别信息;计算语义标签和图像之间的概率关系,并将图像类别信息作为权重融合到标签的统计概率中,得到候选标注词集;最后以候选标注词概率为依据,利用改善的关联规则挖掘算法挖掘文本关联度,并对候选标注词集进行等频离散化处理,从而得到最终标注结果。在图像集Corel上进行的标注实验取得了较为理想的标注结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号