首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
基于蚁群算法的文本分类和聚类   总被引:2,自引:1,他引:1  
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。  相似文献   

2.
随着网络技术的发展,网络舆情分析越来越受到人们的重视。长期以来,应用于网络舆情分析中的文本分类和聚类技术都是以词作为最小的分析单位,很难把握词语之间的关系。介绍了舆情分析的核心体系,即基于概念网络提取文本本征特征,可以有效提高网络舆情分析准确度,利用概念消歧的方法,将文本映射成为概念网络中的概念,以义元作为最小的表达概念的单位,利用统计方法将高权重的义元集合作为文本本征特征。  相似文献   

3.
《现代电子技术》2017,(19):138-141
提出利用基于多目标优化软子空间聚类理论的关联规则数据挖掘方法对高维数据集中局部离散文本数据实现数据特征有效挖掘。首先,利用多目标优化软子空间聚类思想结合非支配排序遗传理论优化加权类内紧致及加权类间分离函数,获取优化后的目标函数及非占优Pareto最优解集,运用加权子空间划分方法对最优解集完成特征聚类;其次,基于关联规则思想运用一种特征提取和关联文本的识别方法,对聚类后的文本特征进行文本间及文本内部的特征识别和分类,即实现了文本信息数据的有效挖掘。实验证明,利用多目标优化软子空间聚类数据挖掘方法可以有效实现高维集中局部离散文本数据的挖掘。  相似文献   

4.
一种基于改进K-means聚类的文本特征选择模型   总被引:2,自引:1,他引:1  
介绍了文本聚类中基于划分的方法,针对该算法对孤立点的过于敏感问题,提出了一种用于特征选择的算法改进模型,通过对特征集里孤立点的剔除改善了特征聚类效果.随后的文本分类试验表明,提出的改进的算法具有较好的特征选择效果,文本分类的效率较高.  相似文献   

5.
张帆  李晓峰  李在铭 《信号处理》2000,16(3):200-205
本文研究了离散彩色图像视觉特征模型,提出了图像可视信息熵、可视质量SNR(VPSNR)、步进聚类等概念;并在该模型基础上,针对离散彩色图像的高效压缩,提出了一种快速聚类算法。算法根据图像HSV空间的特性和空域分布特性进行聚类和量化。在保证图像主观视觉质量不变的情况下,使图像的信息数据充分接近可视信息熵.将离散彩色图像视觉特征模型和聚类技术应用于离散彩色图像的压缩,实验表明系统压缩率可达60~300,与JPEG相比有明显的提高,提得平均压缩率约为JPEG的6倍。  相似文献   

6.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。  相似文献   

7.
本文通过剖析广州广播电视台舆情线索分析系统的设计与构建过程,探讨了自然语言处理技术、大数据技术和机器学习技术在信息分析处理领域的应用。文中引用了分语、停用词和词频等自然语言处理概念,借鉴了聚类算法、Boosting算法、LightGBM算法、PageRank算法等机器学习算法思想,并结合实际对相关算法进行了优化,最后通过软件工程实现了一个完整的舆情分析系统,可帮助舆情工作者高效、准确地完成信息脉络梳理工作。  相似文献   

8.
基于最小类差异的无关信息预处理算法   总被引:7,自引:0,他引:7       下载免费PDF全文
陈治平  林亚平  彭雅  王雷  童调生 《电子学报》2003,31(11):1750-1753
为了降低无关信息对文本分类精度的影响,提出了基于最小类差异的预处理算法.算法通过分析文本特征在类中的分布情况,将特征划分为三种类型,按照特征在各类间的分布差异,保留对分类有作用的单类特征与多类特征,而将类分布差异较小的一般特征进行过滤.实验结果表明,采用新算法进行分类预处理所得到的分类精度明显优于信息增益、互信息量等预处理算法.  相似文献   

9.
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度.  相似文献   

10.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

11.
王欣欣  赖惠成 《通信技术》2011,44(12):156-158
分析了文本分类系统的一般模型及现有技术,在应用了核主成分分析的特征降维方法进行处理后,提出了一种基于样本中心的径向基( RBF)神经网络文本分类算法,并且引入了聚类算法的核心思想,来改进误差反向传播(BP)神经网络分类算法收敛速度较慢的缺点.实验结果表明, RBF网络与BP网络相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果.  相似文献   

12.
周国娟 《通信技术》2010,43(11):74-77
为了研究并提高文本的聚类算法的性能,根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的聚类处理的研究中。在文本的聚类处理研究中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,从而最终将相似文本进行聚合。对改进的算法进行实验后的结果证明,这种新的算法可以使文本聚类的准确度提高,具有良好的聚类效果,能有效提高查询的文本召回率。蚁群算法在文本聚类中的应用是可行的。  相似文献   

13.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

14.
基于簇的无线传感器网络入侵检测系统   总被引:2,自引:1,他引:1  
基于无线传感器网络的分簇结构,运用Agent技术设计了一个入侵检测系统.在网络中的每个节点部署IDS代理,其中包括本地检测Agent和全局检测Agent两个不同代理,分别完成不同的检测任务.提出采用蓝牙通信技术,引用蓝牙散射网形成算法TPSF构建传感器网络的簇节点层,完成簇的划分,进而对不同的Agent进行任务分配.通过限制节点的角色对算法进行改进,减轻节点的复杂度,从而使IDS代理能有效地工作,提高节点的安全系数.  相似文献   

15.
贺超波  汤庸  张琼  刘双印  刘海 《电子学报》2019,47(5):1086-1093
对社会化媒体产生的大量短文本进行聚类分析具有重要的应用价值,但短文本往往具有噪音数据多、增长迅速且数据量大的特点,导致现有相关算法难于有效处理.提出一种基于增量式鲁棒非负矩阵分解的短文本在线聚类算法STOCIRNMF.STOCIRNMF基于非负矩阵分解构建短文本聚类模型,通过l2,1范数设计模型的优化求解目标函数提高鲁棒性,同时应用增量式迭代更新规则实现短文本的在线聚类.在搜狐新闻标题和微博短文本数据集上进行相关实验,结果表明STOCIRNMF不仅比现有代表性算法具有更好的聚类性能,而且能够有效对微博话题进行在线检测.  相似文献   

16.
一种基于模糊聚类理论的文本水印算法   总被引:2,自引:2,他引:0  
基于模糊聚类理论,建立了以文本文档中汉字特征为变量的聚类模型。根据人类视觉系统特性,将文本文档中汉字按照汉字笔画数、出现频率及分布均匀度作了分类,选择文本文档中汉字笔画数相对较少、使用频率较高、分布均匀度高的类别嵌入水印。实验结果表明,该算法对于内容的部分删除、添加、格式调整等攻击具有较好的鲁棒性,水印的不可见性好。  相似文献   

17.

Being independent of any fixed equipment, Ad Hoc wireless sensor networks, a kind of acentric and self-organized wireless network, possesses some features such as easiness of deployment, strong invulnerability and flexibility of networking, which leads to a promising application prospect in terms of UAV military and civilian use. This paper proposes a new slot adaptive 4D network clustering algorithm based on UAV autonomous formation and reconfiguration to solve the problem of UAV Ad Hoc network such as networking confusion, poor network reconstruction performance, huge energy consumption and other issues. The algorithm can optimize the topology of UAVs network. We build the network topology and generate clustering network by the slot adaptive 4D network clustering algorithm in Matlab. According to the real combat of UAV, four states are simulated and analyzed. The simulation results validate the feasibility of the slot adaptive 4D network clustering algorithm. The clustering structure generated by the slot adaptive 4D network clustering algorithm is robust and the algorithm is suitable for the UAV group operation.

  相似文献   

18.
In response to the problems traditional multi-view document clustering methods separate the multi-view document representation from the clustering process and ignore the complementary characteristics of multi-view document clustering,an iterative algorithm for complementary multi-view document clustering——CMDC was proposed,in which the multi-view document clustering process and the multi-view feature adjustment were conducted in a mutually unified manner.In CMDC algorithm,complementary text documents were selected from the clustering results to aid adjusting the contribution of view features via learning a local measurement metric of each document view.The complementary text document of the results among the dimensionality clusters was selected by CMDC,and used to promote the feature tuning of the clusters.The partition consistency of the multi-dimensional document clustering was solved by the measure consistency of the dimensions.Experimental results show that CMDC effectively improves multi-dimensional clustering performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号