首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
一种基于群体智能的Web文档聚类算法   总被引:31,自引:0,他引:31  
将群体智能聚类模型运用于文档聚类,提出了一种基于群体智能的Web文档聚类算法,首先运用向量空间模型表示Web文档信息,采用常规方法如消除无用词和特征词条约简法则得到文本特征集,然后将文档的向量随机分布到一个平面上,运用基于群体智能的聚类方法进行文档聚类,最后从平面上采用递归算法收集聚类结果,为了改善算法的实用性,将原算法与k均值算法结合提出一种混合聚类算法,通过实验比较,结果表明基于群体智能的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全而准确地聚成一类。  相似文献   

2.
城市大数据为探索城市内部居民出行的行为特征提供数据支撑。本文将以兰州市出租车GPS轨迹数据为基础,结合数据挖掘和可视化技术,研究兰州市城市居民出行规律和城市空间交互特征。首先,分析4个城区居民出行特征和城区间空间交互特征;然后,采用城市栅格方法,统计分析城市栅格空间之间的交通出行量,并采用CLARA聚类算法识别工作日和周末的城市交通热点区域;最后,建立有向加权复杂网络模型,分析城市交通热点区域之间的空间交互强度。研究结果表明,在工作日和周末兰州市居民出行行为时空特征和城市空间交互特征都存在明显差异,相比于周末,工作日出行更加紧凑密集且具有较强目的性,出行量的聚类结构总体呈现与兰州市河谷型地形相匹配的“哑铃”状分布形状,接近城市中心的相邻聚类区域之间空间交互强度较强。该研究结果可为城市交通管理和居民出行提供决策服务。  相似文献   

3.
蓝欢玉 《信息与电脑》2023,(14):120-122
采用传统不平衡数据集聚类算法直接对数据集编码树进行构建,而未对数据集密度特征进行提取,造成传统算法数据聚类效果差,因此提出了基于最小生成树的不平衡数据集聚类算法。先利用数据区域密度的敏感性,提取数据密度特征,再利用提取的数据集密度特征构建编码树,并计算不平衡聚类状态下的数据集,最后基于最小生成树实现不平衡数据集聚类。设计对比实验,实验结果表明该研究算法聚类效果最好,具有研究价值。  相似文献   

4.
复杂分布数据的二阶段聚类算法   总被引:4,自引:0,他引:4  
公茂果  王爽  马萌  曹宇  焦李成  马文萍 《软件学报》2011,22(11):2760-2772
提出了一种用于复杂分布数据的二阶段聚类算法(two-phase clustering,简称TPC),TPC包含两个阶段:首先将数据划分为若干个球形分布的子类,每一个子类用其聚类中心代表该类内的所有样本;然后利用可以处理复杂分布数据的流形进化聚类(manifold evolutionary clustering,简称MEC)对第1阶段得到的聚类中心进行类别划分;最后综合两次聚类结果整理得到最终聚类结果.该算法基于改进的K-均值算法和MEC算法.在进化聚类算法的基础上引入流形距离,使得算法能够胜任复杂分布的数据聚类问题.同时,算法降低了引入流形距离所带来的计算量.在分布各异的7个人工数据集和7个UCI数据集测试了二阶段聚类算法,并将其效果与遗传聚类算法、K均值算法和流形进化聚类算法做了比较.实验结果表明,无论对于简单或复杂、凸或非凸的数据,TPC都表现出良好的聚类性能,并且计算时间与MEC相比明显减少.  相似文献   

5.
基于K-means算法思想改进蚁群聚类算法聚类规则,提出一种新的K-means蚁群聚类算法,并通过实验验证其聚类效果;引入具有全局最优性的支持向量机SVM,取各类中心附近适当数据训练支持向量机,然后利用已获模型对整个数据集进行重新分类,进一步优化聚类结果,使聚类结果达到全局最优。UCI数据集实验结果表明,新的算法可以明显提高聚类质量。  相似文献   

6.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

7.
为解决语义特征化后复杂造型协同设计中造型共享库中的造型检索问题,提出了一种基于群智能自组织聚类算法。该算法首先将语义特征造型信息向量化,通过语义造型特征树得到语义特征造型特征集,以蚁群算法做为自组织准则,并以粒子群算法做为蚁群移动模型,将特征语义群分布在一个平面上进行聚类,递归收集聚类结果。试验证明,采用此种方法,可以对特征造型完成准确率很高的聚类,使特征库组织性得到了很大提高。  相似文献   

8.
提出基于二进制灰狼优化的特征选择与文本聚类算法.为得到最佳聚类结果,将文本数据表达为矢量空间模型;利用二进制灰狼优化算法对文本特征进行选择,得到初选特征子集;对前一阶段中不同特征相关分值计算方法得到的初选特征子集进行合并与交叉操作,进一步计算最优特征子集;在新特征子集基础上,利用同步考虑余弦相似度和欧氏距离指标的多目标优化K均值算法完成文本聚类,得到最优文本聚类解.实验结果表明,在多数数据集上,该算法可以有效降低特征维度,聚类指标表现更好.  相似文献   

9.
针对密度峰值聚类(DPC)算法因构建全局样本点间的相似度矩阵,而导致时间开销过大的问题,提出了一种基于空间向量搜索的密度峰值聚类(VS-DPC)算法。在n维正交坐标系中将数据点映射为以原点为起点的空间向量,计算向量的模和与统一坐标轴正方向间的夹角;利用截断距离和截断映射角确定相似范围搜索相似向量;利用相似向量确定有效密度点从而构建稀疏相似度矩阵,降低时间复杂度。在UCI数据库中7个真实数据集和7个形状复杂的人工数据集上的实验结果表明,所提的VS-DPC算法保持了DPC的聚类精度,相较DPC算法减少了约60%的时间开销。并对比于CDPC和GDPC两种提升DPC聚类效率的算法,算法参数更少,且在聚类精度和时间上分别平均提升6和18个百分点。  相似文献   

10.
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号