首页 | 官方网站   微博 | 高级检索  
     

基于相对密度的多耦合文本聚类算法*
引用本文:王洪佳,邢长征,王 星.基于相对密度的多耦合文本聚类算法*[J].计算机应用研究,2016,33(6).
作者姓名:王洪佳  邢长征  王 星
作者单位:辽宁工程技术大学电子与信息工程学院,辽宁工程技术大学电子与信息工程学院,辽宁工程技术大学电子与信息工程学院
基金项目:国家自然科学(61402212):语义Web模糊规则互换与推理关键技术研究
摘    要:针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。该算法在基于相对密度的聚类方法基础上,根据相对密度越小本文相似性越小这一事实,将相对密度转化为文本相似度,融入了传统DBSCAN密度算法,并对核心对象的选取进行了优化,。实验结果表明,与改进的K-means文本聚类和改进的DBSCAN文本聚类算法相比,本算法在文本聚类中更高效、聚类质量更优。

关 键 词:文本聚类  空间向量模型  相对密度  文本相似度  核心对象
收稿时间:2/3/2015 12:00:00 AM
修稿时间:2015/3/18 0:00:00

A Multi-Coupled Text Clustering Algorithm Based On Relative Density
WANG hong-ji,XING chang-zheng and WANG Xing.A Multi-Coupled Text Clustering Algorithm Based On Relative Density[J].Application Research of Computers,2016,33(6).
Authors:WANG hong-ji  XING chang-zheng and WANG Xing
Affiliation:School of Electronic and Information Engineering, Liaoning Technical University,School of Electronic and Information Engineering, Liaoning Technical University,School of Electronic and Information Engineering, Liaoning Technical University
Abstract:Aim at the problem that existing space vector models ignore entry location and the relations between entries, a multi-coupled text clustering algorithm based on relative density is proposed in the paper. On the basis of clustering algorithms based on relative density and according to the reality that the smaller the relative density is, the smaller the text similarity is, the algorithm converts relative density to text similarity, integrates the traditional DBSCAN density algorithm, and optimize the selection of core objects. Experimental results show that, Comparing with the improved k-means and the improved DBSCAN text clustering algorithms, the proposed algorithm performs more efficiently and has a better clustering quality in text clustering.
Keywords:Text clustering  Vector Space Model  Relative density  Text similarity  Core object
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号