首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 812 毫秒
1.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向.  相似文献   

2.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况。着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向。  相似文献   

3.
李健  马力  武波 《现代电子技术》2004,27(23):10-11,14
研究了一种基于Web文本聚类的用户兴趣发现方法.他通过Web文档信息获取,文本的形式表示,以及Web文本聚类方法最终提取用户兴趣知识,并给出了一个设计模型。  相似文献   

4.
Web文本挖掘系统及聚类算法的研究   总被引:1,自引:0,他引:1  
唐菁 《电信建设》2004,(2):24-28
本文提出了一种新的Web文本挖掘系统总体结构模型DFSSM及文本聚类算法TLDFSSM,并结合电信行业应用背景实现了Web文本挖掘原型系统(WTMS).该系统能对具有不同价值的用户群特征进行文本聚类分析.最终实现客户的保持率和价值的提升.  相似文献   

5.
《现代电子技术》2016,(1):148-152
考虑到传统Web文档聚类算法聚类效果差、速度慢等问题,针对Web文档聚类算法进行深入研究,使用目标优化策略将Web文档聚类认为是最佳划归文档集合的范畴,并通过引入优化算法进行聚类划分。针对使用SVD表示的Web文档向量存在高维稀疏性等问题,使用LDA对Web文档簇的潜在语义子空间进行重构,从而降低Web文档向量空间的维数,最后在低维空间使用遗传算法进行寻优。常规的GA算法通常存在算法早熟以及局部寻优能力弱等问题。故提出一种改进型GA算法,通过引入自适应对偶种群、自适应终止规则以及新的生成子代规则来保证种群在迭代过程中的多样性以解决算法早熟问题,并且要提高算法的搜索效率以提高算法对局部寻优的能力。最后通过实验验证提出的基于改进型GA算法的Web文档聚类算法的聚类有效性。  相似文献   

6.
网络提供了海量的共享资源,人们需要从网络上搜索出自己感兴趣的信息,由此产生了Web挖掘的问题。Web挖掘就是借用数据挖掘技术来实现的。Web挖掘主要是文本信息的挖掘,本文主要研究了实现文本挖掘的层次凝聚类算法,对于传统的算法存在的问题,提出了改进的算法,研究了相似度值对整个算法过程的影响,设计了一个动态改变相似度值的计算公式。  相似文献   

7.
面向领域标签辅助的服务聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
田刚  何克清  王健  孙承爱  徐建建 《电子学报》2015,43(7):1266-1274
Web服务数量的激增对服务发现提出了更高的要求,服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,缺乏考虑服务的领域特性和服务标签的应用.针对这些问题,本文首先使用本体辅助的支持向量机和面向领域的服务特征降维技术建立服务的特征内容向量,然后使用一种标签辅助的主题服务聚类方法T-LDA建立融合标签信息之后的隐含主题表示,并利用归一化方法消除通用主题的影响,综合上述方法建立一个面向领域标签辅助的Web服务聚类方法DTWSC.实验结果表明,该框架能够提高针对不同类型的服务文档的聚类效果.与LDA、K-Means等方法相比,该方法在聚类纯度、熵和F-Measure指标上均具有更好的效果.  相似文献   

8.
《现代电子技术》2019,(7):177-180
为研究聚类算法在高校学生微博的应用情况,针对K-means算法和分层聚类算法在聚类中心选择不精确的问题,基于高校学生使用微博的背景,对微博文本挖掘应用中聚类算法的应用进行改进。通过文本的矢量表示、文本相似度计算和聚类算法的实现,验证了聚类算法在微博热门话题检测的准确性和效率,并针对实验数据提出几点针对性的措施。  相似文献   

9.
《现代电子技术》2017,(24):18-20
在大型Web网络数据中心构架中包含海量的多媒体信息资源,为了高效挖掘资源,提高资源的调度能力,提出一种基于模糊语义本体映射的大型Web网络数据中心资源高效挖掘技术。对大型Web网络数据中心的资源信息流进行信息流重建,采用泛化学习方法进行资源信息流的模糊聚类处理,结合语义本体映射方法实现互信息特征提取,以提取的特征为训练集,进行数据迭代,实现资源优化挖掘。仿真结果表明,采用该方法进行大型Web网络数据中心资源挖掘的准确性较好,资源调度的效率得到提高。  相似文献   

10.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号