首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于数据挖掘的符号序列聚类相似度量模型   总被引:1,自引:1,他引:1       下载免费PDF全文
为了从消费者偏好序列中发现市场细分结构,采用数据挖掘领域中的符号序列聚类方法,提出一种符号序列聚类的研究方法和框架,给出RSM相似性度量模型。调整RSM模型参数,使得RSM可以变为与编辑距离、海明距离等价的相似性度量。通过RSM与其他序列相似性度量的比较,表明RSM具有更强的表达相似性概念的能力。由于RSM能够表达不同的相似性概念,从而使之能适用于不同的应用环境,并在其基础上提出自组织特征映射退火符号聚类模型,使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。  相似文献   

2.
姜大庆  周勇 《计算机科学》2012,39(11):142-144
针对现有个性化推荐服务系统中用户会话聚类算法存在相似性度量准确性低和需要事先确定聚类数目的问 题,对序化的用户访问页面和对应的访问时间信息进行整合,提出一种基于动态规划算法的全序列比对方法来度量用 户会话的相似性。在此基础上,运用改进的NJ W谱聚类算法对用户会话进行自动谱聚类。实验结果表明,算法充分 考虑了用户会话的整体特征和局部信息,较相关比对算法具有更高的聚类性能,可以提高网站个性化推荐服务的效 率。  相似文献   

3.
首先提出了一种基于属性值的co-occurrence相似度概念,通过对其进一步的研究,提出了3个等价性表述;然后对属性值之间的co-occurrence相似度进行引申,给出了数据对象之间co-occurrence相似度的定义,并将其成功应用到聚类集成方法中。利用co-occurrence相似度在计算某个初始聚类结果中数据对象之间的相似度时,充分考虑了其他初始聚类结果和该初始聚类结果之间的相互影响和联系。实验表明, 基于co-occurrence相似度的聚类集成(CSCE)方法能有效识别数据之间的细微结构,有助于提高聚类集成的效果。  相似文献   

4.
针对于蚁群聚类算法在搬运数据项过程中随机选择移动位置时,由于无效移动导致的算法收敛速度缓慢等缺陷,论文提出了一种基于相似度的蚁群聚类算法.通过设计相似度矩阵,基于相似移动机制将蚂蚁随机移动方式优化为按照相似度矩阵规则实施目的性的关联.实验选取Iis、Wine、Haberman和Balance-scale四种经典数据集,相较于现有的LF算法及GACC算法,结果表明在蚂蚁空载率都为90%的条件下,论文提出的SMACC算法的迭代次数明显降低,均体现出较优的聚类速率.  相似文献   

5.
用于Web文档聚类的基于相似度的软聚类算法   总被引:3,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

6.
为了提高源程序代码之间相似性的检测效率,提出一种基于序列聚类的相似代码检测算法.算法首先把源代码按照其自身的结构进行分段提取,然后对各个分段进行部分代码变换,再以带权重的编辑距离为相似度量标准对这些符号进行序列聚类,得到相似的程序代码片段,以达到对源程序进行相似功能检测的目的.使用多个真实和仿真程序对上述算法进行了实验,实验结果验证了算法的有效性和可伸缩性.  相似文献   

7.
为辅助教师进行电子作业的批改和抄袭鉴别,设计并实现一种基于序列匹配的作业相似度检测系统。以班级为分组建立相似度计算模型,利用序列匹配算法计算公共子序列的长度,得到每组作业两两之间的相似度,并在此基础上进行聚类分析,给出可视化结果。实验结果表明,该系统具有较强的实用性,能够辅助教师在批改作业时快速高效地鉴别疑似抄袭的情况。  相似文献   

8.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。  相似文献   

9.
为了缓解协同过滤推荐算法中的用户冷启动问题,提出一种基于融合相似度和层次聚类的冷启动推荐算法.首先,基于用户的人口统计学信息、用户对项目的评分信息和项目种类信息,提出一种融合相似度计算方法;其次,基于用户的人口统计学信息,利用层次聚类确定冷启动用户的初始近邻用户集;最后,基于初始近邻用户集,利用融合相似度为目标用户进行...  相似文献   

10.
对舰船三维模型进行视点空间均匀投影,投影图像存在信息冗余,聚类技术是消除冗余投影的方法之一.由于缺少舰船投影的聚类知识,为了避免聚类结果受限于初始类代表点选择的缺点,研究了仿射传播聚类算法,首先提取所有投影图像特征,然后将所有特征进行归一化处理并作为初始聚类中心,提出了用空间向量模型计算特征相似度的方法,合并相似特征对应的投影图像,最后用聚类中心特征表示舰船目标.为了进一步验证改进相似度聚类算法的聚类质量,进行了聚类有效性分析,实验表明改进算法聚类质量好于原算法.  相似文献   

11.
赵亮  刘建辉  王星 《计算机科学》2016,43(6):280-282, 307
分类变量的相似度分析是数据挖掘任务中的一个重要环节,现有的分类变量相似度算法中存在忽视变量差异、受不均衡分布影响严重、无法应用于混合数据集等缺点。为克服以上缺点,提出了一种基于Hellinger距离的分类变量相似度算法。该算法累加分类变量对应子集中不同属性变量的分布差异作为相似度,且支持混合数据集。将所提算法代入聚类算法并应用于UCI公共数据集,结果表明,该算法在准确度、有效性和稳定性上都有较大提高。  相似文献   

12.
由于符号型数据缺乏清晰的空间结构,很难构造一种合理的相似性度量,从而使诸多数值型聚类算法难以推广至符号型数据聚类.基于此种情况,文中引入一种空间结构表示方法,把符号型数据转化为数值型数据,能够在保持原符号型数据的结构特征的基础上重新构造样本之间的相似度.基于此方法,将仿射传播(AP)聚类算法迁移至符号数据聚类中,提出基于空间结构的符号数据AP算法(SBAP).在UCI数据集中若干符号型数据集上的实验表明,SBAP可以使AP算法有效处理符号型数据聚类问题,并且可以提升算法性能.  相似文献   

13.
余力  刘鲁 《计算机工程》2003,29(15):13-14
事件序列是一种重要的数据形式。如用户访问的网页就组成了一个序列,如何从这些序列中发现用户的兴趣特点,以便聚类用户。这是网络使用挖掘的重要内容。文章研究了两事件序列的相似性(或距离),对文献[6]提出的序列编辑距离进行了改进,并用一实例进行了说明。  相似文献   

14.
用无监督模糊聚类方法进行视频内容的分层表示   总被引:3,自引:0,他引:3  
为了在视频数据库中提供有效的视频检索和浏览功能,必须用简明的方式表示视频的内容。由于视频数据具有层次性结构,在镜头边界检测后,可以利用聚类方法按不同的相似性尺度选取代表帧和代表镜头,对视频内容进行抽象概括的表示。文中提出了一种基于无监督模糊聚类对视频内容进行分层表示的算法,它用无监督聚类方法选取镜头的代表帧,并用模糊聚类算法对代表帧进行层次化聚类以选取代表镜头和代表场景。实验结果表明这种方法可以较好地概括视频的内容,方便用户检索和浏览。  相似文献   

15.
数据挖掘中解决分类属性数据聚类的算法有很多种,但大多数基于划分的方法得到的聚类中心一般不是数据集中的实际数据对象,缺乏实际的物理意义,有时会导致某一聚类为空。该文研究了近似k-median的求解算法,用数据的近似中值来代替模式进行聚类,提出了分类属性数据的近似k-median聚类算法,克服了一般基于划分的可分类属性数据聚类中所遇到的问题,仿真实验证明该算法有效。  相似文献   

16.
面向分类数据的自组织神经网络   总被引:1,自引:2,他引:1  
作为一种优良的聚类和降维工具,自组织神经网络SOM(SelfOrganizingFeatureMaps)已经得到广泛应用。其不足之处是仅适合于数值数据,这对时常需要处理分类型数据(Categoricalvalueddata)或数值型与分类型混合数据(Mixednumericandcategoricalvalueddata)的数据挖掘应用是不够的。该文提出了一种新的基于覆盖(Overlap)的距离函数并将其用于SOM训练。实验结果表明,在不增加时空开销的前提下可取得较好的聚类效果。  相似文献   

17.
相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.  相似文献   

18.
数据标签是一种提高增量数据聚类效率的简单而有效的方法.数据标签就是分配每个新增数据点到与之最相似的簇的过程.符号数据分析的难点之一在于缺少一种恰当的方法来定义数据点与数据簇之间的相似性.为此,将簇代表定义为簇中所有属性的属性值及其在簇中的频率构成的列表,用信息熵的变化来定义“点-簇”不相似性.基于此不相似性度量,设计了一个符号型增量数据标签算法来分配无标记数据到恰当的簇.在公开数据集和文本语料上的对比实验表明,该数据标签算法不但数据标记精度高、时间开销小,而且有较好的可伸缩性.  相似文献   

19.
以谱聚类算法为理论基础,对图的分割问题构造合适的相似度矩阵。构造四种相似度矩阵,并进行实验分析。实验结果表明,好的相似度矩阵对图的分割是非常有效的。  相似文献   

20.
Most of the earlier work on clustering is mainly focused on numerical data the inherent geometric properties of which can be exploited to naturally define distance functions between the data points. However, the computational cost makes most of the previous algorithms unacceptable for clustering very large databases. The k-means algorithm is well known for its efficiency in this respect. At the same time, working only on numerical data prohibits them from being used for clustering categorical data. This paper shows how to apply the notion of "cluster centers" to a dataset of categorical objects, and a k-means-like algorithm for clustering categorical data is introduced.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号