首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
为了实现Web图像检索结果的聚类,提出了一种Web图像的图聚类方法.首先定义了两种类型关联:单词与图像结点之间的异构链接以及单词结点之间的同构链接.为了克服传统的TF-IDF方法不能直接反映单词与图像之间的语义关联局限性,提出并定义了单词可见度(visibility)这一属性,并将其集成到传统的tf-idf模型中以挖掘单词-图像之间关联的权重.根据LDA(latent Dirichlet allocation)模型,单词-单词之间关联权重通过一个定义的主题相关度函数来计算.最后,应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型上引入两种相关性关联的有效性,达到了改进了Web图像聚类性能的目的.  相似文献   

2.
聚类分析作为一种重要的非指导学习方法,在多媒体数据管理中得到越来越多的应用,如对图像进行聚类预处理,有助于发现图像之间的语义相似性、减少检索代价等.但是,由于图像语义与视觉特征之间的差异,使得图像聚类的效果还有待进一步提高.聚类分析中,图像通常用高维特征向量表示,显然,在描述图像的相似性方面,各个维所代表的视觉特征的重要性是不一样的,甚至彼此矛盾.传统方法通过权重调整或降维并不能很好地解决上述问题.提出一种新的动态子空间距离计算公式(DSDF),根据任意两幅图像之间关联比较密切的维度,计算出图像之间的相似子空间距离,并利用Clarans聚类算法进行图像子空间聚类.实验表明,该方法在图像聚类效果上明显优于传统聚类方法.  相似文献   

3.
Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。  相似文献   

4.
一种高效的属性图聚类方法   总被引:1,自引:0,他引:1  
吴烨  钟志农  熊伟  陈荦  景宁 《计算机学报》2013,36(8):1704-1713
图是描述现实世界各类复杂系统的一种普适模型,且许多实际应用中的图是大规模的.图的聚类是理解、分析和可视化大规模图的关键技术之一.现实世界的图往往包含丰富的属性信息,如何综合结构和属性信息进行属性图的聚类是一个新的挑战.大多数的现有方法或者将结构和属性转化为距离,基于传统方法进行聚类;或者只考虑某一方面聚类.文中结合信息论中最小长度原则,基于遗传算法,提出一种高效的属性图聚类方法GA-AGC.通过对属性图聚类问题建模,转化为最小描述长度原则问题;扩展标签传播方法作为遗传算法初始化方法,结合编码减小的局部变异方法,提出一种解决属性图聚类的遗传算法.文中方法无需设定聚类的数目,算法复杂度近似线性于结点和边的数目.真实数据集上的实验验证了算法的有效性和高效性.  相似文献   

5.
基于路径聚类的页面访问次序的挖掘   总被引:1,自引:0,他引:1  
为了发现用户的行为模式以实现Web站点的结构优化,提出了基于用户访问路径的K-PathSearch算法.在对网页实施预处理后,结合页面链接参数,建立用户访问事务处理模型,形成有用数据集.提取样本分析用户的兴趣度,主要影响因素体现在访问次序、次数以及停留时间三方面,并利用重新定义的相似度将兴趣取向相类似的用户划分为一类;在此基础上,定义用户访问最长拟合路径,进而计算路径聚类中心.经计算,聚类数和聚类中心平均长度增比显著,表明模型和算法是可行和有效的.  相似文献   

6.
王文博  罗恒利 《计算机科学》2021,48(z2):275-277,302
人脸聚类是根据不同身份对人脸图像进行分组的方法,主要用于人脸标注和图像管理等领域.针对现有方法中存在大量冗余数据的问题,文中使用一种基于完全图约束和上下文关系进行链接预测的方法.该聚类算法基于图卷积神经网络进行链接预测,结合完全图约束筛选数据,同时在预测的过程中对链接关系进行不断的更新.实验结果显示,结合完全图约束的人脸聚类方法能够在减少冗余数据、加快运行速度的同时,提升聚类的准确率,从而提高聚类的整体效果.  相似文献   

7.
陈鹏  邹涛 《计算机系统应用》2015,24(12):243-248
针对被动毫米波(PMMW)图像成像质量差,边界模糊,不易识别的特点,在传统词袋模型图像分类的基础上,提出了利用减法聚类改进FCM聚类算法并将其运用到词袋模型上去,提取视觉单词,利用局部不变量SIFT方法对手枪、匕首和炸药进行了粗分类.实验结果证明,改进的词袋模型能够准确的对违禁品进行分类,识别率平均能达到90%以上,性能优于传统的K均值聚类和原始的FCM聚类算法.  相似文献   

8.
生物信息学(蛋白质结构分析、基因组识别)、社会网络(实体间的联系)、Web分析(Web链接结构分析、Web内容挖掘和Web日志搜索)以及文本信息检索等的迅速发展积累了大量图数据,对于图数据的挖掘逐渐成为研究领域的热点。一些诸如聚类、分类、频繁模式挖掘的传统数据挖掘研究逐渐拓展到图数据领域。通过介绍现阶段图数据挖掘技术的研究进展,总结了图数据挖掘的特点、现实意义、主要问题以及应用场景,讨论并预测了图数据,尤其是不确定图数据研究的发展趋势和热点。  相似文献   

9.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

10.
李波  卢春园  冷成财  金连宝 《自动化学报》2015,41(11):1971-1980
针对传统低秩表示聚类方法存在的稀疏性不足及噪声敏感等问题,提出了一种基于局部图拉普拉斯约束的鲁棒低秩表示聚类模型. 一方面,通过加入图像数据局部相似性的约束,在保持表示矩阵分块对角的特性下,增强了其稀疏性;另一方面,从数据相关性的角度分析了低秩表示模型的聚类性质, 通过采用鲁棒低秩表示模型,不仅降低了噪声的干扰,而且减弱了表示字典数据之间的线性相关性,从理论上保证了最终的邻接矩阵具有分块对角的良好聚类性质. 与传统低秩表示方法相比,本文得到的表示矩阵既保证了分块性质,又更加稀疏,仿真实验结果表明聚类效果有明显提升.  相似文献   

11.
In this paper, we consider the problem of clustering and re-ranking web image search results so as to improve diversity at high ranks. We propose a novel ranking framework, namely cluster-constrained conditional Markov random walk (CCCMRW), which has two key steps: first, cluster images into topics, and then perform Markov random walk in an image graph conditioned on constraints of image cluster information. In order to cluster the retrieval results of web images, a novel graph clustering model is proposed in this paper. We explore the surrounding text to mine the correlations between words and images and therefore the correlations are used to improve clustering results. Two kinds of correlations, namely word to image and word to word correlations, are mainly considered. As a standard text process technique, tf-idf method cannot measure the correlation of word to image directly. Therefore, we propose to combine tf-idf method with a novel feature of word, namely visibility, to infer the word-to-image correlation. By latent Dirichlet allocation model, we define a topic relevance function to compute the weights of word-to-word correlations. Taking word to image correlations as heterogeneous links and word-to-word correlations as homogeneous links, graph clustering algorithms, such as complex graph clustering and spectral co-clustering, are respectively used to cluster images into topics in this paper. In order to perform CCCMRW, a two-layer image graph is constructed with image cluster nodes as upper layer added to a base image graph. Conditioned on the image cluster information from upper layer, Markov random walk is constrained to incline to walk across different image clusters, so as to give high rank scores to images of different topics and therefore gain the diversity. Encouraging clustering and re-ranking outputs on Google image search results are reported in this paper.  相似文献   

12.
13.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

14.
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。  相似文献   

15.
随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。  相似文献   

16.
特征是一切观点挖掘和情感分析任务的关键所在。对于无监督的文本聚类任务,文本特征的优劣直接影响聚类效果。考察三种语义特征(名词、名词短语、语义角色)对主题聚类的作用以及不同特征之间的相容关系,提出一种消除冗余特征的方法。该方法能有效地去除冗余特征,提高聚类精度。同时还提出一种基于语义角色标注的直接定位有效词特征的聚类方法,实验表明该方法是直接的和有效的,并为特征选择方法提供了新思路。  相似文献   

17.
针对脱机手写维吾尔文本行图像中单词切分问题,提出了FCM融合K-means的聚类算法。通过该算法得到单词内距离和单词间距离两种分类。以聚类结果为依据,对文字区域进行合并,得到切分点,再对切分点内的文字进行连通域标注,进行着色处理。以50幅不同的人书写的维吾尔脱机手写文本图像为实验对象,共有536行和4?002个单词,正确切分率达到80.68%。实验结果表明,该方法解决了手写维吾尔文在切分过程中,单词间距离不规律带来的切分困难的问题和一些单词间重叠的问题。同时实现了大篇幅手写文本图像的整体处理。  相似文献   

18.
子话题是对话题的再次划分,是比话题粒度更细的新兴研究方向,子话题的聚类是话题内部演化关系分析的基础。提出了融合内容特征和时间特征的中文新闻子话题聚类方法,重点分析了子话题内容特征的表现规律,研究了子话题特征词的权重计算和降维方法。选取5个话题的18个子话题进行了实验,结果表明,所提方法的性能与已有的子话题聚类方法相比有显著提高。  相似文献   

19.
结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme information clustering coding text summarization)。将传统的抽取式文本摘要方法与基于深度学习的生成式文本摘要方法相结合,使用基于词向量的聚类算法进行主题信息提取,利用余弦相似度计算输入文本与所提取关键信息的主题相关性,将其作为主题编码的权重以修正注意力机制,在序列到序列模型的基础上结合主题信息与注意力机制生成摘要。模型在LCSTS数据集上进行实验,以ROUGE为评价标准,实验结果相对于基线模型在ROUGE-1的得分上提高了1.1,ROUGE-2提高了1.3,ROUGE-L提高了1.1。实验证明结合主题信息聚类编码的摘要模型生成的摘要更切合主题,摘要质量有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号