期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴飞韩亚洪庄越挺邵健《计算机系统应用》2010,19(7):1561-1575

为了实现Web图像检索结果的聚类,提出了一种Web图像的图聚类方法.首先定义了两种类型关联:单词与图像结点之间的异构链接以及单词结点之间的同构链接.为了克服传统的TF-IDF方法不能直接反映单词与图像之间的语义关联局限性,提出并定义了单词可见度(visibility)这一属性,并将其集成到传统的tf-idf模型中以挖掘单词-图像之间关联的权重.根据LDA(latent Dirichlet allocation)模型,单词-单词之间关联权重通过一个定义的主题相关度函数来计算.最后,应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型上引入两种相关性关联的有效性,达到了改进了Web图像聚类性能的目的. 相似文献

2.

基于动态子空间距离的图像聚类

方晨王智慧周向东周皓峰汪卫施伯乐《计算机研究与发展》2006,43(Z3)

聚类分析作为一种重要的非指导学习方法,在多媒体数据管理中得到越来越多的应用,如对图像进行聚类预处理,有助于发现图像之间的语义相似性、减少检索代价等.但是,由于图像语义与视觉特征之间的差异,使得图像聚类的效果还有待进一步提高.聚类分析中,图像通常用高维特征向量表示,显然,在描述图像的相似性方面,各个维所代表的视觉特征的重要性是不一样的,甚至彼此矛盾.传统方法通过权重调整或降维并不能很好地解决上述问题.提出一种新的动态子空间距离计算公式(DSDF),根据任意两幅图像之间关联比较密切的维度,计算出图像之间的相似子空间距离,并利用Clarans聚类算法进行图像子空间聚类.实验表明,该方法在图像聚类效果上明显优于传统聚类方法. 相似文献

3.

基于句子级最大频繁单词集的Web文档聚类研究

路松峰陈云开袁莉《计算机科学》2007,34(7):154-157

Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。相似文献

4.

一种高效的属性图聚类方法 总被引：1，自引：0，他引：1

吴烨钟志农熊伟陈荦景宁《计算机学报》2013,36(8):1704-1713

图是描述现实世界各类复杂系统的一种普适模型,且许多实际应用中的图是大规模的.图的聚类是理解、分析和可视化大规模图的关键技术之一.现实世界的图往往包含丰富的属性信息,如何综合结构和属性信息进行属性图的聚类是一个新的挑战.大多数的现有方法或者将结构和属性转化为距离,基于传统方法进行聚类;或者只考虑某一方面聚类.文中结合信息论中最小长度原则,基于遗传算法,提出一种高效的属性图聚类方法GA-AGC.通过对属性图聚类问题建模,转化为最小描述长度原则问题;扩展标签传播方法作为遗传算法初始化方法,结合编码减小的局部变异方法,提出一种解决属性图聚类的遗传算法.文中方法无需设定聚类的数目,算法复杂度近似线性于结点和边的数目.真实数据集上的实验验证了算法的有效性和高效性. 相似文献

5.

基于路径聚类的页面访问次序的挖掘 总被引：1，自引：0，他引：1

张春娜李轶然《计算机工程与设计》2013,34(1):303-306,313

为了发现用户的行为模式以实现Web站点的结构优化,提出了基于用户访问路径的K-PathSearch算法.在对网页实施预处理后,结合页面链接参数,建立用户访问事务处理模型,形成有用数据集.提取样本分析用户的兴趣度,主要影响因素体现在访问次序、次数以及停留时间三方面,并利用重新定义的相似度将兴趣取向相类似的用户划分为一类;在此基础上,定义用户访问最长拟合路径,进而计算路径聚类中心.经计算,聚类数和聚类中心平均长度增比显著,表明模型和算法是可行和有效的. 相似文献

6.

基于图卷积神经网络的完全图人脸聚类

王文博罗恒利《计算机科学》2021,48(z2):275-277,302

人脸聚类是根据不同身份对人脸图像进行分组的方法,主要用于人脸标注和图像管理等领域.针对现有方法中存在大量冗余数据的问题,文中使用一种基于完全图约束和上下文关系进行链接预测的方法.该聚类算法基于图卷积神经网络进行链接预测,结合完全图约束筛选数据,同时在预测的过程中对链接关系进行不断的更新.实验结果显示,结合完全图约束的人脸聚类方法能够在减少冗余数据、加快运行速度的同时,提升聚类的准确率,从而提高聚类的整体效果. 相似文献

7.

基于改进FCM聚类算法的违禁品分类

陈鹏邹涛《计算机系统应用》2015,24(12):243-248

针对被动毫米波(PMMW)图像成像质量差,边界模糊,不易识别的特点,在传统词袋模型图像分类的基础上,提出了利用减法聚类改进FCM聚类算法并将其运用到词袋模型上去,提取视觉单词,利用局部不变量SIFT方法对手枪、匕首和炸药进行了粗分类.实验结果证明,改进的词袋模型能够准确的对违禁品进行分类,识别率平均能达到90%以上,性能优于传统的K均值聚类和原始的FCM聚类算法. 相似文献

8.

图数据挖掘技术的研究与进展

丁悦张阳李战怀王勇《计算机应用》2012,32(1):182-190

生物信息学(蛋白质结构分析、基因组识别)、社会网络(实体间的联系)、Web分析(Web链接结构分析、Web内容挖掘和Web日志搜索)以及文本信息检索等的迅速发展积累了大量图数据,对于图数据的挖掘逐渐成为研究领域的热点。一些诸如聚类、分类、频繁模式挖掘的传统数据挖掘研究逐渐拓展到图数据领域。通过介绍现阶段图数据挖掘技术的研究进展,总结了图数据挖掘的特点、现实意义、主要问题以及应用场景,讨论并预测了图数据,尤其是不确定图数据研究的发展趋势和热点。相似文献

9.

一种基于图划分的混合属性数据聚类算法

《计算机应用与软件》2013,(7)

实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。相似文献

10.

基于局部图拉普拉斯约束的鲁棒低秩表示聚类方法

李波卢春园冷成财金连宝《自动化学报》2015,41(11):1971-1980

针对传统低秩表示聚类方法存在的稀疏性不足及噪声敏感等问题,提出了一种基于局部图拉普拉斯约束的鲁棒低秩表示聚类模型. 一方面,通过加入图像数据局部相似性的约束,在保持表示矩阵分块对角的特性下,增强了其稀疏性;另一方面,从数据相关性的角度分析了低秩表示模型的聚类性质, 通过采用鲁棒低秩表示模型,不仅降低了噪声的干扰,而且减弱了表示字典数据之间的线性相关性,从理论上保证了最终的邻接矩阵具有分块对角的良好聚类性质. 与传统低秩表示方法相比,本文得到的表示矩阵既保证了分块性质,又更加稀疏,仿真实验结果表明聚类效果有明显提升. 相似文献

11.

Graph-based clustering and ranking for diversified image search

Yan?Yan Gaowen?Liu Sen?Wang Jian?Zhang Email author Kai?Zheng 《Multimedia Systems》2017,23(1):41-52

In this paper, we consider the problem of clustering and re-ranking web image search results so as to improve diversity at high ranks. We propose a novel ranking framework, namely cluster-constrained conditional Markov random walk (CCCMRW), which has two key steps: first, cluster images into topics, and then perform Markov random walk in an image graph conditioned on constraints of image cluster information. In order to cluster the retrieval results of web images, a novel graph clustering model is proposed in this paper. We explore the surrounding text to mine the correlations between words and images and therefore the correlations are used to improve clustering results. Two kinds of correlations, namely word to image and word to word correlations, are mainly considered. As a standard text process technique, tf-idf method cannot measure the correlation of word to image directly. Therefore, we propose to combine tf-idf method with a novel feature of word, namely visibility, to infer the word-to-image correlation. By latent Dirichlet allocation model, we define a topic relevance function to compute the weights of word-to-word correlations. Taking word to image correlations as heterogeneous links and word-to-word correlations as homogeneous links, graph clustering algorithms, such as complex graph clustering and spectral co-clustering, are respectively used to cluster images into topics in this paper. In order to perform CCCMRW, a two-layer image graph is constructed with image cluster nodes as upper layer added to a base image graph. Conditioned on the image cluster information from upper layer, Markov random walk is constrained to incline to walk across different image clusters, so as to give high rank scores to images of different topics and therefore gain the diversity. Encouraging clustering and re-ranking outputs on Google image search results are reported in this paper. 相似文献

12.

Multiple Hypergraph Clustering of Web Images by MiningWord2Image Correlations

下载免费PDF全文

Fei Wu Ya-Hong Han Yue-Ting Zhuang 《计算机科学技术学报》2010,25(4):750-760

相似文献

13.

基于多语义因子分层聚类的文本特征提取方法

王靖《计算机应用研究》2020,37(10):2951-2955,2960

针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。相似文献

14.

面向微博热点事件的话题检测及表述方法研究

周炜翔张仰森张良《计算机应用研究》2019,36(12)

针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。相似文献

15.

基于词向量语义聚类的微博热点挖掘方法

刘培磊唐晋韬王挺谢松县岳大鹏刘海池《计算机工程与科学》2018,40(2):313-319

随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。相似文献

16.

使用多元语义特征的评论文本主题聚类

下载免费PDF全文

李亚红王素格李德玉《计算机工程与应用》2013,49(2):188-193

特征是一切观点挖掘和情感分析任务的关键所在。对于无监督的文本聚类任务,文本特征的优劣直接影响聚类效果。考察三种语义特征（名词、名词短语、语义角色）对主题聚类的作用以及不同特征之间的相容关系,提出一种消除冗余特征的方法。该方法能有效地去除冗余特征,提高聚类精度。同时还提出一种基于语义角色标注的直接定位有效词特征的聚类方法,实验表明该方法是直接的和有效的,并为特征选择方法提供了新思路。相似文献

17.

脱机手写维吾尔文本图像单词切分

下载免费PDF全文

阿依萨代提·阿卜力孜加合买提·司马义卡米力·木依丁艾斯卡尔·艾木都拉《计算机工程与应用》2018,54(9):133-138

针对脱机手写维吾尔文本行图像中单词切分问题,提出了FCM融合K-means的聚类算法。通过该算法得到单词内距离和单词间距离两种分类。以聚类结果为依据,对文字区域进行合并,得到切分点,再对切分点内的文字进行连通域标注,进行着色处理。以50幅不同的人书写的维吾尔脱机手写文本图像为实验对象,共有536行和4?002个单词,正确切分率达到80.68%。实验结果表明,该方法解决了手写维吾尔文在切分过程中,单词间距离不规律带来的切分困难的问题和一些单词间重叠的问题。同时实现了大篇幅手写文本图像的整体处理。相似文献

18.

融合内容与时间特征的中文新闻子话题聚类

仲兆满李存华戴红伟刘宗田《计算机科学与探索》2013,(4)

子话题是对话题的再次划分,是比话题粒度更细的新兴研究方向,子话题的聚类是话题内部演化关系分析的基础。提出了融合内容特征和时间特征的中文新闻子话题聚类方法,重点分析了子话题内容特征的表现规律,研究了子话题特征词的权重计算和降维方法。选取5个话题的18个子话题进行了实验,结果表明,所提方法的性能与已有的子话题聚类方法相比有显著提高。相似文献

19.

结合主题信息聚类编码的文本摘要模型

魏媛媛倪建成高峰吴俊清《计算机技术与发展》2021,(1)

结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme information clustering coding text summarization)。将传统的抽取式文本摘要方法与基于深度学习的生成式文本摘要方法相结合,使用基于词向量的聚类算法进行主题信息提取,利用余弦相似度计算输入文本与所提取关键信息的主题相关性,将其作为主题编码的权重以修正注意力机制,在序列到序列模型的基础上结合主题信息与注意力机制生成摘要。模型在LCSTS数据集上进行实验,以ROUGE为评价标准,实验结果相对于基线模型在ROUGE-1的得分上提高了1.1,ROUGE-2提高了1.3,ROUGE-L提高了1.1。实验证明结合主题信息聚类编码的摘要模型生成的摘要更切合主题,摘要质量有所提高。相似文献