首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。  相似文献   

2.
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。  相似文献   

3.
针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同  相似文献   

4.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。  相似文献   

5.
提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.  相似文献   

6.
基于潜在语义分析的文档检索设计方法   总被引:1,自引:0,他引:1  
文档检索系统围绕如何基于语义层面进行检索来展开研究.基于关键词匹配的检索系统不能处理多词一义的情况,针对此问题设计了基于潜在语义分析的文档检索系统.首先改进了文档一词矩阵单元值的计算过程,调整了传统高频词与低频词在权重上的线性关系,利用Sigmiod函数对权重做平滑处理,使其更符合文档中词的权重;其次利用潜在语义分析结合多维尺度分析算法,优化计算文档在语义间的距离.实验结果显示,能有效在语义上聚类文档,完成查询语句与文档集之间的相似度检索计算.  相似文献   

7.
针对谱聚类算法相似度函数设置困难问题,提出了一种使用证据累积的文本聚类谱算法.该算法使用超球K均值算法对文本集进行多次聚类,并将每次得到的划分结果作为判断2个文本是否应该放在一个簇中的证据,由此构建文本的相似度矩阵和正则化拉普拉斯矩阵.在TREC和Reuters文本集上进行了实验,验证了本文算法的有效性,它比层次聚类算法和CLUTO提供的K均值算法更加优越.  相似文献   

8.
随着语义网数据的迅猛增长,RDF大数据存储成为数据存储领域研究的热点问题,而分布式存储是解决RDF大数据可扩展性的一种有效途径,数据分割则是实现分布式存储的关键。利用图聚类思想实现RDF数据的有效分割,基于RDF数据模型的图特性,首先利用PRank节点相似度算法计算RDF图结点间的相似度,然后使用AP聚类算法对相似度矩阵进行聚类,进而实现RDF数据的分割和分布式存储。实验结果表明:该方法能有效完成RDF数据的聚类分割,使得聚类结果中类间相似度较小,而类内相似度较大。  相似文献   

9.
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。  相似文献   

10.
基于文本写作常采用一个意思由多个不同写法的单词来表述,研究词义文本分类法被用来替代使用关键词分类算法以提高分类准确率.分析wordNet内Synset架构,认为一个兼顾词义以及词义间关系的词义文本分类系统可应用到网页分类中.该系统同时注意到固定的文本类别结构以及结构内不断增长的文件数目间的区别,加入了基于类别信息聚类方法的类别拓展的功能.仿真实验证明,该分类系统与现有的基于语义的分类系统相比,在分类准确度性能上能提高13%.基于类别信息类聚的文本拓展功能与采用基于相似度的类聚方法的系统相比获得了一个质量更高的新增类别.  相似文献   

11.
针对传统聚类算法在对复杂密集型数据集聚类时不能取得较好聚类结果的问题,利用进化聚类算法对复杂密集型数据集进行聚类,提出一种基于蚁群系统的聚类算法(clustering algorithm based on ant colony system,CAACS),利用蚂蚁在行进路径中释放信息素且追求浓信息素的原理来实现蚂蚁的随机搜索,并引入近邻函数值的概念来确定样本数据之间的相似性,通过蚂蚁在行走过程中不断建立样本数据之间的最相似连接来形成各个子连通图,各个子连通图中的样本数据构成一个类。实验采用随机产生的不规则数据集以及一系列合成的数据集将CAACS算法与DBSCAN算法(density-based spatial clustering of application with noise)及面向非规则非致密空间分布数据的蚁群聚类方法进行比较。实验结果表明CAACS算法对复杂密集型数据集能达到较好的聚类结果。  相似文献   

12.
针对认知无线电网络(CRN)中可用信道实时变化的特点,运用图形理论提出一种基于相似性的自适应分簇(CBAC)算法. 以用户可用信道的相似性为基础,结合考虑用户的移动性,通过计算节点权值实现CRN的优化分簇. 仿真分析证明,CBAC算法提高了系统的链路平均可用信道数,相比传统的分簇算法,能提高频谱的利用效率.  相似文献   

13.
Data mining is the process of data selection,ex-ploration and building models using vast data stores touncover previously unknown patterns[1].It can makethe decision-making based on the knowledge,by fore-casting the unborn development tendency and action.…  相似文献   

14.
针对目前谱聚类算法的相似图包含较多错误社区信息的问题,引入了概率矩阵的概念,提出了一种改进的谱聚类社区发现算法。该算法首先利用马尔可夫过程计算节点间的转移概率,并基于转移概率构建复杂网络的概率矩阵;然后以均值概率矩阵重新构造相似图;最后通过优化归一化切割函数实现社区划分。采用人工网络和现实网络与其他典型算法进行对比实验,实验结果表明,该算法能够更加精准地划分社区,具有更加良好的聚类性能。  相似文献   

15.
轨迹聚类算法可以广泛地应用在交通管理中,利用轨迹聚类算法找出车辆轨迹热点区域对交通部门规划管理交通出行有重要指导意义。目前的轨迹聚类算法多以空间相似性进行度量,不能体现不同时间段的轨迹热点区域划分情况。针对上述问题,该文结合时间因素,提出了一种时空轨迹的热点区域提取算法。首先,对传统的密度峰值聚类算法进行了改进,考虑了计算密度的线性和非线性部分,改进了密度的计算方法;同时,改进了簇类中心的选取方法,能够自动地选取簇类中心;在此基础上,提出了聚类融合算法,过滤了不合适的聚类和多余聚类;最后利用DB检验量来检测提取效果。实验结果表明,相比于传统的聚类算法,本文算法能更有效地提取时空轨迹的热点区域。  相似文献   

16.
基于图划分的网状高阶异构数据联合聚类算法   总被引:1,自引:0,他引:1  
目前已有的高阶联合聚类算法主要集中于分析星型高阶异构数据,然而实际应用中,存在大量网状高阶异构数据。为了有效挖掘网状高阶异构数据内部隐藏的结构,本文提出一种基于图划分的高阶联合聚类算法(简称为GPHCC),该算法将网状高阶异构数据的聚类问题转化为多对二部图的最小正则割划分问题。为了降低计算复杂度,将此优化问题转化为半正定问题求解。实验结果表明GPHCC算法优于目前已有的5种二阶联合聚类算法和5种高阶联合聚类算法。  相似文献   

17.
针对传统聚类算法难以处理大规模数据和对噪声数据敏感等问题,基于模糊C有序均值聚类算法(FCOM),结合single-pass和online增量架构,分别提出了single-pass模糊C有序均值聚类算法(SPFCOM)和online模糊C有序均值聚类算法(OFCOM).SPFCOM和OFCOM算法首先对FCOM算法加权,然后以数据块为单位对数据集合进行增量式处理.实验结果表明,相较于对比算法,SPFCOM和OFCOM算法在聚类准确率方面得到了提高,还具有更强的鲁棒性.  相似文献   

18.
基于编码器?解码器(encoder-decoder)框架的生成式方法在关键词抽取任务上得到了广泛应用并取得了较好的性能,然而该方法面临的主要挑战为建模有效的文档向量表示,及生成覆盖整个文档主题的关键词集合,这些挑战都会直接影响关键词抽取的结果。该文提出了结合邻域知识的文档级关键词抽取模型以应对这些挑战。具体来说,通过给指定文档添加少量的最近邻样本,原文档被扩展为一个文档集合。基于单词之间的距离将文档集合中的每个文档构建成词图,合并集合中的所有词图形成一个大图,然后利用图卷积网络进行编码。解码端引入了上下文修改机制和覆盖机制,使模型能够生成更加多样化的关键词来覆盖文档包含的所有主题。最后在4种数据集上分别与现有的基准模型进行对比,实验结果表明该方法能够有效提升关键词抽取的性能。  相似文献   

19.
自适应谱聚类算法研究   总被引:4,自引:0,他引:4  
谱聚类能识别出在原空间中线性不可分的聚类, 且其效果优于传统聚类算法.谱聚类要想获得好的效果必须选择一个合适的尺度参数,本文在传统谱聚类算法的基础上引入类似核选取的技巧,提出了一个能自动选取该尺度参数的自适应谱聚类算法.将该算法和现有的谱聚类参数选择算法作了比较,在人工数据集和UCI数据集上的实验表明,自适应谱聚类算法在很多情况下优于其它参数选择算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号