首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 953 毫秒
1.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

2.
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。  相似文献   

3.
图像聚类是图像处理中一个重要且开放的问题。最近,一些方法利用联合对比学习的良好表征能力来进行端到端聚类学习,利用伪标签技术来生成高质量的伪标签以提升聚类模型的鲁棒性。伪标签方法通常需要设置一个较大的概率阈值,并对满足要求的样本生成one-hot的标签,同时利用生成的标签来更新模型。但是,这种简单的伪标签生成方法难以获得足够数量的高质量伪标签。为了解决以上问题,提出了一种基于分层伪标签的图像聚类方法,它旨在利用结构化信息与伪标签信息对分类模型进行训练和精炼。引入3个假设来指导聚类方法的设计,包括局部平滑假设、自训练假设及低密度分离假设。新方法包含两个阶段:1)基于流形的一致性学习,利用近邻一致性学习来初始化聚类模型;2)基于分层伪标签的模型精炼,基于第一阶段的结果生成伪标签,并利用其来提升聚类模型的鲁棒性。首先,将基于第一阶段的结果生成强伪标签数据集及弱伪标签数据集;然后,提出了基于标签传播及分层混合的伪标签提升技术来提升弱伪标签数据集的质量;最后,同时利用强伪标签数据集及弱伪标签数据集来提升分类模型的泛化能力。相较于最优结果,SPC算法在STL10和Cifar100-20基准数据集上,...  相似文献   

4.
一种基于命名实体的搜索结果聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
针对现有搜索结果聚类方法中形成的聚类标签可读性比较差的情况,提出一种基于命名实体的搜索结果聚类方法——NEC。命名实体作为文本中的基本信息元素,具有一定的实际意义,表征主题的能力比一般词语更强,也更具可读性。算法以搜索结果文档中存在的命名实体作为聚类的标签,经过一定的标签选择和聚类合并策略,形成最终的聚类结果,提高聚类标签的可读性。实验证明,该方法是一种可行的搜索结果聚类方法。  相似文献   

5.
传统方法对各类标签的聚类效果较差,导致模型生成的任务画像字段过短,因此构建基于互联网智能人单合一技术的任务画像算法模型。根据建立的互联网标签与用户标签,采用共现分析法进行标签聚类;基于互联网智能人单合一技术设置画像体系生成任务画像,使用BP神经网络算法建立任务画像算法模型。实验结果表明:与两种传统算法模型相比,此次构建的任务画像算法模型的SC值评价指数更好,标签聚类效果更佳,任务画像生成的数据字段片段可以详细描述员工任务现状。  相似文献   

6.
基于PLSI的标签聚类研究   总被引:1,自引:0,他引:1  
针对现有的大众分类中标签模糊导致影响用户搜索效率的问题, 使用概率潜在语义索引(probabilistic latent semantic indexing, PLSI)模型对标签进行潜在语义分析, 经回火期望最大化(tempered exception maximization, TEM)算法训练得到在潜在语义下的条件概率, 生成概率向量; 在此基础上, 提出凝聚式层次k中心点(hierarchical agglomerative K-mediods, HAK-mediods)聚类算法对概率向量进行聚类, 并进行了相关对比实验。实验结果表明, HAK-mediods算法的聚类效果要好于传统的聚类算法, 从而验证了该算法的可行性和有效性。  相似文献   

7.
为了解决Web数据库多查询结果问题,提出了一种基于改进决策树算法的Web数据库查询结果自动分类方法.该方法在离线阶段分析系统中所有用户的查询历史并聚合语义上相似的查询,根据聚合的查询将原始数据划分成多个元组聚类,每个元组聚类对应一种类型的用户偏好.当查询到来时,基于离线阶段划分的元组聚类,利用改进的决策树算法在查询结果集上自动构建一个带标签的分层分类树,使得用户能够通过检查标签的方式快速选择和定位其所需信息.实验结果表明,提出的分类方法具有较低的搜索代价和较好的分类效果,能够有效地满足不同类型用户的个性化查询需求.  相似文献   

8.
为提高代理模型效率,对数据进行聚类,根据模型构建的需求从聚类结果中选择少量数据训练模型参数,得到一种基于聚类的代理模型构建策略.以该策略构建的代理模型作为近似评价模型,设计一种基于聚类的代理模型辅助粒子群优化算法,提出一种以代理模型辅助迭代搜索作为加速策略的混合变量多目标进化算法.数值实验结果表明,基于聚类的代理模型构建策略具有时间复杂度低、模型构造效率高的优点,模型辅助的迭代搜索过程具有较好的全局探索和局部开发能力.  相似文献   

9.
针对传统Mashup服务推荐算法在关键字聚合搜索和网络构建等方式中计算复杂度过高的问题,提出一种基于语义标签的植入引导式层次聚类Mashup服务推荐算法。首先,为提高聚类算法的收敛精度,提高算法运行效率来满足大型数据搜索对算法简化的需求,采用数据预处理和植入易于获取具有代表性的样本数据对聚类进行引导,防止层次聚类算法顶层集分类失败导致的算法聚类失败。其次,利用改进的聚类算法结合实际的Mashup服务数据库,设计了植入引导式层次聚类Mashup服务推荐算法。最后,通过通过仿真对比表明,基于语义的植入式半监督层次聚类Mashup服务推荐算法的精度要好于对比算法,验证所提算法的有效性。  相似文献   

10.
一种层次化的检索结果聚类方法   总被引:3,自引:1,他引:2  
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高.  相似文献   

11.
FLICM算法是一种基于FCM框架的有效的分割方法。然而,它对于强噪声图像的分割仍然不够准确。本文使用MRF模型的局部先验概率,对FLICM算法从两方面进行了改进。首先,在计算模糊因子时,使用先验概率对距离函数进行加权。改进的模糊因子考虑了更大范围的邻域约束,从而使算法受噪声的影响程度减弱。其次,在分割阶段,进一步使用局部先验概率对FLICM算法的隶属度进行加权。使用改进后的隶属度进行标记判决,使得每一标记的确定需要考虑邻域标记的影响,使分割结果的区域性更好。利用新算法对模拟影像和真实影像进行了分割实验,并与几个考虑空间信息约束的FCM分割算法进行了对比分析,结果证明该算法具有更强的抗噪性能。  相似文献   

12.
针对并行密度聚类算法在处理大数据集时存在伸缩困难、参数寻优能力不佳、并行化效率较低等问题,提出一种基于分组和重力搜索优化算法(improve gravitational search algorithm,IGSA)的并行密度聚类算法(densi-ty-based clustering algorithm based on groups and improve gravitational search,MR-GDBIGS).首先,该算法设计了基于图形的分组策略(grouping strategy based on pattern,GSP)来有效划分数据,加速邻域搜索,解决了处理大数据集时伸缩困难的问题;其次,在局部聚类中提出基于位置更新函数(position update function,PUF)的重力搜索优化算法,动态寻找局部聚类中的最优参数,提升了局部聚类的效果;最后,提出基于覆盖树的并行局部簇合并策略(cluster merging strategy by using MapReduce,MR-CTMC),在实现局部簇并行化合并的同时加快了合并局部簇的收敛速度,提升了算法整体的并行化效率.实验结果表明,MR-GDBIGS算法在处理大数据时的聚类效果更佳,且并行化性能更好.  相似文献   

13.
为解决选定特征上的聚类问题和模糊C-均值聚类存在的初始值敏感、易陷入局部最优的问题,提出了一种基于改进萤火虫算法的模糊软子空间聚类方法。该方法在模糊C-均值聚类算法的基础上,采用基于数据可靠性的k-均值算法中特征权值的计算方法,并结合萤火虫算法的全局搜索能力对所有的特征子空间进行搜索;设计了一种目标函数来对聚类结果和子空间所包含的特征维进行评估,并利用目标函数改进了萤火虫算法的搜索公式。实验结果表明,该方法能有效地收敛于全局最优解,具有良好的聚类效果和抗噪性。  相似文献   

14.
聚类可以看成是寻找K个最佳聚类中心的过程。文中把一组聚类中心视为一个粒子(P),把各个数据到各自聚类中心的欧式距离之和看成优化函数(f(P)),使用带混沌搜索的粒子群聚类算法(C-PSO)算法寻找最优函数值,从而找到最佳聚类中心。该算法改进了粒子速度的初始化,把混沌搜索嵌入到粒子群的搜索过程中,提高了粒子群的搜索能力。实验结果表明,该算法的聚类效果明显好于K-means和PSO聚类。  相似文献   

15.
针对半监督聚类算法性能受到成对约束数量多寡的限制问题,现有的研究大都依赖于原始成对约束的数量。因此,首先提出了基于灰关联分析的成对约束初始化算法(initialization algorithm of pair constraints based on grey relational analysis,PCIG)。该算法通过均衡接近度计算数据对象间的相似度,并根据相似度的取值来确定可信区间,然后借鉴网络结构初始化方法来扩充数据对象间的成对关系。最后,将其应用于标签传播聚类算法。通过在五个基准数据集上进行实验,基于改进成对约束扩充的标签传播聚类算法与其他方法相比NMI值和ARI值有所提升。实验结果证明了改进成对约束扩充可以有效改善标签传播算法的聚类效果。  相似文献   

16.
为改善K均值聚类存在的对初始聚心敏感、全局搜索能力弱和凭经验确定聚类数等不足,提出一种基于GSA算法的改进K均值聚类。采用粒子编码策略,把聚类中心集合视作种群粒子,引入GSA搜索聚类质量最好的初始聚类中心,设均方误差为适应度函数,引导全局搜索方向,设置种群成熟度因子避免算法陷入局部最优,引入聚类质量评价指标获取最佳聚类数。通过在4种UCI数据集上做仿真测试,验证了改进后K均值聚类具有较高的正确率和更好的稳定性。  相似文献   

17.
李书玲  刘蓉  刘红 《计算机科学》2015,42(4):316-320
针对已有的RBF神经网络多标签算法未充分考虑多个样本标签之间的关联性,从而导致泛化性能受到一定影响的问题,研究分析了一种改进型RBF神经网络的多标签算法.该算法首先优化隐含层RBF神经网络基函数中心求取算法——k-均值聚类.采用AP聚类自动寻找k值以获得隐含层节点数目,并构造Huff man树来选取初始聚类中心以防k-均值聚类结果陷入局部最优.然后构造体现标签类之间信息的标签计数向量C,并将其与由优化k-均值聚类得到的聚类中心进行线性叠乘,进而改进RBF神经网络基函数中心,建立RBF神经网络.在公共多标签数据集emotion上的实验表明了该算法能够有效地进行多标签分类.  相似文献   

18.
为提高图像分割的抗噪鲁棒性并解决分割数目的自适应确定问题,通过在聚类标签先验概率的折棍构造过程中建立Markov随机场,将空间相关性约束引入Dirichlet过程混合模型的概率建模,使聚类的空间平滑性得以增强,并采用变分推断方法获得聚类标签的收敛解析解,提出一种基于折棍变分贝叶斯推断的图像分割算法,实现了对像素聚类标签和分割数目的同步自适应学习,避免了传统方法中因引入空间相关性约束而出现的计算复杂问题.基于Berkeley BSD500图像测试数据集的数值实验结果表明,该算法具有比现有的混合模型聚类图像分割算法更高的PRI值,且在低于0.1的噪声方差条件下表现出了更优的抗噪鲁棒性.  相似文献   

19.
针对电力公司海量数据分类问题,提出一种改进的k-means数据分类方法。在k-means算法的基础上,应用PCA对k-means算法进行降维处理,用canopy算法优化最佳簇集数、初始聚类中心。然后,应用改进的k-means算法对居民用户用电进行聚类;最后以该聚类结果为基础,建立LSTM预测模型。通过LSTM预测模型对某小区90户居民用电数据进行仿真实验,并对比分析了传统聚类、改进聚类和不适用聚类下LSTM三种模型的预测结果。结果表明,未使用任何聚类算法构建的LSTM模型在进行电力负荷预测时,预测结果的精度最低;应用改进的k-means算法构建的LSTM模型预测结果精度最佳。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号