共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
3.
4.
目前多数基于文本聚类搜索引擎的研究对于聚类产生的小聚类簇查询未能给出深入查询解决方案,针对此类问题提出了一种基于聚类的查询扩展算法。此算法利用簇关系树结构改进相似度公式,对目标簇提取主题词并进行二次查询后,通过K中值聚类算法对查询结果进行聚类以对其进行扩展。此算法全部过程均为离线运算,旨在避免在线运算影响查询响应效率,并通过实验验证了该算法的有效性。 相似文献
5.
6.
在优化文本文件问题的研究中,为了提高文本聚类的准确率,得到更高质量的聚类结果,在深入研究K-means算法的基础上,提出了一种改进的K-means聚类算法,并将算法应用于文本聚类仿真系统中。该算法可以自动计算聚类结果中簇的个数,消除了孤立点对聚类结果的影响,为建立文本聚类系统提供了先决条件。在文本聚类仿真实验中,对数据集进行了多次测试,测试结果表明基于改进K-means算法的文本聚类系统具有更好的聚类特性,取得了良好的应用效果。 相似文献
7.
将查询结果根据其内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词汇图的搜索结果聚类算法,以词作为聚类的核心依据,定义了以词为顶点、文档为词的属性、词间相关度为边的词汇图,并以词汇图为依据进行文档类别划分.充分利用了词间的关联信息,增强了同义词的扩展能力,划分后即可确定类别名.实验结果表明,进行搜索结果聚类时与传统算法相比质量上有所提高. 相似文献
8.
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。 相似文献
9.
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注特征范围,再进行网页相似度比较,最大限度地消除冗余网页,并根据网页的候选关键字提供分类,从而提高搜索结果的精准性和满意度,达到更智能的效果。 相似文献
10.
11.
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持. 相似文献
12.
13.
14.
陈丽萍 《数字社区&智能家居》2009,(29)
迅速发展的Web给传统的搜索引擎带来了前所未有的挑战,面向特定主题或特定领域采集相关信息的垂直搜索引擎应运而生。在垂直搜索引擎中,网络蜘蛛的爬行策略和主题相关性判定算法是其核心。该文详细介绍了一种主题相关性判定算法-Hits算法,并在此基础上提出了一个改进的主题相关性判定算法,实验表明,改进的Hits算法提高了爬取网页的主题相关度,有助于网络蜘蛛爬取特定主题的信息。 相似文献
15.
针对传统的Single-Pass聚类算法对数据输入顺序过于敏感和准确率较低的问题,提出一种以子话题为粒度,考虑新闻文本动态性、时效性和上下文语义特征的增量文本聚类算法(SP-HTD).首先通过解析LDA2Vec主题模型,联合训练文档向量和词向量,获得上下文向量,充分挖掘文本的语义特征及重要性关系.然后在SinglePass算法基础上,根据提取到的热点主题特征词,划分子话题,并设置时间阈值,来确认类簇中心的时效性,将挖掘的语义特征和任务相结合,动态更新类簇中心.最后以时间特性为辅,更新话题质心向量,提高文本相似度计算的准确性.结果表明,所提方法的F值最高可达89.3%,且在保证聚类精度的前提下,在漏检率和误检率上较传统算法有明显改善,能够有效提高话题检测的准确性. 相似文献
16.
17.
针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中文的处理效果。最后对算法的分类效果及产生标签的质量进了实验分析,基于carrot2框架,建立了Wcb搜索结果聚类推荐平台。验证了CQIG算法分类的准确性和聚类标签的区分性和可读性。 相似文献
18.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。 相似文献