共查询到20条相似文献,搜索用时 109 毫秒
1.
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。 相似文献
2.
3.
4.
《计算机应用与软件》2015,(8)
传统的等距特征映射算法在降维时未考虑数据的类别标签,降维后不能够产生从高维到低维的映射矩阵,且不适用于多个类簇的情况,不能直接用于分类。针对这几个问题利用近邻元分析方法取代多维尺度分析法,并且引入特征向量作为输入矩阵,提出一种以分类为目的的等距特征映射算法(NC-ISOMAP)。降维时获取理想的低维投影矩阵,使降维后类间数据更加分开,类内数据更加紧凑。实验结果表明NC-ISOMAP算法能够取得很好的降维效果和分类性能,并在不同的数据集中有着较好的鲁棒性。 相似文献
5.
6.
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法.以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类.利用4种典型文档数据集进行仿真实验,实验结果表明... 相似文献
7.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。 相似文献
8.
文本分类中的特征选取 总被引:21,自引:0,他引:21
研究了文本分类学习中的特征选取,主要集中在大幅度降维的评估函数,因为高维的特征集对分类学习未必全是重要的和有用的。还介绍了分类的一些方法及其特点。 相似文献
9.
信息时代,文本信息极其巨大。本文运用一种改进GHSOM 算法进行文本聚类,该算法具有显著的文本聚类
能力,能够将文本的相似性用多种手段表现。实验结果表明改进GHSOM 算法整体上是优于SOM 算法,它的先进性主要体现
在更短的计算时间,并提供更丰富的有序性表达能力。 相似文献
10.
提出一种新的动态模糊聚类的方法,针对传统的模糊聚类需要预先确定聚类数的问题,提出采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF-IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。该算法同仅用动态自组织映射神经网络算法的运行结果相比,具有运行聚类结果精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性,实验验证了算法的有效性。 相似文献
12.
邵超 《计算机工程与应用》2008,44(21):119-122
ISOMAP算法能否被成功应用依赖于其唯一参数——邻域大小的选取是否合适,然而,如何高效地选取一个合适的邻域大小目前还是一个难题。当邻域大小变得不合适时,短路边将会出现在邻域图中,从而严重破坏与之相关的最短路径距离对测地距离的逼近能力。和非短路边不同,短路边的两个端点虽然在欧氏空间中相距较近,但在流形上却相距甚远。基于短路边的这一特点,采用序来近似度量一条边的两个端点在流形上的远近程度,因而能够递增式地对邻域大小进行合适的选取。和基于残差的参数选取方法不同,该方法只需递增式地运行广度优先搜索算法,而无需就每一个可能的邻域大小分别运行整个ISOMAP算法,从而具有比较高的运行效率。最终的实验结果证实了该方法的可行性。 相似文献
13.
等距特征映射(ISOMAP)算法要求数据位于单一流形之上且具有良好采样,而当数据采样于一个不完整流形时,该算法将会产生“过聚类”问题。为此,提出了一种改进算法--WISOMAP,它采用多维尺度分析(MDS)算法的一个变种--WMDS来降低逼近精度相对较差的多边测地距离在MDS距离保持中的主导作用,使逼近精度相对较好的少边测地距离能够得到更好的保持,从而能在一定程度上缓解“过聚类”问题。实验结果表明WISOMAP算法能更好地对采样于不完整流形的数据进行可视化。 相似文献
14.
Web集群服务器已被广泛用来提高Web服务器的性能。对于如今内容海量级的大型网站来说,如何在Web集群服务器上组织和分布Web文档是一个急需解决的问题。本文提出了一种Web集群服务器中文档组织和分布的优化策略,其目是减少集群系统的平均响应时间。通过对Web服务器日志的分析,挖掘客户的访问模式,将关联度高的网页聚类成网页簇,然后根据网页簇的负载计算其拷贝份数,最后在集群中优化分布各网页簇的拷贝。以这种方法组织和分布文档,可以减少服务器端的TCP连接迁移开销,可以实现集群内的负载均衡,从而减小集群系统的平均响应时间;且相对于内容全镜像的文档分布方案,节约了存储空间,减少了维护各服务器文档一致性的开销。 相似文献
15.
提出一种解决分类任务的等测距映射算法,该算法利用类标签信息指导高维数据的降维.首先根据类标签在属于某个类的数据集上构造类内邻域图;然后寻找类间最短距离相邻边,并将其乘以大于1的尺度变化因子,使得降维后的类内数据更加紧凑、类问数据更加分开;最后利用BP神经网络构建一个近似的从原始高维数据集到低维数据集之间的映射函数,通过遗传算法对BP神经网络的初始权值和阈值进行优化,以避免使用剃度下降算法所带来的局部最优问题.实验结果表明,分类性能有较大提高,并对噪声有一定的鲁棒性. 相似文献
16.
17.
裁判文书自动摘要的目的在于让计算机能够自动选择、抽取和压缩法律文本中的重要信息,从而减轻法律从业者的工作量。目前,大多数基于预训练语言模型的摘要算法对输入文本的长度存在限制,因此无法对长文本进行有效摘要。为此,该文提出了一种新的抽取式摘要算法,利用预训练语言模型生成句子向量,并基于Transformer编码器结构融合包括句子向量、句子位置和句子长度在内的信息,完成句子摘要。实验结果显示,该算法能够有效处理长文本摘要任务。此外,在2020年中国法律智能技术评测(CAIL)摘要数据集上进行测试的结果表明,与基线模型相比,该模型在ROUGE-1、ROUGE-2和ROUGE-L指标上均有显著提升。 相似文献
18.
中文Web文本的特征获取与分类 总被引:16,自引:0,他引:16
已有许多方法用于英文网页的特征抽取,相对而言适合于中文网页的方法还不多。该文设计了一个综合考虑位置,频率和词长3个因素的中文Web文本词权重的计算公式,提出了一种用变长度染色体遗传算法提取Web文本特征的方法。实验表明该方法在降低特征矢量数方面是有效的。 相似文献
19.
文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多,基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点,在抓住了文档的全局特征的同时又能兼顾文档的结构信息,是一种很好的算法。本文在该算法的基础上对相似度算法进行了改进,提出了一种新的面向中文文档的基于句子相似度的文档复制检测算法。本算法充分考虑了中文文档的特点,选择句子作为文档的特征单元,并解决了需要人工设定阈值的问题,提高了检测精度。实验证明,无论是在效率上,还是在准确性上,该算法都是可行的。 相似文献
20.
在研究法律文书书写错误的语言表述特征后,将法律文书中的文本错误分为叙事陈述时的直接错误和行文书写时的隐含错误,并构建一组正则匹配规则和字词识别规则来进行错字错词识别。通过对法律文书语言学特征的研究,提出一种规则与概率统计相结合的方法实现对法律文书的文本校对。实验结果显示,该方法的召回率和准确率均达到80%,具有较好的使用前景。 相似文献