首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

2.
针对微博数据文本内容短小、特征词稀疏以及规模庞大的特点,提出了一种基于MapReduce编程模型的发现微博热点话题的方法。该方法首先利用隐主题分析技术解决了微博内容短小、特征词稀疏的问题,然后利用CURE算法缓解了Kmeans算法对初始点敏感的问题,最后采用基于MapReduce编程模型Kmeans聚类算法,对海量微博短文本数据进行快速聚类。实验结果表明该方法可以有效提高微博热点话题发现的效率。  相似文献   

3.
通过分析中文报道的特点,提出了一种改进相似度计算的话题检测算法。该算法以Single-Pass聚类策略为基础,结合新闻报道中的地点信息,分别对新闻报道进行文本内容相似度和地点相似度计算,并将两者结合进行话题检测。实验结果表明,算法性能优于传统的文本相似度算法。  相似文献   

4.
《现代电子技术》2019,(7):177-180
为研究聚类算法在高校学生微博的应用情况,针对K-means算法和分层聚类算法在聚类中心选择不精确的问题,基于高校学生使用微博的背景,对微博文本挖掘应用中聚类算法的应用进行改进。通过文本的矢量表示、文本相似度计算和聚类算法的实现,验证了聚类算法在微博热门话题检测的准确性和效率,并针对实验数据提出几点针对性的措施。  相似文献   

5.
文章提出了一种基于模糊聚类的文本分类器构造方法,介绍了文本中特征词之间模糊相似度的度量方法,给出了利用“编网法”思想实现模糊聚类的算法。通过比较文本中特征词之间的模糊相似度,实现特征词的聚类,最终获取能够识别文本主题类别的特征词集合,并给出了分类器性能的测试结果。  相似文献   

6.
《现代电子技术》2019,(3):122-126
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度。通过对样本文本的分析,计算出适当的聚类数k,再调用LDA算法将文本聚为k类并给出每类文本的关键词。测试结果表明,该系统能将英汉维三种语言的文本相似度高的聚为一类,可显著提高聚类效果。  相似文献   

7.
《现代电子技术》2017,(14):81-84
用户评论中存在产品特征表达多样性问题,在细粒度观点挖掘任务中需要对产品特征词聚类。首先,结合不同的语义相似度计算的特点,提出基于语义知识和上下文熵模型的语义相似度混合计算方法,计算抽取得到的特征词语义相似度;然后改进了传统CBC算法,提出适用于产品特征词聚类的CBC-LIKE方法实现聚类。最后在三个领域的真实评论语料上进行实验,对提出的语义相似度计算方法和聚类算法的性能进行了分析。实验结果表明,所提方法是有效的,与另外两种基线方法相比性能较优,取得了较好效果。  相似文献   

8.
《现代电子技术》2016,(3):115-119
针对微博内容实时性的特点,对话题聚类的Single-Pass算法进行了改进,提出将时间参数添加到微博话题相似度检测方法中,并针对微博转发特性的处理方法给出了算法的处理步骤。仿真实验表明,该算法的优点是逻辑简单、算法执行效率高,通过算法的应用有效提高了基于Web数据挖掘的微博话题检测准确度。  相似文献   

9.
张仰森  段宇翔  王建  吴云芳 《电子学报》2019,47(9):1919-1928
近年来,各领域内频频发生各类突发事件,对社会稳定发展产生了一定程度的影响.本文提出了一种基于多种词特征的微博突发事件检测模型,可以在海量微博数据中对突发事件进行检测,便于相关决策者进行微博监控和舆论引导,尽可能减少突发事件给社会带来的危害.首先根据时间信息对微博数据进行时间切片,对每一个时间窗口内的数据分别计算各个词语的词频特征、话题标签特征和词频增长率特征;然后基于D-S证据理论和层次分析法,确定词的各个特征权重,并进行加权融合得到词的突发特征值,将突发特征值大的词挑选出来构成突发特征词集,构建基于共现度和结合紧密度的突发事件特征词集的耦合度矩阵;最后将该耦合度矩阵作为凝聚式层次聚类算法的输入,生成一棵由突发词为叶子节点的二叉树,并采用内部相似度的二叉树剪枝算法对聚类结果进行划分,即可实现对相应时间窗口突发事件的检测.实验结果表明,基于突发词的事件检测模型在簇内部相似度阈值等于1.1时效果最好,正确率达到0.8462、召回率达到0.8684、F值为0.8571,表明了本文所提方法的有效性.  相似文献   

10.
为了提升微博话题发现效率以及发现质量问题,提出了一种融入公众情感投入分析的微博话题快速发现与细分方法,促使话题演化,进而产生新话题及其情感变化趋势.首先,基于情感词典和TFDF值在历史语料库中挖掘常用情感词并构建情感词库;其次,快速抽取情感文本,结合Sigmoid函数检测情感投入密集期,保证话题事件挖掘的质量;最后,通过改进的模糊C-均值聚类算法在新的微博数据中发现高质量话题.实验结果表明,本文方法能够有效提升移动环境下的话题发现效率及质量.  相似文献   

11.
针对现有微博网络舆情分析的研究中没有从全局层面考虑舆情文本特征的情况,结合微博网络舆情的主题及趋向性分析,提出了基于主题发现的微博网络舆情分析模型,从文本预处理、微博文本特征提取、微博舆情的主题发现及趋向性分析三方面进行了具体描述。仿真结果表明,基于该模型实现的微博网络舆情分析方法在微博网络舆情的分析处理中检测效果良好,说明该模型有效。相关内容可为该领域的进一步研究提供有价值的参考。  相似文献   

12.
徐超  周一民  沈磊 《电子与信息学报》2010,32(11):2695-2700
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能。  相似文献   

13.
一种针对不良主题的文本过滤方法   总被引:1,自引:1,他引:0  
针对不良文本的过滤问题,文章提出了一种基于SVM分类器改进的文本过滤方法。该方法将传统的基于词语的分类方法改为基于词语元组的分类,增强了特征项的分辨率,实验表明该方法同传统的过滤方法相比具有较高的准确率和召回率。  相似文献   

14.
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。  相似文献   

15.
《电子学报:英文版》2017,(6):1111-1117
The accurate classification of subjective and objective sentences is important in the preparation for micro-blog sentiment analysis. Since a single feature type cannot provide enough subjective information for classification, we propose a Support vector machine (SVM)-based classification model for Chinese micro-blogs using multiple features. We extracted the subjective features from the Part of speech (POS) and the dependency relationship between words, and constructed a 3-POS subjective pattern set and a dependency template set. We fused these two types of features and used an SVM-based model to classify Chinese micro-blog text. The experimental results showed that the performance of the classification model improved remarkably when using multiple features.  相似文献   

16.
17.
马慧芳  刘文  李志欣  蔺想红 《电子学报》2019,47(6):1331-1336
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.  相似文献   

18.
本文基于自然语言处理、语义相似度和实体识别等算法,构建了面向网络投诉工单的智能语义自动稽核系统,挖掘回单中自然语言的命名实体、事件和关系,通过特征提取、模型构建、语义泛化、匹配度计算等环节,输出质检所需的语义关键信息,实现对网络投诉工单传统质检方法的智能化提升。同时,设计和实施了一种投诉工单专家规则泛化词构建方法,实现对有限专家规则特征词的补充,提升语义质检的泛化性能。通过与传统关键字匹配算法进行比较,本方法在识别精准度方面效果更优,有效降低运营商投诉工单重派率,提升了客户满意度。  相似文献   

19.
The traditional short-text classification's accuracy usually highly relies on statistical feature selection. Owing to the fact that short-text has inherent defects such as short length, weak signal and less features. It is hard to avoid noise words when doing feature extension which will highly influence the accuracy of classification. In order to solve the above problem, this paper proposes a semantic dictionary method for short-text classification. The method builds a set of domain dictionary by analyzing the specific characteristics in certain field. As each word's weight in the dictionary is designed according to the correlation between the word and the category, classification accuracy has improved to some extent. Then, in order to enhance dictionary vocabulary coverage, association rules are utilized to automatically extend semantic dictionary. Finally, an experiment based on micro-blog data is conducted which shows that the method has a good effect.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号