首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 30 毫秒
1.
微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先使用Skip-gram模型在大规模数据集上训练得到词向量;然后通过提取关键词建立初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪的性能。  相似文献   

2.
陈鑫  王素格  廖健 《计算机应用》2016,36(2):424-427
针对微博中新情感词的识别问题,提出了一种基于词语相关度的微博新情感词自动识别方法。首先,对于分词软件把一个新词错分成几个词的问题,利用组合思想将相邻词进行合并作为新词的候选词;其次,为了充分利用词语上下文的语义信息,采用神经网络训练语料获得候选新词的空间表示向量;最后,利用已有的情感词典作为指导,融合基于词表集合的关联度排序和最大关联度排序算法,在候选词上筛选,获得最终的情感新词。在COAE2014(第六届中文倾向性分析评测)任务3语料上,提出的融合算法与点互信息(PMI)、增强互信息(EMI)、多词表达距离(MED)、新词语概率(NWP)以及基于词向量的新词识别方法相比,准确率至少提高了22%,说明该方法自动识别微博新情感词效果优于其他五种方法。  相似文献   

3.
大多数研究者对微博倾向性分析过多关注的是情感词、形容词和否定词,忽略了 关联词对其情感倾向的影响。为了提高微博情感倾向性分析的准确率,提出了融合关联词的微博倾向性分析方法,考虑微博文本中形容词、程度副词以及关联词之间的组合关系。 本文充分考虑了关联词的结构特点并在已有词典的基础上构建专门用于微博倾向性分析的微博词典、否定词词典和关联词词典,同时考虑到网络新词对微博倾向性的影响,还构建 了一个全新的网络新词词典。借助支持向量机(Support vector machine,SVM)将微博文本分为负向、正向和中性3 类,通过结合情感词典和SVM的方法提高微博文本倾向性分析的准确率。通过对COASE 2014 数据实验可以表明,本文方法对微博倾向性分析取得了较好的效果。  相似文献   

4.
文本情感倾向性分析是自然语言处理研究领域的一个基础问题。基于深度学习的模型是处理此问题的常用模型。而当前的多数深度学习模型在中文文本情感倾向性分析方面的应用存在两个问题: 一是未能充分考虑到文本的层次化结构对情感倾向性判定的重要作用,二是传统的分词技术在处理文本时会产生歧义。该文针对这些问题基于卷积神经网络与层次化注意力网络的优点提出了一种深度学习模型C-HAN(Convolutional Neural Network-based and Hierarchical Attention Network-based Chinese Sentiment Classification Model),先用并行化卷积层学习词向量间的联系与组合形式,再将其结果输入到基本单元为双向循环神经网络的层次化注意力网络中判定情感倾向。实验表明: 模型在中文评论数据集上倾向性分类准确率达到92.34%,和现有多个情感分析模型相比有所提升;此外,对于中文文本,选择使用字级别词向量作为原始特征会优于词级别词向量作为原始特征。  相似文献   

5.
通过结合情感词库和微博语义特征,采用向量空间模型的方法表示微博文本,提出一种融合模式匹配和机器学习的微博文本倾向性分析方法。对分词之后的微博文本,先提取出情感关键词,再匹配分析出的几种模式抽取情感评价短句,情感短句和微博表情符号等其它情感特征共同组成情感特征序列,最后采用多步分类的支持向量机方法得到微博文本的情感倾向。通过实验与其它评测结果进行对比,表明本文方法有效。  相似文献   

6.
针对学生在新浪微博文本中所表现出来的抑郁情感倾向,提出了一种识别抑郁情感倾向的模型. 通过在本校广泛发动学生在线填写抑郁自评量表,获得学生的量表得分. 采集学生的微博文本,并请本校心理学老师对微博进行人工标注. 在预处理阶段,利用抑郁情感词典重新组合在分词阶段被拆分的抑郁情感词,以提高识别正确率. 然后基于支持向量机构建一个情感分类器对微博数据进行训练,经过不断的学习反馈,获得较好的分类效果;最后,定义了抑郁指数来衡量个体在一段时间内的抑郁倾向程度. 实验结果表明,抑郁指数衡量的抑郁程度大致与量表结果吻合,该方法识别准确率达到82.35%.  相似文献   

7.
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率.  相似文献   

8.
Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可视化输出。实验中进一步针对CBOW模型与Skip-gram模型,这两种Word2vec中的重要模型进行对比研究,输出结果表明:在通过大语料训练中文词向量时,Skip-gram模型在新词识别上具有明显优势,综合模型准确性与时间性能来说,总体可靠性更优。  相似文献   

9.
微博情感倾向性分析旨在发现用户对热点事件的观点态度。由于微博噪声大、新词多、缩写频繁、有自己的固定搭配、上下文信息有限等原因,微博情感倾向性分析是一项有挑战性的工作。该文主要探讨利用卷积神经网络进行微博情感倾向性分析的可行性,分别将字级别词向量和词级别词向量作为原始特征,采用卷积神经网络来发现任务中的特征,在COAE2014任务4的语料上进行了实验。实验结果表明,利用字级别词向量及词级别词向量的卷积神经网络分别取得了95.42%的准确率和94.65%的准确率。由此可见对于中文微博语料而言,利用卷积神经网络进行微博情感倾向性分析是有效的,且使用字级别的词向量作为原始特征会好于使用词级别的词向量作为原始特征。  相似文献   

10.
针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解决微博短文本特征稀疏、高维度问题,同时,能够解决文本语义信息丢失问题;采用改进的Canopy算法对文本进行模糊聚类;对相同Canopy内的数据用K-means算法做精确聚类。实验结果表明,该方法与经典Single-Pass聚类算法相比,话题发现综合指标提高4%,证明了所提方法的有效性和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号