首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
针对中文酒店评论自身特点设计语料特征,将评论高频词赋予权重并扩展基础情感词典;结合扩展基础情感词典和语义规则,计算情感加权值,实现对酒店频率褒贬倾向分析;选取Boson和大连理工情感词典作为基础情感词典进行了试验。试验结果表明,利用本方法进行中文酒店评论情感分析的精准率可达到90%以上,相比基础情感词典,可提高10%,且加入前50个高频词扩展基础情感词典,对精准率有较大提升,之后精准率的提升速度趋于平缓。  相似文献   

2.
针对用户评论文本情感分类过程中缺乏特征词语义分析和数据维度过高的问题,提出了一种基于语义分析的在线评论情感分类方法。利用Word2Vec工具获得词向量,通过词向量运算获取评论文本中的词与情感词典中的词之间的语义相似度,然后根据此相似度的大小选择反映正面或负面情感的词作为评论文本的关键特征。通过非负矩阵分解算法,将原始评论文本映射到一个低维的语义空间,降低评论数据维度,增强评论文本之间的语义相关度。实验表明,提出的算法具有更好的文本情感分类能力。  相似文献   

3.
神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减代数运算则是计算机在“遣词造句”. 近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集. 首先,重点介绍Word2vec的核心架构CBOW及Skip-gram; 接着,使用英文语料训练Word2vec模型,对比两种架构的异同; 最后,探讨了Word2vec模型在中文语料处理中的应用.  相似文献   

4.
针对释义识别任务如何学习上下文语义的问题,提出了利用词向量来表示句子语义距离的模型。首先,利用word2vec训练大规模的词向量模型,把词的语义信息利用向量分布式表示;然后通过欧氏距离来计算句子间词的移动开销;最后基于EMD模型实现了从词语义距离到句子语义距离的建模,通过采用句子变换矩阵来实现句子间语义距离的度量,进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015 PIT任务,与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较,提出的模型采用有监督实验时, 值非常接近实验基线,而采用无监督方法实验时, 值提高了5.8%。  相似文献   

5.
跨领域文本情感分析时,为了使抽取的共享情感特征能够捕获更多的句子语义信息特征,提出域对抗和BERT(bidirectional encoder representations from transformers)的深度网络模型。利用BERT结构抽取句子语义表示向量,通过卷积神经网络抽取句子的局部特征。通过使用域对抗神经网络使得不同领域抽取的特征表示尽量不可判别,即源领域和目标领域抽取的特征具有更多的相似性;通过在有情感标签的源领域数据集上训练情感分类器,期望该分类器在源领域和目标领域均能达到较好的情感分类效果。在亚马逊产品评论数据集上的试验结果表明,该方法具有良好的性能,能够更好地实现跨领域文本情感分类。  相似文献   

6.
在对化工领域类文本进行分类任务时,由于文本的专业性以及复杂多样性,仅仅依靠现有的词向量表征方式,很难对其中的专业术语以及其他化工领域内相关字词的语义进行充分表征,从而导致分类任务的准确率不高.本文提出一种融合多粒度动态语义表征的文本分类模型,首先在词嵌入层使用动态词向量表征语义信息并引入对抗扰动,使得词向量具有更好的表征能力,然后利用多头注意力机制进行词向量权重分配,获得带有关键语义信息的文本表示,最后使用提出的多尺度残差收缩深层金字塔形的卷积神经网络与混合注意力胶囊双向LSTM网络模型分别提取不同粒度的文本表示,融合后对得到的最终文本表示进行分类.实验结果表明,相比于现有模型,所提出的模型使用不同词向量表示时,在化工领域文本数据集上F1-Score最高可达84.62%,提升了0.38~5.58个百分点;在公开中文数据集THUCNews和谭松波酒店评论数据集ChnSentiCorp上进行模型泛化性能评估,模型也有较好表现.  相似文献   

7.
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。  相似文献   

8.
基于本体语义的简单向量距离分类方法   总被引:1,自引:0,他引:1  
针对传统简单距离分类方法的特征选择未考虑到不同抽象层次上的词汇语义差异,提出了一种基于本体语义的简单向量距离分类方法,在本体库的支持下有效地将语言学知识融合到文本向量空间的表示中,进一步挖掘出特征项概念间的深层语义联系,用得到的语义特征向量作为最终的文本特征向量.同时定义了基于领域本体计算不同抽象层上的语义相似度,并将其应用到简单向量距离分类算法中.在数据集CWT20G上的实验表明:基于本体语义的简单距离分类算法对同义词、多义词、上下位词区分能力更强;并且分类准确率随着语义分析的深入逐步提高.  相似文献   

9.
目前对微博评论的研究主要聚焦在影视、购物等非电力领域,而对电力领域的研究相对较少.因此在影视等领域的研究基础上,根据电力行业的特性,将评论进行预处理后,建立评论关系树,使用动态扩展情感词典和基于支持向量机的方法,建立情感极性判别规则,进行情感极性分析.经实验验证,生成评论关系树后,扩展情感词典和支持向量机两种方法在电力领域的正确率均得到了明显的提升.  相似文献   

10.
基于CNN特征空间的微博多标签情感分类   总被引:1,自引:0,他引:1  
面对微博情感评测任务中的多标签分类问题时,基于向量空间模型的传统文本特征表示方法难以提供有效的语义特征。词向量表示能体现词语的语法和语义关系,并依据语义合成原理构建句子的特征表示。本文提出一个针对微博句子的多标签情感分类系统,采用经过有监督情感分类学习后的卷积神经网络(Convolution Neural Network, CNN)模型,将词向量合成为微博句子的向量表示,使得此CNN特征空间中的句子向量具有很好的情感语义区分度。在2013年NLPCC(Natural Language Processing and Chinese Computing)会议的微博情感评测公开数据集上,相比最优评测结果的宽松指标和严格指标,本系统的最佳分类性能分别提升了19.16%和17.75%;相比目前已知文献中的最佳分类性能,则分别提升了3.66%和2.89%。  相似文献   

11.
文本情感极性分类是文本情感分析首先要解决的关键问题。在分析影响文本情感分类的各类因素的基础上,首先构建了情感词典,并进行情感特征选取以及情感特征加权,然后使用SVM分类的方法对文本进行情感识别及分类,最后在语料数据集的基础上,在单机平台上和Spark分布式计算平台上执行分类模型,对比分析其分类精度和时间代价。实验结果验证了本文构建的情感极性分类模型在单机和分布式云平台上中的有效性。  相似文献   

12.
针对微博新词的情感倾向分析问题,提出了一种改进互信息的微博新情感词提取方法.首先,对预处理后的微博数据进行N元切分,以此得到候选字串; 然后,通过计算多字互信息(multiword mutual information,MMI)和左右侧邻接熵对候选字串进行扩展和过滤得到候选新词,再将候选新词与相应词典进行对比得到新词; 最后,通过词间情感相似度(sentiment similarity between the words,SW)计算出新词的情感倾向值,从而得到新情感词.实验结果显示,该方法对新词情感倾向识别的准确率、召回率和F1值比文献[4]方法分别提高了13.14%、5.81%和8.59%,因此该方法具有很好的应用价值.  相似文献   

13.
在方面级情感文本中存在部分不含情感词的评论句,对其情感的研究被称为方面级隐式情感分析.现有分析模型在预训练过程中可能会丢失与方面词相关的上下文信息,并且不能准确提取上下文中深层特征.本文首先构造了方面词感知BERT预训练模型,通过将方面词引入到基础BERT的输入嵌入结构中,生成与方面词信息相关的词向量;然后构造了语境感知注意力机制,对由编码层得到的深层隐藏向量,将其中的语义和句法信息引入到注意力权重计算过程,使注意力机制能更加准确地分配权重到与方面词相关的上下文.对比实验结果表明,本文模型的效果优于基线模型.  相似文献   

14.
面向文本情感分析的中文情感词典构建方法   总被引:3,自引:1,他引:2  
提出了构建基于HowNet和SentiWordNet的中文情感词典方法。将词语自动分解为多个义元后计算其情感倾向强度,并且使用词典校对方法对词语情感倾向强度进行优化。将所构建词典应用到文本情感分析任务中,使用支持向量机构建文本情感分类器进行实验。实验结果表明,该词典优于一般极性情感词典,为情感分析研究提供了有效的词典资源。  相似文献   

15.
针对微博行文自由性大,情感倾向识别困难的问题,提出了一种基于混合高斯分布伪样本生成技术和条件随机场模型的新方法。该方法首先利用混合高斯分布模型来为训练集中的少数类生成伪样本从而构建一个情感倾向分布平衡的训练集,然后通过使用Word2vec来扩展微博句子以丰富它的情感信息,从而缓解情感词典不足够大对情感分类的负面影响;最后将条件随机场模型应用在上面已经平衡和扩展后的训练集上.实验结果表明该方法比现有方法在数据集情感倾向分布不平衡时能更有效地识别微博的情感倾向.  相似文献   

16.
在Twitter情感分类研究中,经常会采用将推文中的单词匹配情感词典中的同义词条查找相应情感值的方法. 但推文书写比较随意,包含许多俚语、缩写和特殊符号,导致许多词汇与情感词典中的词条无法匹配,匹配率不高直接影响推文的情感分类性能. 针对Twitter的语言特征,提出了一套Twitter推文与情感词典SentiWordNet的匹配算法. 该算法首先通过对推文内容进行数据清洗、替代处理、词性标注和词形还原等预处理,增加了命名实体识别、对hashtags内容的断词处理、基于Word Clusters的否定句处理和词组匹配等方法. 实验结果表明,采用此方法的匹配率可达90%以上.  相似文献   

17.
一种基于多重词典的中文文本情感特征抽取方法   总被引:1,自引:1,他引:0  
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

18.
中文微博情感词典构建方法   总被引:3,自引:2,他引:1  
提出了一种中文微博情感词典构建方法。采用上下文熵的网络用语发现策略,通过TF IDF(term frequency inverse document frequency)进行二次过滤得到网络用语;利用SO PMI(semantic orientation pointwise mutual information)算法在已标注的微博语料库中计算网络用语的情感倾向值,构建网络用语情感词典;将词典应用到微博情感分类实验,并与朴素贝叶斯分类器的分类性能进行了比较分析。实验结果表明,直接利用微博情感词典的分类效果好于朴素贝叶斯分类器,并具有分类过程简单、快速等优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号