首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
在不同的上下文中,情绪词对情绪的激励程度会发生变化。现有情绪词典中大多数只标注了情绪词的情绪类别而未涉及情绪词的激励度。在极少数标注情绪强度的词典中,所标注的强度未考虑上下文的影响。提出一种根据上下文形成的情境评估情绪词对情绪的激励程度并据此对情绪词加权的方法。通过比较情绪词的共现模式与自身情绪类的分布模式计算情绪词的激励程度。然后根据激励程度计算情绪词的情绪权重并将其用于微博情绪识别。实验结果表明,与现有词典中的情绪强度相比,本文方法计算的情绪权重更准确地描述了情绪词在语料中表达的情绪,有效地提高了情绪分析的精度。并且本文方法还能够有效综合多个词典的优势,进一步提高微博情绪分析的准确率。  相似文献   

2.
基于Word2Vec的情感词典自动构建与优化   总被引:1,自引:0,他引:1  
情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性[1]。通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法;然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度;最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc。实验证实该词典1)在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力。  相似文献   

3.
本文主要分为三个方面:语义词典的构建,词语标注的数据结构和数据库语义的标注与排歧算法.其中词典用来存储数据库的语义信息,通过程序调用以标注分词后的词语;词语标注的数据结构采用了动态的方式存储数据库语义,可节省内存空间并增强程序的可读性;对于数据库的歧义问题提出了一种利用相关词的语义确定歧义词的语义的方法,充分利用了词语之问的相互关系.  相似文献   

4.
文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。  相似文献   

5.
针对大规模语料手动标注困难的问题,提出利用概率潜在语义分析(PLSA)模型的新闻评论自动标注方法.利用PLSA计算获得语料集的"文档-主题"和"词语-主题"概率矩阵;基于情感本体库和"词语-主题"概率矩阵,认为某一类情绪词汇出现的概率最高的主题与词汇的情绪类别相同,对主题进行情绪类别标注;最后,基于"文档-主题"概率矩阵,认为出现在某一主题概率最高的文档与主题的情绪类别相同,通过"词汇-主题-文档"三者的关系,达到自动标注的效果.实验结果表明,本文提出的方法准确率可达到90%以上.  相似文献   

6.
电子词典是在机器翻译系统中包含的信息量最大的一个部件,电子词典包的质量和容量直接限定机器翻译的质量和应用范围。与一般的电子词典不同,机器翻译词典每个词条都要比一般的电子词典增加词类信息、语义类别信息和成语等。文章以频率统计和频率分布统计作为维汉机器翻译词典的词条收录原则,统计维吾尔文中常用的单词数目,论述维汉机器翻译词典的设计思想,用BNF形式语言和Jackson图描述维汉机器翻译词典应包含的词条信息,最后介绍词典的具体构造方法、词条排序原则、索引表和属性库的数据结构和词典信息的查找方法。试验表明该词典在解决维吾尔语词汇歧义、结构歧义、提高汉语译文准确率等方面较为有效。  相似文献   

7.
该文旨在探索一种面向微博的社会情绪词典构建方法,并将其应用于社会公共事件的情绪分析中。首先通过手工方法建立小规模的基准情绪词典,然后利用深度学习工具Word2vec对社会热点事件的微博语料通过增量式学习方法来扩展基准词典,并结合HowNet词典匹配和人工筛选生成最终的情绪词典。接下来,分别利用基于情绪词典和基于SVM的情绪方法对实验标注语料进行情绪分析,结果对比分析表明基于词典的情绪分析方法优于基于SVM的情绪分析方法,前者的平均准确率和召回率比后者分别高13.9%和1.5%。最后运用所构建的情绪词典对热点公共事件进行情绪分析,实验结果表明该方法是有效的。  相似文献   

8.
从认知学角度,隐喻情绪由句子中“源语义场景-目标语义场景”词对的情绪场景融合而成。鉴于此特点,该文提出了融合词语场景的隐喻情绪识别模型。该模型借助情绪词典及大规模语料库,构建了词语情绪分布表示获取算法,用于捕获句子中映射词对的情绪分布表示。在此基础上,利用注意力机制与最大池化策略,编码句子的多情绪场景融合表示,以刻画句子情绪形成的诱因。最后,设计情绪分类器,联合句子情绪及上下文表示作为输入,多角度地构建句子的语义,以提升隐喻情绪识别性能。在隐喻情绪数据集上进行实验,与基线模型和最好评测模型进行对比,该文提出的模型在宏F1值上提升了5.74%与2.73%。另外,定性的实例分析解释了词语场景对隐喻情绪识别的作用。  相似文献   

9.
分析和研究文本读者情绪有助于发现互联网的负面信息,是舆情监控的重要组成部分。考虑到引起读者不同情绪主要因素在于文本的语义内容,如何抽取文本语义特征因此成为一个重要问题。针对这一问题,提出首先使用word2vec模型对文本进行初始的语义表达;在此基础上结合各个情绪类别分别构建有代表性的语义词簇,进而采用一定准则筛选对类别判断有效的词簇,从而将传统的文本词向量表达改进为语义词簇上的向量表达;最后使用多标签分类方法进行情绪标签的学习和分类。实验结果表明,该方法相对于现有的代表性方法来说能够获得更好的精度和稳定性。  相似文献   

10.
微博等社交媒体为人们情绪表达提供了重要平台,分析微博的情绪倾向具有重要的商业价值和社会意义。文中提出了基于词典的规则方法识别微博所表达的喜、哀、怒、惧、恶、惊六种情绪。针对情绪表达的重要线索表情符利用互信息法生成了表情符词典,与传统情绪词典相结合,制定了针对否定用法的规则对微博进行分析。建立了第一个包含六种情绪的人工标注微博数据集。实验表明,传统的情绪词典虽然收录了大量词汇,但对于社交媒体文本分析的准确率和覆盖率都不高。表情符词典的应用显著地提高了微博情绪分析的精度和覆盖率。  相似文献   

11.
In this paper, we investigate the relative effect of two strategies for language resource addition for Japanese morphological analysis, a joint task of word segmentation and part-of-speech tagging. The first strategy is adding entries to the dictionary and the second is adding annotated sentences to the training corpus. The experimental results showed that addition of annotated sentences to the training corpus is better than the addition of entries to the dictionary. In particular, adding annotated sentences is especially efficient when we add new words with contexts of several real occurrences as partially annotated sentences, i.e. sentences in which only some words are annotated with word boundary information. According to this knowledge, we performed real annotation experiments on invention disclosure texts and observed word segmentation accuracy. Finally we investigated various language resource addition cases and introduced the notion of non-maleficence, asymmetricity, and additivity of language resources for a task. In the WS case, we found that language resource addition is non-maleficent (adding new resources causes no harm in other domains) and sometimes additive (adding new resources helps other domains). We conclude that it is reasonable for us, NLP tool providers, to distribute only one general-domain model trained from all the language resources we have.  相似文献   

12.
Weblogs are increasingly popular modes of communication and they are frequently used as mediums for emotional expression in the ever changing online world. This work uses blogs as object and data source for Chinese emotional expression analysis. First, a textual emotional expression space model is described, and based on this model, a relatively fine-grained annotation scheme is proposed for manual annotation of an emotion corpus. In document and paragraph levels, emotion category, emotion intensity, topic word and topic sentence are annotated. In sentence level, emotion category, emotion intensity, emotional keyword and phrase, degree word, negative word, conjunction, rhetoric, punctuation, objective or subjective, and emotion polarity are annotated. Then, using this corpus, we explore these linguistic expressions that indicate emotion in Chinese, and present a detailed data analysis on them, involving mixed emotions, independent emotion, emotion transfer, and analysis on words and rhetorics for emotional expression.  相似文献   

13.
观点挖掘(或情感分析)作为面向网络社会媒体分析挖掘领域的一个核心研究课题,具有重要的研究意义和应用价值。针对传统观点挖掘方法存在的不足和局限性,本文设计并实现了一种基于OCC情感模型的观点挖掘方法。该方法首先采用统计方法,利用WordNet词典、句法依存关系及少量标注数据,自动构建情感维度词典;其次,对所构建的情感维度词典进行求精,通过语义、情感倾向的不一致性处理和非情感词的过滤,得到高质量的情感维度词典;最后,基于所得到的情感维度词典,结合OCC模型中情感维度值与情感类型的对应关系,生成6种主要的情感类型。实验方法表明,此方法在使用灵活性、可解释性和有效性上具有明显的优势。  相似文献   

14.
首先分析微博文本新词出现规律,通过程度词发现微博新词,然后通过拓展的PMI算法,计算新词与情感基准词之间的点互信息值,根据点互信息值将新词分为褒贬2类后加入微博领域词典。接着构建基础情感词典,考虑到微博文本的独特性和汉语言特点,构建微博表情词典、否定词典、程度词词典、连词词典。最后结合情感词典与语义规则,通过与微博表情进行情感值加权的方式来对中文微博进行情感分析。通过对抓取的微博数据集进行测试,验证了本文提出的分析策略的有效性。  相似文献   

15.
准确可靠的文本倾向性分析是网络舆情分析与网络内容安全的前提.本文提出了利用中文极性情感词典HowNet、NTUSD以及大连理工大学发布的褒贬情感词词典进行并交运算,选择并翻译为维吾尔语词汇,借助于维吾尔语同义近义词词典,扩展构建了维吾尔语极性情感词典;然后分析总结了否定词、程度副词以及句中的转折连词等情感修饰成分对维吾尔语句子情感极性的影响,并量化为情感词权值;最后设计了基于维吾尔语极性情感词和权值相结合的加权句子情感极性判定算法.利用自建语料库进行测试,并与汉语倾向性判定实验结果比较,证明了本算法进行维吾尔语句子褒贬情感性分析基本是有效地.  相似文献   

16.
词汇情感消歧是文本情感倾向性分析的关键技术之一。该文在分析比较了词汇情感消歧和词义消歧异同后,从情感分析角度出发,提出了基于图排序的词汇情感消歧方法。该方法通过自动获取和人工校正相结合的方式获得多情感词汇,然后根据语义关系构建词义关系图,进而在词义关系图上迭代计算直至收敛,最后选择多情感词汇的词义中权值最大的词义作为结果输出,从而实现情感消歧。该文分别在新浪微博语料库和情感语料库上验证了该方法的有效性。  相似文献   

17.
情感分布学习是一种近年提出的有效的多情绪分析模型,其核心思路是通过情感分布记录示例在各个情绪上的表达程度,适于处理存在情绪模糊性的情感分析任务。针对现有的情感分布学习方法较少考虑情感心理学先验知识的问题,提出一种基于情感轮注意力的情感分布学习(emotion wheel attention based emotion distribution learning,EWA-EDL)模型。EWA-EDL模型为每种基本情绪生成一个描述情绪心理学相关性的先验情感分布,再通过注意力机制将基于情感轮的先验知识直接融入深度神经网络。EWA-EDL模型采用端到端的方式对深度网络进行训练,同时学习情感分布预测和情绪分类任务。EWA-EDL模型主要由5部分构成,分别为输入层、卷积层、池化层、注意力层和多任务损失层。在8个常用的文本情感数据集上的对比实验表明,EWA-EDL模型在情感分布预测和情绪分类任务上的性能均优于对比的情感分布学习方法。  相似文献   

18.
An emotional text may be judged to belong to multiple emotion categories because it may evoke different emotions with varying degrees of intensity. For emotion analysis of text in a supervised manner, it is required to annotate text corpus with emotion categories. Because emotion is a very subjective entity, producing reliable annotation is of prime requirement for developing a robust emotion analysis model, so it is wise to have the data set annotated by multiple human judges and generate an aggregated data set provided that the emotional responses provided by different annotators over the data set exhibit substantial agreement. In reality, multiple emotional responses for an emotional text are common. So, the data set is a multilabel one where a single data item may belong to more than one category simultaneously. This article presents a new agreement measure to compute interannotator reliability in multilabel annotation. The new reliability coefficient has been applied to measure the quality of an emotion text corpus. The procedure for generating aggregated data and some corpus cleaning techniques are also discussed.  相似文献   

19.
情感是音乐最重要的语义信息,音乐情感分类广泛应用于音乐检索,音乐推荐和音乐治疗等领域.传统的音乐情感分类大都是基于音频的,但基于现在的技术水平,很难从音频中提取出语义相关的音频特征.歌词文本中蕴含着一些情感信息,结合歌词进行音乐情感分类可以进一步提高分类性能.本文将面向中文歌词进行研究,构建一部合理的音乐情感词典是歌词情感分析的前提和基础,因此基于Word2Vec构建音乐领域的中文情感词典,并基于情感词加权和词性进行中文音乐情感分析.本文首先以VA情感模型为基础构建情感词表,采用Word2Vec中词语相似度计算的思想扩展情感词表,构建中文音乐情感词典,词典中包含每个词的情感类别和情感权值.然后,依照该词典获取情感词权值,构建基于TF-IDF (Term Frequency-Inverse Document Frequency)和词性的歌词文本的特征向量,最终实现音乐情感分类.实验结果表明所构建的音乐情感词典更适用于音乐领域,同时在构造特征向量时考虑词性的影响也可以提高准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号