首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 102 毫秒
1.
利用领域本体对产品评论文本中的特征及其评价词进行抽取,并将特征评价词的情感倾向与特征所在句子的情感倾向进行特征表示,得到文本特征矩阵,在此基础上,利用K-means算法实现了文本的情感聚类。为了验证该方法的有效性,在真实汽车评论文本数据上进行实验,结果表明,基于特征的情感倾向表示的权重相比布尔权重和LDA特征权重的聚类结果,在聚类的纯度和F值上有明显提高。  相似文献   

2.
苏莹  张勇  胡珀  涂新辉 《计算机应用》2016,36(6):1613-1618
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。  相似文献   

3.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

4.
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。  相似文献   

5.
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。  相似文献   

6.
介绍基于词性组合规则改进的中文句子极性判断方法,提出一种基于半监督学习的中文句子极性判断框架。在传统的完全基于情感词典方法的基础上,结合词性组合规则这一重要特征对中文句子进行极性判断。首先,分析中文句子中情感短语、情感词语的词性组合规则。然后,将情感短语、情感词语的词性组合规则用于中文句子极性判断。根据词性组合规则集抽取评测句子中的候选情感短语、情感词语;而后,计算句子的情感信息总量和句子的情感值,根据句子的情感信息总量将句子分为主观句、客观句,根据句子的情感值将主观句子分为积极情感句、消极情感句、中立情感句。实验结果证明,该方法在主客观分类上F值较高,可以达到77.4%;在主观句情感分类上,可达到的F值为62.5%。相比较于已有方法,基于词性组合规则改进的中文句子极性判断方法的F值有了明显的提高。  相似文献   

7.
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。  相似文献   

8.
提出了一种基于LDA模型以及信息熵的文档自动摘要技术,即通过LDA模型对文档进行浅层语义分析,得到文档的主题分布以及不同主题下的词语分布;通过对主题的分析,可以得到最能代表文档中心思想的主题,以及该主题下的词语分布。同时,提出了一种新的基于信息熵的度量句子重要性的方法,并将该方法应用于文档的关键句抽取过程中。该方法将文档中句子的出现看成一个随机变量,通过对随机变量建模并度量它的信息熵来选取文档中的关键性语句。实验结果表明,应用主题模型与信息熵摘取的文档摘要能有效地从文档中摘出中心句。  相似文献   

9.
评价对象抽取是自然语言处理中情感分析研究领域的一项重要任务.本文研究基于LDA进行中文评价对象的抽取问题.利用中文倾向性评测中任务3的Digital语料进行相关实验.首先对语料进行分词,词性标注以及去除干扰内容等预操作,然后利用LDA主题模型进行处理,最后对抽取的评价对象进行分析.数据结果表明,将LDA方法运用到评价对象抽取问题具有一定的研究和实用价值.  相似文献   

10.
主题模型LDA的多文档自动文摘   总被引:3,自引:0,他引:3  
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.  相似文献   

11.
博客是Web环境中个人表达观点和情感的一种重要载体,一般涉及较宽泛的话题,蕴含丰富的舆情信息。现有针对有关社会事件的用户产生内容进行情感分析的研究多数以篇章级为处理粒度,尚不能满足博客文本深度情感分析的需求。该文提出一种基于LDA话题模型与Hownet词典的中文博客多方面话题情感分析方法。该方法首先利用数据语料训练LDA话题模型,然后以滑动窗口为基本处理单位,利用训练好的LDA模型对博客文本进行话题识别与划分;在此基础上,基于Hownet词典对划分后的话题段落进行情感倾向计算。该方法有助于同时识别博客文本所涉及的多方面子话题及每个子话题上的情感倾向。实验结果表明,该方法不仅能获得较好的话题划分结果,也有助于改善情感分析的准确率。  相似文献   

12.
网络新媒体的快速发展,使得网上评论数据呈现爆炸性增长,面对数量庞大的网络文本,使用传统的人工方式来提取观点会导致效率低下、分类界限模糊、领域适应性差等问题。为解决以上问题,在对传统LDA模型进行改进的基础上,提出了一个基于领域判别的LDA主题模型来对在线评论进行观点挖掘。首先,在标准LDA模型中引入领域层,对语料库中的文档采样领域标签,利用领域化的参数来求解LDA模型;其次,考虑到句子间的情感从属关系,在主题层和单词层之间加入情感层,并引入情感转移变量进行表示,提高了情感极性分析的精度,实验结果表明了本文所提模型和理论的有效性。  相似文献   

13.
针对互联网出现的评论文本情感分析,引入潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型,提出一种分类方法。该分类方法结合情感词典,依据指定的情感单元搭配模式,提取情感信息,包括情感词和上、下文。使用主题模型发掘情感信息中的关键特征,并融入到情感向量空间中。最后利用机器学习分类算法,实现中文评论文本的情感分类。实验结果表明,提出的方法有效降低了特征向量的维度,并且在文本情感分类上有很好的效果。  相似文献   

14.
中文博客主题情感句自动抽取研究   总被引:2,自引:0,他引:2  
博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客信息的情感分析也逐渐成为了信息挖掘领域的热点。目前,在研究情感分析时,多是通过计算词汇的倾向性来完成的。由于并不是所有的带有情感色彩的词汇都是主题相关的,因此,以词为粒度的情感分析存在一定的缺陷。为了解决这一问题,试图从句子层面进行分析,主要研究了与之相关的主题情感句的自动提取问题。为了有效地提取主题相关情感句,设计了一个新颖的基于二元切分的提取算法来获取主题词,然后利用TFIDF算法获取更多的次要主题词,并利用这些主题词重组了那些包含主题词的原始句。因此,如果主题情感句存在的话,那么它一定在这些重组的主题句集合中,只要对该重组句集合进行分析、提取,便能得到主题情感句。最后,利用CRFs将主题句提取问题有效转化为了中文chunking问题,并在抽取实验中取得了很好的结果。  相似文献   

15.
方面级情感分析旨在确定评论中对特定方面的情绪极性,但目前较少研究复杂句对情感分类的影响。基于此,提出了一种基于BERT和带相对位置自注意力网络的方面级情感分析模型。首先,通过动态加权采样方法平衡对比句稀缺的问题,使模型学习到更多的对比句特征信息;其次,利用双头自注意力网络提取带相对位置的特征表示,与预训练模型得到的带绝对位置的特征表示联合训练;最后,通过标签平衡技术对模型正则化处理,稳定模型对中性样本的辨识。该模型在SemEval 2014 Task 4 Sub Task 2上进行实验,在两个数据集上的accuracy和macro-F1指标都有所提高。实验结果表明该模型在对比句分类上是有效的,同时在整个测试集上分类也优于其他基准模型。  相似文献   

16.
刘丽  王永恒  韦航 《计算机应用》2015,35(12):3481-3486
针对传统粗粒度情感分析忽略具体评价对象,以及现有细粒度情感分析方法忽略无关评价要素的问题,提出结合条件随机场(CRF)和语法树剪枝的方法对产品评论进行细粒度情感分析。采用基于MapReduce的并行化协同训练(Tri-training)的方法对语料进行半自主标注,利用融合多种语言特征的条件随机场模型,获取评论中的评价对象和正负面评价词。通过建立领域本体和句法路径库实现语法树剪枝,对含有多个评价对象和评价词的文本,去掉无关评价对象的干扰,抽取出正确的评价单元,最后形成可视化产品报告。实验结果显示,提出的方法在两种不同领域数据集上,识别情感要素的综合准确率达89%左右,情感评价单元的综合准确率也达89%左右。实验结果表明,与传统方法相比,结合CRF和语法树剪枝的方法识别准确率更高,性能更好。  相似文献   

17.
基于情感词汇本体的主观性句子倾向性计算   总被引:1,自引:0,他引:1  
王晓东  王娟  张征 《计算机应用》2012,32(6):1678-1681
如何有效提取句子的主观信息,计算主观性句子倾向性,并对其情感进行细粒度分析,成为一个热门的研究话题。提出了一种基于情感本体的主观性句子倾向性分析方法,分析句子的上下文语义关系,建立规则集。依据情感词汇本体和规则集,提出连续三词词类组合(3-POS)模型识别主观性句子,最后计算主观性句子倾向性值。实验结果表明,该模型对主观性句子的倾向性进行识别和计算的准确率达到81.02%。  相似文献   

18.
Different types of sentences express sentiment in very different ways. Traditional sentence-level sentiment classification research focuses on one-technique-fits-all solution or only centers on one special type of sentences. In this paper, we propose a divide-and-conquer approach which first classifies sentences into different types, then performs sentiment analysis separately on sentences from each type. Specifically, we find that sentences tend to be more complex if they contain more sentiment targets. Thus, we propose to first apply a neural network based sequence model to classify opinionated sentences into three types according to the number of targets appeared in a sentence. Each group of sentences is then fed into a one-dimensional convolutional neural network separately for sentiment classification. Our approach has been evaluated on four sentiment classification datasets and compared with a wide range of baselines. Experimental results show that: (1) sentence type classification can improve the performance of sentence-level sentiment analysis; (2) the proposed approach achieves state-of-the-art results on several benchmarking datasets.  相似文献   

19.
针对方面类别或方面词项子任务的情感分析方法性能受单任务网络结构的限制,且相关任务的数据集不足.为此,提出一种基于多任务学习的方面级情感分析模型,共同学习两个子任务和方面词项重建任务.通过共享双向门控循环单元和Sentence-level的注意力对多个任务的句子向量编码,并利用Aspect-level的注意力针对不同方面...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号