首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
三种文档语义倾向性识别方法的分析与比较*   总被引:2,自引:0,他引:2  
研究并实现三种文档倾向性识别的方法:基于情感词加权的方法、基于语义模式分析的方法和基于文本分类的方法。第一种方法利用特征词汇的情感语义倾向性。第二种方法对自然语言的句法结构进行简化,以获取合适粒度的倾向性语义模式。第三种方法则直接利用传统的基于文本分类的方法。通过在网络舆情分析系统中的具体实现,探讨这三种方法各自的不足和优势。  相似文献   

2.
【目的】分析典籍英译作者身份识别的关键问题,提出不完整数据作者身份识别的有效方法。【方法】针对诗词典籍篇幅短小和语料不平衡的特点,建立基于词汇、句子和语篇层面的文体特征向量空间模型,提出用于不完整数据作者身份识别的加权朴素信念分类算法。【结果】加权朴素信念分类算法可以有效改善朴素信念分类算法性能,与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。【局限】需进一步扩展数据集的样本数量和作者数量,在大数据集上提高文体特征提取效率和作者身份识别的准确性。【结论】提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。  相似文献   

3.
Web文本情感分类研究综述   总被引:6,自引:1,他引:5  
对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律.为此,本文对Web文本情感分类的研究进行综述.将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结.其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法.分析了情感分类中的语料库选择和研究难点.最后总结了情感分类的应用现状,并指出今后的研究方向.  相似文献   

4.
基于情感倾向识别的汽车评论挖掘系统构建   总被引:2,自引:0,他引:2  
文本情感识别是一个具有广泛应用前景的研究领域,它在信息检索、文本过滤、产品在线跟踪评价、民情民意调查分析、智能教学系统中都有着广泛应用。而汽车情感识别正在成为人们日益关注的研究热点。本文利用文本分类技术,采用分步骤分模型的设计方法,构建出汽车情感倾向识别系统,通过对汽车评论进行挖掘和分析,识别其情感倾向和演化规律,并以可视化的界面将结果展现给用户,从而向汽车生产商提供反馈信息,同时可以为汽车消费者提供购车指导。另外本文还就汽车语料库的建立,分类模型的构建以及本系统构建过程中的一些关键问题进行了分析和探讨。  相似文献   

5.
本文从句子级的角度进行了中文文本的情感倾向分析,提出以HowNet中的情感词表为种子情感词集,采用基于CRF模型的半监督学习迭代方法获取大量评价词,然后依据中文词间的语义规则判断句子的极性的方法.将该方法应用于COAE2011中任务2-观点句识别,在评价词的识别和观点句极性判断都取得了很好的结果.  相似文献   

6.
情感词汇本体的构造   总被引:13,自引:1,他引:12  
情感计算是目前人工智能领域的热门课题,而大规模的情感词汇本体的构造是准确完成文本情感识别的基础.本文首先根据目前情感分类发展的现状,确定情感分类体系,在此基础上综合现有的各种情感词汇资源构造情感词汇本体.在本体的知识获取过程中采用手工分类和自动获取相结合的方法填充词汇本体的框架.详细描述了词汇的情感类别、强度和极性等,并进一步统计了情感词汇的分布情况.  相似文献   

7.
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算, 对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试, 取得较好效果。  相似文献   

8.
[目的/意义] 微博平台产品评论的特征级情感分析问题具有其特殊性,为了对特征分类,解决隐式特征的识别问题,并分析特征情感,提出一种基于特征本体的产品评论情感分析方法。[方法/过程] 该方法利用构建的特征本体对特征词分类,通过计算情感词与特征的搭配权重来识别隐式特征,并构建领域情感词典和微博表情符号词典,计算微博产品评论的特征情感极性和强度。[结果/结论] 构建方法模型,通过采集微博评论数据设计实验,验证了提出方法的有效性。  相似文献   

9.
针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。  相似文献   

10.
学术写作是ChatGPT的主要应用方向之一。文章以情报学领域的核心期刊论文为研究对象,首先从词、句、篇3个维度出发,使用词性标注、n-gram等文本处理方法对ChatGPT和人类产出的论文引言内容进行对比分析。然后将判断学术内容是否由ChatGPT生成视作一个二元分类任务,采用朴素贝叶斯、支持向量机、随机森林算法进行文本分类实验,并使用SHAP方法对文本结构特征的重要性进行分析。研究发现:ChatGPT在描述有具体时间节点的事实性信息和引用政策文件或研究报告等方面表现较弱,生成引言的篇幅较集中,撰写论文相较于人类更加“循规蹈矩”;查重工具通常无法准确检测出ChatGPT生成内容的原创性,但分类模型可以比较容易地区分出引言是否由ChatGPT生成,平均句子长度、词汇多样性和文本长度是影响分类结果最重要的文本结构特征。  相似文献   

11.
[目的/意义]微博已成为大众情感表达的重要平台,微博的情感分析在舆情分析、用户体验、商机挖掘等方面有着重要的作用。[方法/过程]提出的情感倾向分类算法WE_SDAE使用单词嵌入的方式将微博表示成一个低维稠密向量,然后通过添加正则项和加噪处理的方式将基本的自动编码器算法优化成深层噪音自动编码器,并在顶层添加分类器,实现情感倾向分类。考虑到微博用词灵活,还从单字和词语两个粒度训练模型。[结果/结论]实验结果表明,基于单字粒度的模型表现优于基于词语粒度的模型。此外,对比实验显示WE_SDAE算法优于传统的SVM、Naive-Bayes、XgBoost等相关算法;单词嵌入的方式优于传统的向量空间模型表示方法,能在微博情感分析中取得较好的效果。  相似文献   

12.
[目的/意义]微博评论情感分类模型可以为相关舆情监管部门正确管控话题事件的发展状况和舆情提供一定的指导作用。[方法/过程]基于字词向量的多尺度卷积神经网络,运用多尺度卷积核改善微博评论中上下文信息有限的条件制约,构建基于字词向量的多尺度卷积神经网络微博评论情感分类模型;通过爬取"微博热搜整改"数据,对模型的可行性和优越性进行验证。[结果/结论]验证结果表明基于字词向量的多尺度卷积神经网络在微博舆情等上下文信息有限的短文本分类任务中表现良好。本文在理论层面为微博舆情情感分类提供了更为准确的情感分类理论模型及分类方法,在实践层面可以更好地指导舆情监管部门对舆情的情感倾向进行更好的引导和监管。  相似文献   

13.
��[Purpose/significance] By using corpus-based sentiment analysis, opinion word polarity can be predicted in accordance with its context. The method is significant in applications oriented to specific-domains sentiment analysis tasks since it can improve the prediction accuracy.[Method/process] In the paper, context-oriented sentiment polarity identification for emotion expressions was investigated. A Pointwise Mutual Information(PMI) based algorithm was proposed to solve the problem. In terms of PMI, polarity of an emotion expression "feature-opinion" was inferred according to the co-occurrence of the expression with contextual opinion seed words. Furthermore, employing dependence relation analysis to detect sentimental reverse in context; with the modified PMI algorithm, we can predict polarity of emotion expressions in a sentence more accurately.[Result/conclusion] The results indicate, compared with the Lexicon-based method and the classical PMI, the modified method performs better. With it, opinion-words unlisted in lexicons can be identified, and context-specific sentimental orientation of an expression can be detected precisely as well. Modifying the macro F1 value to 0.827 and 0.878 in cater-review corpus and electronic-product review corpus separately. The algorithm, supported by large-scale domain-specific corpus and based on statistics and dependency analysis, is efficient due to convenience for data acquisition, which make it easier be applied in other domain-specific sentimental analysis tasks.  相似文献   

14.
基于修正点互信息的特征级情感词极性自动研判   总被引:1,自引:0,他引:1  
[目的/意义]基于语料的情感词发现依语句上下文推断情感词极性,能显著提升情感分析的准确率,在面向领域的特征级情感分析任务中有重要应用价值。[方法/过程]对特征级情感极性研判问题展开探讨,提出基于点互信息的"特征-情感"对情感极性自动判别算法,算法借助大规模领域语料,根据观点表达"特征-情感"对与情感语义明确的种子词的共现关系,同时引入依存句法分析语句间的情感转折,通过修正经典的点互信息算法,对上下文约束下的用户观点表达进行褒贬预测。[结果/结论]实验证明,修正算法的性能显著优于词典匹配算法和经典的点互信息情感识别算法,不仅能够推断词典中未纳入的观点表达的情感指向,而且能较准确地推断"语境"中的情感词极性。在餐饮评论和数码产品评论两个评测语料集上,修正算法的F1宏平均指标分别达到0.827和0.878。该算法以领域相关的大规模语料为支撑,基于概率统计和句法分析,因数据获取便利,算法效率高,移植性好,具有普适性,尤其适用于面向领域的情感分析任务。  相似文献   

15.
[目的/意义]从定量分析和定性分析两个方面对英文网络书评进行内容挖掘,形成一套基于信息分类的英文网络书评的内容挖掘方法体系,实现多文本书评的信息整合。[方法/过程]对书评文本中句子的分类方法、关键信息的提取方法、情感分类的方法以及内容的呈现方式等几方面进行实验和改进。[结果/结论]用户评价结果表明,本文所设计的内容挖掘方法所生成的书评信息摘要在生成质量和有用性两方面都有较好的表现。  相似文献   

16.
ABSTRACT

Moving beyond the dominant bag-of-words approach to sentiment analysis we introduce an alternative procedure based on distributed word embeddings. The strength of word embeddings is the ability to capture similarities in word meaning. We use word embeddings as part of a supervised machine learning procedure which estimates levels of negativity in parliamentary speeches. The procedure’s accuracy is evaluated with crowdcoded training sentences; its external validity through a study of patterns of negativity in Austrian parliamentary speeches. The results show the potential of the word embeddings approach for sentiment analysis in the social sciences.  相似文献   

17.
融合主题与情感特征的突发事件微博舆情演化分析   总被引:1,自引:0,他引:1  
安璐  吴林 《图书情报工作》2017,61(15):120-129
[目的/意义]微博是突发事件网络舆情传播的重要媒介。面向突发事件的微博主题和情感挖掘对掌握突发事件的网络舆情、识别与预测潜在问题及风险等方面具有重要的实践意义。尝试提出一种融合主题与情感特征的突发事件微博舆情演化分析方法。[方法/过程]以寨卡事件为例,通过划分微博舆情演化的生命周期,基于word2vec技术分别提取该事件生命周期各阶段的微博主题,采用基于词典的情感分析方法,引入情感词、表情符号等多情绪源,对不同主题下的评论情感做细粒度划分,并计算情感强度,最终实现微博主题与情感的协同分析。[结果/结论]所提出的微博舆情演化分析方法能够揭示面向特定事件的微博在突发事件生命周期各阶段的主题特征、情感类型与强度,剖析网络舆情主题与情感特征的协同演化规律。  相似文献   

18.
This study aims to explore differences between health misinformation and true information by comparing word usage, sentiments, and online popularity between pro- and anti-vaccine headlines (PVHs and AVHs). Text mining and sentiment analysis showed that AVHs were more likely to use negative sentiment words and trust-related words. PVHs were more likely to use words related to positive sentiments. Anti-vaccine messages (AVMs) were more popular online than pro-vaccine messages (PVMs). AVMs’ online popularity was not related to its emotion words usage. Among PVMs, those with more positive sentiment words were more likely to be shared, commented on, and reacted to online. Wordclouds and word networks were created to visualize the word usage and clustering. Future directions regarding message design and automatic detection and analysis techniques are provided.  相似文献   

19.
停用词表对中文文本情感分类的影响   总被引:6,自引:2,他引:4  
王素格  魏英杰 《情报学报》2008,27(2):175-179
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好.  相似文献   

20.
[目的/意义] 基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程] 在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报分词语料,确定统计中所使用的6种句子类别,统计和分析字与词单位上的句子长度分布,并基于齐普夫定律揭示词汇静态分布情况。[结果/结论] 从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看,随着时间的推移,在1998和2018两个语料上,句子的长度和词汇的分布均发生变化,但这种变化又是延续的、有关联的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号