首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
中文微博情感词典构建方法   总被引:1,自引:2,他引:1  
提出了一种中文微博情感词典构建方法。采用上下文熵的网络用语发现策略,通过TF IDF(term frequency inverse document frequency)进行二次过滤得到网络用语;利用SO PMI(semantic orientation pointwise mutual information)算法在已标注的微博语料库中计算网络用语的情感倾向值,构建网络用语情感词典;将词典应用到微博情感分类实验,并与朴素贝叶斯分类器的分类性能进行了比较分析。实验结果表明,直接利用微博情感词典的分类效果好于朴素贝叶斯分类器,并具有分类过程简单、快速等优势。  相似文献   

2.
通过对中文微博情感分类的深入研究,该文提出了基于回应消息的中文微博情感分类方法。首先,对微博回应消息进行情感标注,然后利用回应消息情感分布结合SVM算法对微博文本情感进行分类;其次,对分类特征进行了详细分析。实验结果表明,该方法能够得到更高的准确率和召回率。  相似文献   

3.
面向文本情感分析的中文情感词典构建方法   总被引:3,自引:1,他引:2  
提出了构建基于HowNet和SentiWordNet的中文情感词典方法。将词语自动分解为多个义元后计算其情感倾向强度,并且使用词典校对方法对词语情感倾向强度进行优化。将所构建词典应用到文本情感分析任务中,使用支持向量机构建文本情感分类器进行实验。实验结果表明,该词典优于一般极性情感词典,为情感分析研究提供了有效的词典资源。  相似文献   

4.
针对中文酒店评论自身特点设计语料特征,将评论高频词赋予权重并扩展基础情感词典;结合扩展基础情感词典和语义规则,计算情感加权值,实现对酒店频率褒贬倾向分析;选取Boson和大连理工情感词典作为基础情感词典进行了试验。试验结果表明,利用本方法进行中文酒店评论情感分析的精准率可达到90%以上,相比基础情感词典,可提高10%,且加入前50个高频词扩展基础情感词典,对精准率有较大提升,之后精准率的提升速度趋于平缓。  相似文献   

5.
针对情感分类中采用单一特征分类精度不高的问题,提出多特征加权的分类算法:根据扩展的情感词典计算每个词的情感倾向度,经CHI特征选择后,根据情感词的极性强度调整贝叶斯分类模型中该词的正负后验概率,在原值的基础上加上极性强度影响值。实验将该方法和其他3种单特征选择方法在酒店、影视等语料上的分类精度进行了对比,分类精度得到提升。实验结果表明,将词语的情感倾向度的特征融入到分类器中方法,在有效提高情感倾向性分类精度的同时降低了特征维数。  相似文献   

6.
针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用TF-IDF值在词汇重要程度的度量作用,在酒店评论中获得9 860个领域候选情感词汇;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感词极性分类和文本情感分析任务中,试验结果表明,Senti2vec能实现情感词的语义表示和情感表示;基于特定领域语料的语义相似计算,使得提取的情感特征更具有领域特性,同时不受候选情感词集范围的约束。  相似文献   

7.
一种基于朴素贝叶斯的中文评论情感分类方法研究   总被引:2,自引:1,他引:1  
提出一种新的基于朴素贝叶斯的中文文本情感分类方法。该方法用情感短语作为文本特征,通过情感词典与否定副词相结合,提取情感短语,通过CHI统计法设定阈值进行特征提取,再利用朴素贝叶斯分类器进行情感分类计算。对不同CHI阈值、不同语料库、以情感短语为特征和以情感词为特征进行分类实验。实验表明,以情感短语作为特征进行朴素贝叶斯分类,在不同领域的评论中均获得了较高的查准率和查全率,证明了该方法的可行性。  相似文献   

8.
目前对微博评论的研究主要聚焦在影视、购物等非电力领域,而对电力领域的研究相对较少.因此在影视等领域的研究基础上,根据电力行业的特性,将评论进行预处理后,建立评论关系树,使用动态扩展情感词典和基于支持向量机的方法,建立情感极性判别规则,进行情感极性分析.经实验验证,生成评论关系树后,扩展情感词典和支持向量机两种方法在电力领域的正确率均得到了明显的提升.  相似文献   

9.
微博情感摘要是对微博文本的主题和情感信息进行抽取,归纳为带有情感倾向的总结性描述。已有的相关研究忽视或者不能准确得到话题的正面和负面情感摘要。针对该问题,提出一种基于多特征融合的微博情感摘要方法。首先,对语料进行预处理并统计语料中的共现词对;然后,利用BTM模型挖掘文档中的隐含主题,计算语料和文档的主题概率分布;最后,利用该分布计算句子的主题相关度和情感特征权重,并抽取与话题相关度高且情感特征权重较大的句子形成正面和负面情感摘要。实验结果表明,相比传统方法,文章方法能够有效提高微博情感摘要的综合性能。  相似文献   

10.
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

11.
微博作为最受欢迎的社交网络平台之一,是人们表达观点和情感的重要途径.性格影响人的情感表达方式.针对现有微博情感分析很少考虑性格因素这一问题,文章提出一种基于BiLSTM+Self-Attention并结合性格因素的微博情感分类模型(P-BiLSTM-SA).该模型首先根据"大五"人格理论,基于用户性格将微博文本进行性格...  相似文献   

12.
微博文本特殊性的存在使得微博用户兴趣画像难以有效构建。为此, 提出了一种集成算法——新词发现-双向长短期记忆网络-梯度提升算法。首先针对微博文本的非正式性, 提出了一种基于支持度视角的新词发现(New Word Discovery, NWD)算法, 发掘其中大量存在的网络用语以实现更加准确的分词及语义把握; 其次, 引入Simhash算法使得微博文本中的“信息过载”现象得到改观; 再次, 为改善微博文本的简洁性而引起的特征稀疏问题, 采用双向长短期记忆网络(Bidirectional Long Short-term Memory,Bi-LSTM)模型提取博文语义特征; 最后, 通过融合微博用户静态特征训练梯度提升(extreme Gradient Boosting,XGBoost)模型, 从而有效构建多粒度微博用户兴趣画像。实验结果表明, 粗粒度(一级)兴趣标签模型NWD-Bi-LSTM和细粒度(二级)兴趣标签模型NWD-Bi-LSTM-XGBoost的宏平均F1值(Macro-average F1 score, mF1)和受试者工作特征曲线下面积(Area Under ROC Crave, AUC)分别高达83.6%, 79.7%和70.4%, 63.6%, 相对于基准模型, NWD算法的集成使得模型的mF1值和AUC值均能提升3%~5%, 其促进作用优于现有的新词发现方法。  相似文献   

13.
传统搜索引擎需要用户从返回网页中提炼有用知识;社交网络搜索根据人物的社会关系、共同爱好,提供人物和兴趣间的关系等方面的搜索结果。当前,社交网络搜索主要存在2个问题:不能从语义上理解用户查询词;仅局限于人物、兴趣搜索,限制了查询范围。为解决微博搜索中存在的一些问题,并主动返回更多知识,基于微博这一社交网络的重要平台,研究微博社区知识图谱构建方法,重点提出5方面的研究:微博社区中概念提取,其概念包括人物、事物、地点、事件和话题等5种类型;微博社区概念间的关系提取,其关系包括上述5种概念间的组合关系;知识图谱是带有语义的网络图谱,将概念作为顶点并将概念间关系作为边,研究知识图谱的构建方法;分析微博社区知识图谱,包括构建效果、演化特征、应用效果分析;研发基于微博知识图谱的应用系统等内容。  相似文献   

14.
微博由于字数的限制,当用户需要发较多内容时通常以附图的形式给出,识别包含文本内容贴图的长微博能够为微博研究提供更多有用的数据.在支持向量机(SVM)的基础上结合粒子群算法(PSO)提出了一种识别长微博贴图的PSO-SVM算法.该方法提取长微博贴图的颜色矩和灰度共生矩阵特征,然后利用PSO算法对SVM模型中的误差惩罚参数和核函数进行优化得到最佳分类模型,其最优参数将被用作长微博贴图和非长微博贴图进行分类.实验表明,与传统的基于网格搜索法优化的SVM算法相比,PSO-SVM算法对长微博贴图识别具有更高的准确率和召回率.  相似文献   

15.
提出了一种基于GPU的平滑地形可视化算法,侧重于解决地形可视化方法面临的时间连续性和空间连续性问题。算法采用了规则地形块的批LOD可视化方法。基于平滑过渡的思想,考虑了地形块相邻层次间的过渡和相邻的不同地形块间的边界匹配关系,以地形块的区域划分为基础,为每个顶点实时分配相应的过渡权值,在地形块的绘制过程中同时完成了不同LOD层次以及不同地形块间的平滑过渡,实现了整个地形的平滑可视化。面向GPU的算法设计与实现保证了其执行效率。针对典型数据集,该算法能够以较高的帧率完成大规模地形的实时平滑漫游,避免可视化过程中的裂缝和突跳等不连续现象。  相似文献   

16.
采用元胞自动机理论进行微博舆情传播的研究,设计微博元胞自动机模型结构,包括元胞状态、元胞空间、元胞邻域和演变规则。在微博舆情的倾向度演化中,定义了坚定性系数与影响系数,在不同的坚定性系数和影响系数分布下,进行了倾向度演化实验与分析。同时,对影响力较大的微博在倾向度演化中的作用,以及多邻域分布下倾向度的演化进行了研究。    相似文献   

17.
文本情感极性分类是文本情感分析首先要解决的关键问题。在分析影响文本情感分类的各类因素的基础上,首先构建了情感词典,并进行情感特征选取以及情感特征加权,然后使用SVM分类的方法对文本进行情感识别及分类,最后在语料数据集的基础上,在单机平台上和Spark分布式计算平台上执行分类模型,对比分析其分类精度和时间代价。实验结果验证了本文构建的情感极性分类模型在单机和分布式云平台上中的有效性。  相似文献   

18.
命名实体识别是自然语言处理的重要基础,随着神经网络的快速发展,深度学习的各种方法被应用于文本处理的各个方向。引入自注意力机制,结合深度学习方法,提出一种基于自注意力的双向长短期记忆条件随机场(SelfAtt-BiLSTM-CRF)方法来识别微博中的实体,利用自注意力机制,获取词与词之间的依赖关系,进一步提高模型的识别能力。实验表明,所提出的方法取得了较好的识别效果。  相似文献   

19.
微博用户的影响力研究是微博社区研究的一个热点。以新浪微博为研究对象,构建了用户活跃度和历史关注度两个评价指标,引入微博传播能力这一因子,提出了一种基于传统的PageRank算法的改进算法(userinfluencerank)模型,通过实验与传统算法进行对比,验证了该算法的有效性和准确性。  相似文献   

20.
本文详细论述了我们开发的基于规则的Matlink英汉机器翻译试验系统中词典的内部存储结构和搜索算法,以一部综合英语词汇静态信息和动态信息于一体的的英汉转换词典的机器翻译方法。试验表明该词典的数据结构和搜索算法较传统的基于多词典的英汉机器翻译系统在词法分析和目标语生成方面具有较高的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号