首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 198 毫秒
1.
网络舆情具有时效性强、传播迅速、涉及方面杂而广、意见指向性特征明显、泛娱化特征明显等特点。因此,提出对LDA输入数据采用TF-IDF算法加强特征词筛选的方法。选取"巴黎圣母院大火"事件,采集作为网络舆情重要来源的微博数据,进行LDA建模,引入TF-IDF算法进行特征词的筛选,能较准确地分析出该事件的主题分布。  相似文献   

2.
在社交网络时代,自媒体已成为群众发布、获取信息的重要渠道,网络舆情研判已经成为各级政府部门的主要任务之一。自媒体在反映个人情感和意见思潮的同时,也会汇聚群众的情感共鸣,因此对舆情文本的情感进行分析并获取其主题成为关键。通过爬虫工具对相关舆情文本进行抓取,将获取的数据使用Python的SnowNLP模块进行情感倾向划分,结合无监督的机器学习算法LDA主题模型进行文本关键词聚类,从而确定舆情规模、情感演变规律和舆情的热点主题词,为完善舆情应对机制提供科学支持。  相似文献   

3.
基于差分分段PCA的多模态过程故障监测   总被引:2,自引:0,他引:2  
谭帅  王福利  常玉清  王姝  周贺 《自动化学报》2010,36(11):1626-1636
多模态的故障监测是一个复杂的问题, 既需要考虑稳定模态下的故障监测, 也需要考虑不同模态间的过渡故障监测. 不同稳定模态下的数据具有不同的相关关系, 对每个稳定模态需要建立不同的稳定模态模型. 当稳定生产模态发生改变时, 生产过程进入过渡模态, 需要考虑过渡变量相关关系的变化. 本文通过对过渡数据差分, 得到变量相对变化信息. 利用主成分分析(Principal component analysis, PCA)分段对差分变量的相关特性进行分析, 提取相对变化的特征. 最后以实际连续退火机组生产线为背景, 用基于差分分段PCA的多模态方法对多模态过程进行故障监测, 发现算法很好地反映了实际过渡过程机理, 验证了算法的有效性.  相似文献   

4.
由于多模态数据中的数据分属多种模态且相互之间存在互补关系,所以利用传统单模态数据的分析和处理方法无法有效地融合不同模态的数据并表示和处理不同模态数据之间的相互关系。为了解决多模态数据的建模、表示和存储问题,使得更好地融合不同模态的数据及更有效地表示数据之间的相互关系,本文提出了一种新的数据模型,即模态结构图,用于多模态医学数据的建模。该模型利用图结构对多模态数据中的模态及模态间的关系进行建模和表示。基于此模型,本文提出了一种并行的数据加载技术,用于抽取出多模态医学数据中分属不同模态和模态间关系的数据并存储到图数据库中。通过使用批量医学数据文件进行实验,验证了该提取加载技术能够获得较好的数据处理效率。  相似文献   

5.
情感分析是指利用计算机自动分析确定人们所要表达的情感,其在人机交互和刑侦破案等领域都能发挥重大作用.深度学习和传统特征提取算法的进步为利用多种模态进行情感分析提供了条件.结合多种模态进行情感分析可以弥补单模态情感分析的不稳定性以及局限性等缺点,能够有效提高准确度.近年来,研究者多用面部表情信息、文本信息以及语音信息三种模态进行情感分析.主要从这三种模态对多模态情感分析技术进行综述:首先对多模态情感分析的基本概念以及研究现状进行简要介绍;其次总结了常用的多模态情感分析数据集;然后分别对现有的基于面部表情信息、文本信息和语音信息的单模态情感分析技术进行简要叙述;接下来详细介绍了模态融合技术,并依据不同的模态融合方式对多模态情感分析技术的现有成果进行重点描述;最后讨论了多模态情感分析存在的问题以及未来的发展方向.  相似文献   

6.
现有的大多数虚假新闻检测方法将视觉和文本特征串联拼接,导致模态信息冗余并且忽略了不同模态信息之间的相关性。为了解决上述问题,提出一种基于矩阵分解双线性池化的多模态融合虚假新闻检测算法。首先,该算法将多模态特征提取器捕捉的文本和视觉特征利用矩阵分解双线性池化方法进行有效融合,然后与虚假新闻检测器合作鉴别虚假新闻;此外,在训练阶段加入了事件分类器来预测事件标签并去除事件相关的依赖。在Twitter和微博两个多模态谣言数据集上进行了对比实验,证明了该算法的有效性。实验结果表明提出的模型能够有效地融合多模态数据,缩小模态间的异质性差异,从而提高虚假新闻检测的准确性。  相似文献   

7.
杨杨  詹德川  姜远  熊辉 《软件学报》2021,32(4):1067-1081
近年来多模态学习逐步成为机器学习、数据挖掘领域的研究热点之一,并成功应用于诸多现实场景,如跨媒介搜索、多语言处理、辅助信息点击率预估等.传统多模态学习方法通常利用模态间的一致性或互补性设计相应的损失函数或正则化项进行联合训练,进而提升单模态及集成的性能.而开放环境下,受数据缺失及噪声等因素的影响,多模态数据呈现不均衡性.具体表现为单模态信息不充分或缺失,从而导致“模态表示强弱不一致”、“模态对齐关联不一致”两大挑战,而针对不均衡多模态数据直接利用传统的多模态方法甚至会退化单模态和集成的性能.针对这类问题,可靠多模态学习被提出并进行了广泛研究,本文系统地总结和分析了目前国内外学者针对可靠多模态学习取得的进展,并对未来研究可能面临的挑战进行展望.  相似文献   

8.
目前恐高情绪分类中的生理信号主要涉及脑电、心电、皮电等, 考虑到脑电在采集和处理上的局限性以及多模态信号间的融合问题, 提出一种基于6种外周生理信号的动态加权决策融合算法. 首先, 通过虚拟现实技术诱发被试不同程度的恐高情绪, 同步记录心电、脉搏、肌电、皮电、皮温和呼吸这6种外周生理信号; 其次, 提取信号的统计特征和事件相关特征构建恐高情感数据集; 再次, 根据分类性能、模态和跨模态信息提出一种动态加权决策融合算法, 从而对多模态信号进行有效整合以提高识别精度. 最后, 将实验结果与先前相关研究进行对比, 同时在开源的WESAD情感数据集进行验证. 结论表明, 多模态外周生理信号有助于恐高情绪分类性能的提升, 提出的动态加权决策融合算法显著提升了分类性能和模型鲁棒性.  相似文献   

9.
如何从海量聊天数据获取聊天主题和聊天人物行为是案件智能化分析的热点问题之一.传统词嵌入方法,将文本中的所有词汇映射到向量空间,存在词汇特征冗余的问题.为了缓解这一问题,该文提出一种基于候选主题词的话题分类算法—CTW(candidate topic words).该算法使用LDA主题模型抽取聊天文本中的关键词,使用预训...  相似文献   

10.
多模态是复杂工业生产过程的普遍特性.不同模态具有不同的过程特性,需要建立不同的模型,因此离线建模数据的模态划分与识别是整个多模态过程建模的关键问题之一.目前,常用的聚类算法需要对其结果进行人工分析和后续处理,无法真正实现多模态过程的全自动模态识别.因此,本文提出一种全自动的多模态过程离线模态识别方法.首先通过宽度为H的大切割窗口对数据进行切割,利用改进的K-means聚类算法对窗口单元进行聚类;根据聚类结果,对稳定模态淹没现象进行处理,得到模态的初步划分结果;最终,利用小滑动窗口L,对稳定模态及过渡模态交接区域进行细划分,准确定位稳定模态与过渡模态的分割点.算法实现了多模态过程的全自动离线识别,并给出合理有效的识别结果.仿真分析表明此方法能够实现模态的自动识别,且识别结果准确.  相似文献   

11.
话题检测可以及时发现互联网舆情热点和突发性事件,并可对话题进行持续跟踪,从而实时掌握舆情事件动向。文中提出了一种基于聚类的改进话题检测和跟踪算法。首先,对文本的特征向量进行改进,增加了基于句子主干的主干向量。然后对每个检测到的话题提取两个中心向量,一个是基本中心向量,另一个是基于主干向量提炼的主干中心向量。在此基础上再通过计算每个文本与中心向量之间的距离进行聚类分析,保证话题中各个文本之间的内聚性。同时基于主题词抽取,在主题词的基础上计算话题之间的主题相关性,有效地实现了子话题检测功能,从而提高了话题检测和跟踪的准确性。通过对10大网站5个频道超过两周数据量的测试,结果表明此方法在一定程度上提高了话题检测和跟踪的正确率,并具有一定的适应性和推广性。  相似文献   

12.
随着自媒体的迅速发展,微博中的舆情监控和舆情疏导成为一项重大的研究课题. 为了解决传统话题检测方法对于微博中大数据的分析往往具有复杂度高、实时性低、影响力小等问题,提出一种基于词共现和情感分析的突发话题检测方法. 通过研究微博中情感的突发和共现关系,从而建立情感子空间模型;通过该模型对微博中的信息流进行分类,最后对每个类别中的微博进行主题词提取,实现话题检测的目的. 在NLPIR微博内容语料库上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

13.
舆情新闻事件跟踪,是舆情监控、热点分析、政策制定等研究和应用的重要基础。针对舆情新闻的稀疏性、敏感性、易演化性、次生性等特点,基于在线Biterm主题模型(online Biterm topic model,DBTM),通过随机坍缩变分贝叶斯(stochastic collapsed variational Bayesian inference,SCVB0)算法更新参数,提出面向舆情新闻事件监控的主题模型MBTM(monitor Biterm topic model),利用该模型检测初期事件主题,跟踪后续新闻所属的主题。为了对存在关联关系的事件进行串联,进一步给出事件线索的概念,分别从主题层面和语义层面度量线索关联度,进而针对新闻事件主题生成事件线索。实验结果表明,MBTM模型在大多数指标上均优于OBTM等模型,验证了该方法的有效性和高效性。  相似文献   

14.
针对网络论坛热点话题的识别、发现和舆情监测问题,提出一种基于热度熵值的热点话题发现方法。通过网络爬虫抓取网络论坛中的数据,在对数据进行预处理和分析热点话题属性特征的基础上,合理定义各属性的权重和话题的热度熵值,并以此对话题的热点信息进行分析、统计与评估,从而发现和追踪网络论坛中的热点话题。同时,对话题的热度进行细致划分和各种类型的定义,采用不同阈值策略计算不同类型的热度信息标注的准确率。实验结果表明,该方法合理、有效,相比于传统的话题语义分析方法具有较高的准确率,可作为互联网论坛舆情监测的依据。  相似文献   

15.
高校网络舆情是大学生在校园背景下,对网络上直接关系到大学生或者自身感兴趣的公共事件所持态度、认知、意见、情感交叉的集合。随着网络应用的普及,高校网络舆情可能朝着任一个不可控的方向发展,因此,高校网络舆情研究是高校管理中的重要工作之一。本文以百度贴吧中的泰州学院吧为数据源,利用网络爬虫采集泰州学院吧主题帖内容和回帖数量作为实验数据,通过Python数据分析技术分析高校网络舆情的热点话题,并通过数据可视化技术进行数据分析结果展示,基于数据分析结果研究高校网络舆情热点话题成因与影响,最终提出相关引导策略以促进互联网环境下大学生全面发展和推进校园和谐建设。  相似文献   

16.
对微博话题的立场进行精确研判是短文本挖掘的重点之一。文章提出了一种基于主题相关性对微博分类研判的方法,旨在识别网民对于微博话题的立场,是支持还是反对。微博和主题的相关性大小,常常会导致其文本特征有较大差异。文章首先利用关键词提取技术和互信息计算方法获取话题主题词集,接着对话题语料按是否与主题相关进行分类,然后分别采用机器学习和词典规则两种方法进行研判,综合得到话题的立场。实验结果表明,主题相关文本采用机器学习而主题无关文本采用词典规则的方法可以大大提高研判准确率。以此为基础,文章构建了一个微博话题立场研判模型,可用于政府有关部门监测互联网舆情以及企业评估产品市场等方面。  相似文献   

17.
主题检测是互联网舆情分析任务中不可或缺的工作,在话题发现、热点话题等方面会遇到大量的不同种类的文本,它们有着不同的特性,却包含着相同的主题。有效地利用不同源的特性具有重要的科研和实践意义。大多数主题模型都是检测单一来源的文档,但媒体消息都是从多种平台进行传播,而且消息长度不一,不同平台都有其各自的属性,从而导致难以进行统一的舆情监控。为此,提出了一个基于共现关系的多源主题融合模型(Multi-source Topic Fusion Model,MTFM),该模型将共现(同一内容在不同地方出现)纳入到多源主题融合模型中实现异类源的准确话题提取。实验结果表明,与当前用于不同源主题检测的经典模型相比较,MTFM提供了另一种挖掘主题的方法。  相似文献   

18.
当今时代, 网络舆情传播速度快、影响力大, 而话题检测在网络舆情监管中有着不可替代的作用. 针对传统方法提取文本特征不完整和特征维度过高的问题, 本文提出了基于时间衰减因子的LDA&&Word2Vec文本表示模型, 将LDA模型的隐含主题特征和Word2Vec模型的语义特征进行加权融合, 并引入了时间衰减因子, 同时起到了降维和提高文本特征完整度的作用. 同时, 本文又提出了Single-Pass-SOM组合聚类模型, 该模型解决了SOM模型需要设定初始神经元的问题, 提高了话题聚类的精度. 实验结果表明, 本文提出的文本表示模型和文本聚类方法较传统方法拥有更好的话题检测效果.  相似文献   

19.
李勇敢  周学广  孙艳  张焕国 《软件学报》2017,28(12):3183-3205
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,我们研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取的召回率较低问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为2类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括2个部分,一是参加NLPCC2012的公开评测,本文方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了本文算法的实用性.二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出本文的结论.  相似文献   

20.
目前许多观点挖掘方法挖掘粒度过大,导致反馈信息不足。为解决该问题,对标准LDA模型进行改进,提出主题情感联合最大熵LDA模型进行细粒度观点挖掘。首先,考虑到词的位置和语义信息,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;其次,在主题层和单词层之间加入情感层,实现词语级别的细粒度情感分析,并引入情感转移变量来处理情感从属关系,同时获取整篇评论和每个主题的情感极性,实验验证了所提模型和理论的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号