首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
微博突发事件检测是网络舆情分析的重要分支,近年来已受到国内外学者的广泛关注。分析用户行为特征,提出一种用户影响力计算方法,并将其与微博文本特征、传播特征相结合,提出词语突发度概念作为突发词的判定标准,进而抽取突发词集;引入凝聚式层次聚类算法,对突发词集进行聚类,并筛选出合适的突发词类簇用以描述突发事件,从而实现微博突发事件检测。通过实验检测,结果是正确率为63.64%,召回率为87.5%,F值为0.74,表明该方法可以在大量微博数据中有效检测到突发事件。  相似文献   

2.
为了降低社交媒体中突发事件带来的危害,提出一种基于多特征的微博突发事件检测算法。该算法融合了文本情感过滤和用户影响力计算方法。首先,通过噪声过滤和情感过滤得到饱含负面情感的微博文本;然后,采用提出的用户影响力计算方法并结合突发词提取算法来提取突发词特征;最后,引入凝聚式层次聚类算法对突发词集进行聚类,从中提取突发事件。通过实验检测,准确率为66.84%,验证了该方法能有效地对突发事件进行检测。  相似文献   

3.
突发事件容易引起社会舆论,是监管的重要对象。传统事件检测忽略了博文间影响力的差异。考虑到不同微博对事件的影响力不同,针对时序微博数据流,提出一种结合微博影响力与突发词的突发事件检测框架。在综合考虑用户及博文影响力的基础上,挖掘时间窗口内的重点微博,根据重点微博及历史数据计算突发词,再通过突发词检索的方式构建出具有突发性的潜在事件数据集,通过聚类算法检测突发事件。对比两种常见的事件检测方法,实验表明所提方法在准确率与效率上均有明显提升。  相似文献   

4.
突发事件在微博中迅速传播,产生巨大的影响力,因此,突发舆情受到政府、企业的广泛关注.现有的突发话题检测算法只考虑单一的特征实体,无法处理微博中新词、图片、链接等诱导的突发.面向大规模微博消息流,提出一种无需中文分词的实时突发话题检测框架模型.模型依据消息流动态调整窗口大小,并通过传播影响力度量实体的突发权值.采用高阶联合聚类算法同时对实体、消息、用户进行聚类分析,在检测突发话题的同时,得到话题的关联消息及参与用户.对比实验结果表明,算法的准确性高,能够更早地检测到突发话题.  相似文献   

5.
微博作为异军突起的新媒体,已经成为传统媒体跟踪突发消息的重要来源。文章对突发事件舆情传播的特征与趋势、微博短文本预处理、微博突发事件情感分析3个微博突发事件监测的关键问题进行了阐释和探讨,并基于已有的研究,给出可能地解决方案。最后提出了一个高效的微博突发事件舆情监测的设计框架,通过发现突发事件情感特征及突发期,再对处于突发期的博文进行主题聚类抽取突发事件。  相似文献   

6.
微博已经成为社会新闻舆论最重要的集散地和社会群体平台,对微博信息流进行监测发现,突发事件对于舆情监控具有十分重要的意义。文章通过构建情感向量,采用改进的Kleinberg方法对情感状态进行监测,发现突发事件情感特征及突发期,并采用谱聚类方法对处于突发期的博文进行聚类分析,抽取突发事件。实验结果证明该方法可以快速发现微博流中的突发事件,是一种有效的在线事件检测方法。  相似文献   

7.
针对微博等自媒体平台中,突发事件存在的突发性、多爆发点,给突发事件检测带来困难,提出一种整合用户情感过滤的突发事件检测方法.该方法首先将话题映射为层次模型,以时序驱动的方式动态调整模型特征,探测信息新话题.以此为基础分析用户对该话题所持有的情感态度,依据用户的情感态度将话题划分为正面和负面情感倾向两类,并将饱含负面情感倾向的话题视为突发话题.实验证明,无论是准确率还是查全率所提方法均比baseline提高约10%以上.  相似文献   

8.
随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection, FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection, T-TD)和基于突发词的话题检测(Burst words-based topic detection, BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。  相似文献   

9.
提出一种基于状态自动机的突发特征检测算法,针对微博数据长度小,语言不规范,噪声大,数据量大的特点,优化预处理过程和状态自动机模型参数;提出一种突发话题聚类算法,对特征词的词频向量表示进行改进,并引入基于词激活力(WAF)的词法特征,使得聚类效果更加准确,得到的突发话题可读性更强.最后通过实验方法验证了算法的可行性.  相似文献   

10.
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。  相似文献   

11.
微博空间存在大量的广告内容,这些信息严重影响着普通用户的用户体验和相关的研究工作。现有研究多使用支持向量机(SVM)或随机森林等分类算法对广告微博进行处理,然而分类方法中人工标注大数据量训练集存在困难,因此提出基于聚类分析的微博广告发布者识别方法:对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别微博广告发布者。实验结果显示,所提方法准确率为92%,召回率为97%,F值为95%,证明所提方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供理论支持和实用方法。  相似文献   

12.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。  相似文献   

13.
提出一种基于词项关联关系与归一化割加权非负矩阵分解的微博用户兴趣模型构建方法.该方法首先基于词分布上下文语义相关性来建立词项关联关系矩阵刻画词项间相似度,然后应用归一化割加权非负矩阵分解算法获取用户—主题矩阵,产生用户感兴趣的微博主题聚类结果.实验表明,此方法能有效地进行微博主题聚类,并支持微博用户兴趣模型构建.  相似文献   

14.
如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题对于突发事件的应急响应和处置至关重要,而传统的突发话题检测方法往往忽略了负面情感突发话题与非负面情感突发话题之间的区别,为此提出了一种面向微博文本流的负面情感突发话题检测(NE-BTD)算法。首先,将微博中的主题词对的加速度和负面情感强度变化率作为负面情感突发话题的判定依据;然后,利用突发词对的速度确定负面情感突发话题的窗口范围;最后,使用一种基于吉布斯采样的狄利克雷多项式混合模型(GSDMM)聚类算法得到窗口中负面情感突发话题的主题结构。在实验中将所提出的NE-BTD算法与已有的一种基于情感方法的话题检测(EBM-TD)算法进行对比,结果表明所提出的NE-BTD算法相较EBM-TD算法准确率和召回率至少提高了20%,并且可以至少提前40 min检出负面情感突发话题。  相似文献   

15.
从微博中准确高效地挖掘出正在发生的热点事件是近年来研究的热点。通过综合考虑微博用户的粉丝数量和微博本身的转发、评论次数计算每条微博的影响力,从而提出一种基于影响力的微博新兴热点事件检测方法 IEED(Influence-Based Emerging Hotspot Event Detection)。该方法运用层次聚类将微博帖子聚类为事件集,并提取出事件中的关键词构成事件摘要。通过运用现实生活中的新浪微博数据作为实验数据集来测试所提出的方法,实验结果证明,基于影响力的微博新兴热点事件检测方法(IEED)能在早期高效地检测出微博中的新兴热点事件,具备一定的应用价值。  相似文献   

16.
基于特征映射的微博用户标签兴趣聚类方法   总被引:1,自引:1,他引:0  
针对现有的用户兴趣聚类方法没有考虑用户标签之间存在的语义相关性问题,提出了一种基于特征映射的微博用户标签兴趣聚类方法。首先,获取待分析用户及其所关注用户的用户标签,选取出现频数高于设定阈值的标签构建模糊矩阵的特征维;然后,考虑标签之间的语义相关性,利用特征映射的思想将用户标签根 据其与特征维标签之间的语义相似度映射到每个特征维下,计算每个特征维所对应的特征值;最后,利用模糊聚类得到了不同阈值下的用户兴趣聚类结果。实验结果表明,本文提出的基于特征映射的微博用户标签兴趣聚类方法有效地改善了用户兴趣聚类效果。  相似文献   

17.
为解决传统词共现方法在微博中检测话题时计算复杂度大、查全率不高、查准率低的情况,提出一种基于粗糙集原理的改进词共现算法(RSCW).通过词共现关系形成词共现矩阵,并由共现矩阵找出极大完全子图作为话题簇中心,最后由粗糙集原理找出每个话题的关键词集合.在NLPIR微博内容语料库和实时获取的微博数据集上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

18.
为了解决短文本信息流的特征稀疏性对热点话题发现带来的挑战,提出了结合词语互信息和概率主题模型的微博热点话题发现方法。通过建立词共现矩阵并应用对称非负矩阵分解算法获取词项-主题矩阵,再利用概率潜在语义分析模型进行主题发现,最终通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。  相似文献   

19.
微博突发话题检测方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
邱云飞  程亮 《计算机工程》2012,38(9):288-290
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。  相似文献   

20.
针对现有的无监督检测算法对正常用户误检率较高的问题,提出了一种基于矩阵分解的托攻击检测算法。对评分矩阵采用非负矩阵分解技术提取出用户的特征。采用K-means聚类方法对提取出的用户特征聚类,得到初始正常用户集和初始托用户集。利用初始正常用户集的特征对初始托用户集进行二次分类,进一步提高托攻击用户检测的准确率。实验结果表明,所提出的检测算法与其他检测算法相比较能够更有效地检测出托攻击。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号