首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
首先在分析微博文本特点的基础上设计了一种垃圾微博的过滤算法;针对微博数据稀疏性这一问题,利用社区内部联系紧密的特性,提出了微博评论树的概念和一种话题热度评价模型.最后基于以上两点提出了一种微博社区热门话题检测方法.真实数据集上的实验表明了过滤的必要性和所提出的微博社区热门话题检测方法的有效性.  相似文献   

2.
给出基于LSC模型的EM方法进行汉语语义优选的学习。具体步骤是首先随机为参数模型赋予初值;然后迭代运行EM算法,直到收敛;最后计算动词和名词的语义关联度,以此衡量其搭配的可能性。大量实验结果表明LSC模型能够较好地体现动、名词的搭配模式,且算法迭代收敛速度快。该方法无需语法标注的语料库,适合应用于汉语。  相似文献   

3.
针对传统语言模型无法直接提取句子的双向语义特征,导致情感分类准确率较低的情况,提出一种结合预训练语言模型ALBERT、BiLSTM以及Attention机制的微博评论情感分析模型ALBERT-BiLSTM-Att。在公开数据集weibosenti100k上,经过五折交叉验证实验,ALBERT-BiLSTM-Att模型的准确率达到93.30%。  相似文献   

4.
随着微博的日趋流行,微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博用户及其转发内容的挖掘进行转变,该文提出了一种新的方法挖掘微博用户评论和所转发微博的文字信息,将被用户关注的层面发掘出来,从而并产生推荐。  相似文献   

5.
黄铃  李学明 《计算机应用》2013,33(12):3563-3566
针对微博上存在的大量垃圾评论,提出一种基于AdaBoost的微博垃圾评论识别方法。该方法首先提取表示微博评论的特征值向量,由8个特征值组成,然后通过AdaBoost算法在这些特征上训练出若干个比随机预测好的弱分类器,最后将得到的弱分类器加权集合成高精度的强分类器。从实际的热门新浪微博中提取评论数据集进行实验,结果表明所选取的8个特征是有效的,该方法对于微博垃圾评论的识别拥有较高的识别率。  相似文献   

6.
立场分析旨在发现用户对特定目标对象所持的观点态度。针对现有方法往往难以克服标注数据匮乏及微博文本中大量未登录词等导致的分词误差的问题,提出了基于迁移学习及字、词特征混合的立场分析方法。首先,将字、词特征输入深度神经网络,级联两者隐藏层输出,复现由分词错误引起的缺失语义信息;然后,利用与立场相关话题的辅助数据训练话题分类模型(父模型),得到更为有效的句子特征表示;接着,以父模型参数初始化立场分析模型(子模型),从辅助数据(话题分类数据)迁移知识能加强句子的语义表示能力;最后,使用有标注数据微调子模型参数并训练分类器。在NLPCC-2016任务4的语料上进行实验,F1值达72.2%,优于参赛团队的最佳成绩。实验结果表明,该方法可提高立场分类性能,同时缓解分词误差带来的影响。  相似文献   

7.
基于评论异常度的新浪微博谣言识别方法   总被引:2,自引:0,他引:2  
以微博为代表的社交媒体在为公众提供信息共享平台的同时, 也为谣言提供了可乘之机.开展微博中谣言的识别和清理方法研究, 对维护社会的安全稳定有着重要的现实意义.本文针对新浪微博平台中谣言识别的问题, 提出了一种基于评论异常度的微博谣言识别方法.首先采用D-S理论实现微博评论异常度的计算方法; 然后利用评论异常度与微博的内容特征、传播特征、用户特征对微博进行抽象表示; 最后再利用SVM (Support vector machine)构建一个基于评论异常度的谣言识别模型, 实现对新浪微博中谣言微博的识别.实验表明, 本文提出的谣言识别模型对新浪微博中谣言识别具有较好的效果, 谣言微博识别的F1值达到了96.2 %, 相较于现有文献的最好结果提高了1.3 %.  相似文献   

8.
K Means聚类算法由于无法准确确定初始化聚类中心,容易造成 聚类结果准确率低下。对微博数据聚类时,可能会导致无法正确反映兴趣热点。本文 设计了基于主动学习的聚类算法,在确定初始聚类中心过程中应用Min Max主动学习策略, 使 得算法每次在很小数量的查询后都会提供数据点供用户进行初始中心点确认,并在K Means算 法中重新计算聚类中心时设置其权重值,从而减少迭代的数量,提高聚类结果的准确 率,并将这一算法运用于微博聚类分析,得出微博热门话题。  相似文献   

9.
该文在分析总结影响微博用户推荐的四大类信息,包括用户的内容信息、个人信息、交互信息和社交拓扑信息的基础上,提出一个基于排序学习的微博用户推荐框架,排序学习的本质是用机器学习中的分类或回归方法解决排序问题,该框架可以综合各类信息特征进行用户推荐。实验结果表明 (1)融合多个特征综合推荐通常可以取得更好的推荐效果;(2)基于用户个人信息、交互信息、社交拓扑信息的推荐效果均好于基于用户内容的推荐效果。  相似文献   

10.
李伟  黄贤英  冯雅茹 《计算机应用研究》2023,40(6):1674-1678+1685
无监督常识问答是利用机器自动生成问答数据来对模型进行训练的问答模型,目前方法生成的问答数据中存在噪声数据和问题的难度随机的问题。提出一种基于课程学习的无监督常识问答模型,首先根据知识生成问答数据集,再对问答数据集进行多样化评估和流畅性评估,结合两个评估结果进行数据过滤,去除噪声数据;最后根据课程学习策略,使用干扰项与正确答案的相似度作为问题难度评估标准,使得模型根据难度等级来进行训练。在测试任务上具有1.5%~3.5%的准确率提升,证明了该模型在无监督常识问答任务上的有效性。  相似文献   

11.
微博客的产生和发展对于新闻来说是一场革命,它打破了传统媒体一些中规中矩的状态。在带给传统媒体挑战与生机的同时,也与之互为补充地共存着。辩证地看待微博与传统媒体之间的关系,从它们对立统一的关系中对比出之间的异同,在此基础上总结微博所独有的新闻价值。微博客让新闻传播更快捷,接收更主动,内容各方面都更加人性化,是微博存在与发展的根源,也是新闻贡献于人民的助力车。  相似文献   

12.
王臻皇  陈思明  袁晓如 《软件学报》2018,29(4):1115-1130
随着微博的发展,其影响力日益增大,对微博主题内容进行分析具有重要的价值.主题模型技术能够从文本数据中提取主题,但是,由于微博文本短、随意性大、信息量小等特点,微博主题的分析具有一定的难度.提出了一个微博主题可视分析系统,利用多种互相关联的视图与丰富的交互手段,支持用户对主题模型结果进行分析与探索.系统结合了微博数据的特点,引入微博用户与时间因素,支持分析者从多角度对微博主题进行全面分析.系统支持用户在主题可视分析的基础上,通过交互操作对主题进行编辑,从而改进主题模型,提高模型的准确性和可靠性.案例分析结果表明,提出的系统可以有效地帮助用户分析微博主题和修正主题.  相似文献   

13.
李锐  王斌 《中文信息学报》2014,28(2):136-143
近年来,微博的发展令人瞩目,微博检索已经成为一个重要的研究课题。而微博具有文本内容短、更新快、融合社交网络等特点,这些特点使微博的检索不同于传统的web检索。该文首先分析了传统的向量空间模型、概率模型以及基本的语言模型直接用于微博检索将面临的问题;接着在语言模型框架下提出了利用作者信息对微博内容进行扩展的思想,即利用作者信息重新估计微博的语言模型;然后针对话题模型在短文档训练中存在的问题,提出了使用作者的文档话题模型来进一步扩展微博的内容;最后在TREC公开数据集上进行了实验。实验结果表明,可以通过合理使用作者信息来有效的提高微博检索的效果。  相似文献   

14.
通常的微博观点句识别主要根据微博评论本身是否带有观点来进行判断,而案件微博的观点句识别需要进一步考虑该评论是否讨论与特定案件相关的主题。针对这一任务,该文提出一种结合微博原文进行特征扩展的观点句识别模型。以卷积神经网络分类模型为基本框架,在嵌入层加入案件微博原文中的关键词向量,与对应评论词向量进行拼接;利用扩展的特征进行观点句识别。实验表明,该模型在根据案件微博爬取的两个数据集下准确率分别达到84.74%和82.09%,与现有的基准模型相比有较明显提升。  相似文献   

15.
微博即微博客,是Web2.0时代下衍生出的一种新型社会网络,其简单快捷的操作方式和随时随地发布信息的互动形式成为互联网的一大亮点。自2006年美国Obvious公司推出全球首个微博服务Twitter后,微博以惊人的发展速度受到国内外研究人员的广泛关注。该文首先对以Twitter为代表的微博其研究现状进行综述,主要包括(1)微博社会网络的特性分析,如微博用户网络的结构特征、微博用户的影响力分析及消息网络的信息传播机制等;(2)微博内容的语义分析,对微博中的情感语义分析进行了重点阐述;(3)微博的相关应用,包括微博在事件监测与预警、安全隐私及实时检索中的应用。然后概述了中文微博的研究现状,包括中文微博的特性及知识发现,分析了中文微博与英文微博的主要区别。最后讨论目前微博研究中存在的问题及未来中文微博的研究方向。  相似文献   

16.
针对微博语言口语化和不规范导致微博数据质量低下的问题,利用质心、度-中心值和特征向量-中心值3种算法对微博话题数据进行净化,从而提高数据质量.通过比较净化前后话题帖子的规范性、相关性和有益性等属性指标分析算法性能.实验结果表明,经过3种净化算法处理,话题帖子的整体质量尤其是规范性指标均有所提高,质心算法对于有益性指标有较好的净化效果,度-中心值和特征向量-中心值算法有助于得到强相似度的话题帖子.  相似文献   

17.
针对新浪微博评论信息准确分类问题,本文基于遗传算法(genetic algorithm, GA)、粒子群算法(particle swarm optimization, PSO)和支持向量机(support vector machine, SVM)算法,提出一种改进GA-IPSO-BSVM (genetic algorithm-improved particle swarm optimization-balanced support vector machine)的分类模型,以实现提升新浪微博评论信息分类的准确性和收敛性.首先,为了有效提升算法的收敛速度,并高效节省计算资源,该模型在迭代前期引入GA的淘汰机制,删除大量低速粒子.其次,在迭代中期,为了避免算法陷入局部最优解,改进PSO中粒子关系的拓扑结构,采用K均值聚类(K-means)算法对粒子群进行聚类分区,将各粒子群体在所属社区中进行粒子群迭代,选出各个区域中优秀粒子.再次,在迭代后期,将所有区域优秀粒子组合成优秀粒子群体,并将该群体进行迭代,得出全局最优解.从次,结合GA和IPSO对BSVM进行超参数优化,提升分类准确率.最后,利...  相似文献   

18.
任远  巢文涵  周庆  李舟军 《计算机科学》2013,40(11):231-235,270
近年来,随着社会网络的迅速兴起,面向社会网络的情感分析技术逐渐成为数据挖掘领域新的研究热点。中文微博以其语言简短、文法灵活的特点,给情感分析的研究工作带来了新的挑战。对数据预处理、情感词典构造、话题元素引入等中文微博情感分析技术进行了系统的研究,提出了给情感词分级的方法以提升情感分析的准确度;同时提出了面向话题的自适应方法以更准确地识别情感词;最后实验结果验证了以上方法的有效性。  相似文献   

19.
舆情分析关乎国家发展与社会和谐,目前已有越来越多的机构和行业从事舆情分析。面对互联网海量的数据信息,新浪微博舆情热点分析系统以目前使用极为普遍的新浪微博为数据源,着眼于新浪微博热点信息的分析。新浪微博舆情热点分析系统目前已经实现了微博抓取、微博分析。文章介绍了系统的体系结构和详细设计,并对系统在实现中所遇到的主要问题及解决方案进行了描述。最后,文章分析了系统需要改进的方面,以及该领域的研究和发展方向。  相似文献   

20.
从时间维度刻画了微博舆论的演变过程,分别是萌芽期、形成期、爆发期、高潮期和消退期,分析了各个阶段的形成动因。以“三亚宰客门”为例,详细分析了微博舆论的演变过程,提出了微博舆论的应对策略。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号