首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
为了提升微博话题发现效率以及发现质量问题,提出了一种融入公众情感投入分析的微博话题快速发现与细分方法,促使话题演化,进而产生新话题及其情感变化趋势.首先,基于情感词典和TFDF值在历史语料库中挖掘常用情感词并构建情感词库;其次,快速抽取情感文本,结合Sigmoid函数检测情感投入密集期,保证话题事件挖掘的质量;最后,通过改进的模糊C-均值聚类算法在新的微博数据中发现高质量话题.实验结果表明,本文方法能够有效提升移动环境下的话题发现效率及质量.  相似文献   

2.
当前演化模型研究中,主要是单一话题在网络中的传播,较少考虑多话题之间的相互影响因素.在SIR模型的基础上提出了基于干扰相似度的多话题演化模型,该模型中的干扰是通过话题相似度对传播概率的影响来表征的.仿真结果表明,在临界值以内,正负两种趋向的话题相似度分别对话题演化的进程起到加强或阻碍作用,作用程度随着被干扰节点的度而变化,分别表现为正向相似度下的演化一致性和负向相似度下的演化分离性.超过临界值时,加强或阻碍作用均趋于饱和.  相似文献   

3.
在复杂网络中自动发现社团具有重要的实际应用价值。本文提出一种基于Jaccard相似度的社团发现方法,首先使用结点的相似度寻找优先邻居结点,再从优先邻居结点中获得最佳邻居结点,最后将互为友好结点的两个结点合并,最终得到若干个结点的组成小社团,然后利用CNM算法凝聚小社团,完成社团发现聚类。实验表明本算法执行时间缩短,所发现社团模块度增加,是一个有效的社团发现算法。  相似文献   

4.
针对大量数据服务冗余,管理效率低的问题,提出一种基于语义相似度的数据服务分类方法。通过对数据服务描述文档提取特征词文档进行聚类分析,构建领域本体库,计算语义相似度,实现数据服务的分类,实验结果表明该方法能有效地提高服务管理效率。  相似文献   

5.
针对微博数据文本内容短小、特征词稀疏以及规模庞大的特点,提出了一种基于MapReduce编程模型的发现微博热点话题的方法。该方法首先利用隐主题分析技术解决了微博内容短小、特征词稀疏的问题,然后利用CURE算法缓解了Kmeans算法对初始点敏感的问题,最后采用基于MapReduce编程模型Kmeans聚类算法,对海量微博短文本数据进行快速聚类。实验结果表明该方法可以有效提高微博热点话题发现的效率。  相似文献   

6.
微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户.  相似文献   

7.
一种融合用户关系的自适应微博话题跟踪方法   总被引:2,自引:0,他引:2       下载免费PDF全文
柏文言  张闯  徐克付  张志明 《电子学报》2017,45(6):1375-1381
针对微博口语化、文本短小等特点以及现有研究的不足,本文提出了一种融合用户关系的自适应微博话题跟踪方法.首先,在当前跟踪的时间窗内,推文被映射到特征空间,并作为候选推文集合.然后,针对推文的分布特点以及话题跟踪的目的,变换推文特征空间.在此基础上,利用改进的K-means聚类算法对候选推文集合进行二元聚类,从而划分出相关推文集合,即当前话题目标模型.本文通过Twitter平台获取数据进行实验,实验结果表明,该方法能够实时地跟踪话题热度的变化以及焦点的演变,并提高了微博中话题跟踪的稳定性.该方法为用户推荐、舆情分析等领域提供了有效的支撑.  相似文献   

8.
《现代电子技术》2016,(3):115-119
针对微博内容实时性的特点,对话题聚类的Single-Pass算法进行了改进,提出将时间参数添加到微博话题相似度检测方法中,并针对微博转发特性的处理方法给出了算法的处理步骤。仿真实验表明,该算法的优点是逻辑简单、算法执行效率高,通过算法的应用有效提高了基于Web数据挖掘的微博话题检测准确度。  相似文献   

9.
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。  相似文献   

10.
针对微博信息噪音大、新颖度难以判断的问题,在动量模型的基础上进行优化,提出了基于时序分析的微博突发话题检测方法。通过动量模型提取候选突发特征后,对特征的动量时间序列分别借鉴信号频域分析理论和股票趋势分析理论进行建模,分析特征的频域特性来识别频繁伪突发特征,分析特征的新颖程度来识别间歇性伪突发特征,合并过滤后的有效突发特征形成突发话题。微博数据实验表明,该方法有效提高了突发话题检测的准确率和F值。  相似文献   

11.
针对现有微博网络舆情分析的研究中没有从全局层面考虑舆情文本特征的情况,结合微博网络舆情的主题及趋向性分析,提出了基于主题发现的微博网络舆情分析模型,从文本预处理、微博文本特征提取、微博舆情的主题发现及趋向性分析三方面进行了具体描述。仿真结果表明,基于该模型实现的微博网络舆情分析方法在微博网络舆情的分析处理中检测效果良好,说明该模型有效。相关内容可为该领域的进一步研究提供有价值的参考。  相似文献   

12.
The data is noisy and diverse,with a large number of meaningless topics in social network.The traditional method of bursty topic discovery cannot solve the sparseness problem in social network,and require complicated post-processing.In order to tackle this problem,a bursty topic discovery method based on recurrent neural network and topic model was proposed.Firstly,the weight prior based on RNN and IDF were constructed to learn the relationship between words.At the same time,the word pairs were constructed to solve the sparseness problem.Secondly,the “spike and slab” prior was introduced to decouple the sparsity and smoothness of the bursty topic distribution.Finally,the burstiness of words were leveraged to model the bursty topic and the common topic,and automatically discover the bursty topics.To evaluate the effectiveness of proposed method,the various experiments were conducted.Both qualitative and quantitative evaluations demonstrate that the proposed RTM-SBTD method outperforms favorably against several state-of-the-art methods.  相似文献   

13.
捕鱼算法优化核极限学习机的微博热点话题预测   总被引:1,自引:0,他引:1  
微博热点话题预测对网络舆情控制与管理具有重要意义,针对微博网络热点话题的随机性、非线性以及核极限学习的隐层权值和隐层阈值优化难题,提出一种捕鱼算法优化在核极限学习的微博热点话题预测模型。首先将微博网络热点话题历史样本划分训练样本和测试样本集,然后采用在核极限学习对微博热点话题训练样本进行学习与建模,并采用捕鱼算法优化在线极限学习的隐层权值和隐层阈值,最后采用微博热点话题测试样本对其性能进行测试。实验结果表明,本文模型可以描述微博热点话题的发展趋势,提高了网络热点话题的预测精度,而且性能优于其它网络热点话题预测模型。  相似文献   

14.
刘洺辛  陈晶  王麒媛 《电信科学》2018,34(10):85-95
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。  相似文献   

15.
情感分类是观点挖掘的热点研究之一,微博文本情感分类具有很高的应用价值.鉴于传统特征选择方法存在语义缺陷,采用神经网络语言模型,提出了基于概率模型的对词向量进行权重分配的深层特征表示方法,构建文本语义向量.将文本深层特征与浅层特征融合,构建融合语义信息的特征向量,弥补传统特征选择方法语义的缺陷.采用SVM层次结构分类模型,实现多种情感分类.实验结果表明,采用特征融合的层次结构情感分类方法,能有效提高微博情感分类的准确率.  相似文献   

16.
苏映雪  付耀文  黎湘 《电光与控制》2007,14(3):12-15,18
Filter特征选择算法具有通用性强、算法复杂度低的特点,但对某一个具体的分类器选择的特征子集也许并不是最优的;Wrapper方法与其相反,对特定的分类器可以找到最优的特征子集,但算法复杂度很高.研究一种Filter与Wrapper相结合的混合型算法.首先从特征对样本分类效果的角度提出互补系数的概念,然后基于ReliefF评估和互补系数,提出ReCom算法.实验证明,由ReCom算法得到的特征子集与ReliefF算法得到的特征子集相比具有更好的性能,并且与传统Wrapper方法相比,该算法大大降低了时间复杂度.  相似文献   

17.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。  相似文献   

18.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

19.
针对现有场景文本识别方法只关注局部序列字符 分类,而忽略了整个单词全局信息的问题,提出 了一种多级特征选择的场景文本识别(multilevel feature selection scene text recogn ition,MFSSTR)算 法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征 和语义特 征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention sele ction decoder, MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制 将新的特征 空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测, 同时在训练 过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本 数据集上识 别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号