首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 571 毫秒
1.
吕楠  罗军勇  刘尧  杨慧洁 《计算机工程》2009,35(23):71-72,7
在话题追踪研究领域,话题随着时间不断发展变化。目前的话题追踪方法无法对话题的发展演化进行全局的把握。针对该问题,提出基于相似度计算的话题演化分析方法。该方法采用时间片划分的思想,通过子话题间的相似度计算得到话题演化的具体过程及细节。实验结果表明,该方法能有效地反映话题的演化历程。  相似文献   

2.
目前的话题追踪方法无法对话题的发展演化进行全局的把握。为了准确地发现话题中各事件的发展演化关系,提出了一种基于事件多向量模型的事件演化分析算法。该方法通过子话题间的相似度计算来构建话题中的事件,利用事件向量间的相似度计算得到话题演化的具体过程及细节。通过在现实数据中的实验,该方法能够有效地反映话题中事件的来龙去脉。  相似文献   

3.
本文提出了一种通过追踪不同时间片内话题的变化趋势进行话题演化分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后对语义意义不明确的话题进行话题过滤,最后通过计算话题的强度和关联度来分析话题的演化趋势。本文对《计算机学报》论文集进行实验,实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,且具有良好的效果。  相似文献   

4.
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。  相似文献   

5.
基于动态阈值和命名实体的双重过滤话题追踪   总被引:1,自引:0,他引:1  
针对话题追踪静态阈值的缺点和虚假相关报道问题,提出一种基于动态阈值和命名实体双重过滤的话题追踪方法.该方法中,研究了KL距离计算初始阈值,并筛选出候选报道;然后,根据报道时间特点研究了动态阈值方法;最后,抽取追踪话题和测试报道中命名实体,计算命名实体间的相似度以及命名实体相同的个数来选出相关报道,完成话题追踪.通过实验证明该方法的可行性,实验结果表明基于动态阈值和命名实体双重过滤方法能有效地改善话题追踪的性能,并有效降低了话题追踪的误报率和漏报率.  相似文献   

6.
目前,话题的演化跟踪方法大部分基于不同时间片对应数据集的特征关键词之间语义相似度与语义距离的计算,忽略话题的不同动态演变阶段各个特征关键词之间关联关系的作用.为此提出一种基于并行关联规则的话题演化跟踪方法.引入时间窗口的概念,对数据集按照时序进行划分,在每个时间窗口获取大规模频繁关键词集;对每个时间窗口的频繁关键词集,应用并行关联规则算法获取关联规则集;筛选并组合所有关联规则集形成话题的相关关键词信息,发现相邻时间窗口的数据集之间的关联关系并实现话题演化跟踪.实验结果表明,与OLDA算法相比,该方法能够更加完整有效地深入分析话题的动态演化细节.  相似文献   

7.
针对动态话题追踪模型高误报率的现象,提出了动态追踪中的误报检测来判断追踪到的相关报道是否误报,进而降低动态模型的误报率。考虑到新报道是否和话题相关,除了依据两者的相似度外,还涉及时间距离、差值关系、分布关系、追踪到的报道和话题核心报道的相似度四方面内容,给出了误报检测因子计算式。实验采用TDT4测试集合和DET曲线进行评测,通过反复实验获得了误报检测因子δ的阈值,与基于信念网络的动态话题追踪模型相比,使用误报检测后模型的最优(Cdet)norm降低了5.032%。  相似文献   

8.
针对以往流行度预测方法未利用演化模式之间的差异和忽略预测时效性的问题,提出了一种基于演化模式的推特话题流行度预测方法。首先,基于K?SC算法对大量历史话题的流行度序列进行聚类,并得到6类演化模式;然后,使用各类演化模式下的历史话题数据分别训练全连接网络(FCN)作为预测模型;最后,为选择待预测话题的预测模型,提出幅度对齐的动态时间规整(AADTW)算法来计算待预测话题的已知流行度序列与各演化模式的相似度,并选取相似度最高的演化模式的预测模型进行流行度预测。在根据已知前20 h的流行度预测后5 h的流行度的任务中,与差分整合移动平均自回归(ARIMA)方法以及使用单一的全连接网络进行预测的方法相比,所提方法的预测结果的平均绝对百分比误差(MAPE)分别降低了58.2%和31.0%。实验结果表明,基于演化模式得到的模型群相较于单一模型能更加准确地预测推特话题流行度。  相似文献   

9.
王振飞  刘凯莉  郑志蕴  王飞 《计算机科学》2017,44(8):270-273, 279
话题演化研究有助于追踪用户的喜好和话题的发展趋势,对于舆情预警具有重要意义。目前,话题演化方法注重运用话题生成模型实现话题演化分析,忽略了话题中时间因素和背景词的存在。以传统话题生成模型LDA为基础,将其扩展为微博话题生成模型MTLDA。MTLDA模型增加了对背景词的考虑,提高了话题生成的效率,同时对微博话题集进行时间片划分,利用KL距离计算相邻时间片话题距离,分析话题演化情况。以新浪微博数据为例进行实验,结果表明,MTLDA模型通过时间片划分完成了微博话题的生成,话题演化结果与实际情况吻合。  相似文献   

10.
基于LDA模型的新闻话题的演化   总被引:1,自引:0,他引:1  
新闻话题及演化的研究可以帮助人们快速了解和获取新闻内容。提出了一种挖掘新闻话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化。首先应用LDA(Latent Dirichlet Allocation Model)对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意两个话题的分布距离实现话题的关联。实验结果证明该方法不但可以描述同一个话题随时间的演化过程,还可以描述话题内容随时间的变化,反映了话题(或子话题)之间多对多的演化关系。  相似文献   

11.
基于LDA模型的BBS话题演化   总被引:1,自引:0,他引:1  
BBS(论坛)作为一种新兴的网络媒体,是网民获取信息和发表评论的主要渠道之一。怎样组织BBS上的话题,发现和跟踪新话题以及话题的演化成为了研究的热点。传统的方法更多的是去检测和跟踪话题,而没有考虑话题的演化。提出了基于LDA模型的话题演化方法,表示话题在时间上的演化情况,发现热门话题和冷门话题,能更好地指导网民了解正在发生的事情。实验证明有很好的效果。  相似文献   

12.
针对话题先验相关报道稀疏性及在话题发展过程中所产生的漂移问题,结合微博文本特点提出了一种基于双态模型的微博话题跟踪方法。该方法首先提出了双态话题模型的构建方法,将其划分为永久存储区域和临时存储区域,分别用于保持跟踪话题的中心和跟踪话题部分特征词的变迁;并在跟踪过程中动态更新话题模型,能有效应对微博话题发展所产生的漂移。将该方法与其他微博话题跟踪方法进行对比,结果表明,该方法使得漏检率和误检率等指标均得到降低,有效地提高了话题跟踪的效果。  相似文献   

13.
在文本流数据中,文本文档以流的形式源源不断地进入系统,数据量大和数据更新速度快给文本流话题发现与追踪提出了严峻的挑战。为了应对上述困难,本文提出了一种基于联合矩阵分解的话题发现与追踪模型。为了有效地处理海量数据,将流数据按照时间戳划分为数据块;为了能在数据的快速变化中追踪到话题的演化,将当前时刻的话题分布表示为前一时刻话题分布的线性演化。本文采用联合矩阵分解技术将当前的数据块分别表示为当前的话题分布和前一时刻的话题分布两种形式,通过同时分解两个矩阵得到当前的话题分布。在优化求解过程中,通过Karush-Kuhn-Tucker条件分析得到参数的更新策略,并给出相应的求解算法。Yahoo数据集对比实验表明,本文提出的话题发现算法能更好的发现文本流中蕴含的话题分布情况,并且可以随着时间的推移对话题的演化进行追踪。  相似文献   

14.
郑燕  鲁燃  赵爱华 《计算机应用》2012,32(5):1343-1346
在话题追踪过程中,由于给定的初始话题相关报道少,而且话题具有动态演变的特点造成话题模型不准确。针对这一问题,提出了利用动态阈值收集反馈报道构造话题修正模型,实现了话题模型的动态修正;同时结合命名实体能够更加有效地区分不同话题的特性,提出了在修正话题模型时增大相关命名实体权重的方法,从而获得更准确的话题表示模型。实验结果表明,该方法能有效避免话题漂移现象,降低话题追踪过程中的漏报率和错报率。  相似文献   

15.
基于反馈学习自适应的中文话题追踪   总被引:7,自引:1,他引:7  
在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。  相似文献   

16.
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。  相似文献   

17.
为解决传统词共现方法在微博中检测话题时计算复杂度大、查全率不高、查准率低的情况,提出一种基于粗糙集原理的改进词共现算法(RSCW).通过词共现关系形成词共现矩阵,并由共现矩阵找出极大完全子图作为话题簇中心,最后由粗糙集原理找出每个话题的关键词集合.在NLPIR微博内容语料库和实时获取的微博数据集上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率.  相似文献   

18.
刘晓亮 《计算机应用》2012,32(11):3026-3029
针对互联网论坛话题追踪,提出一种基于维基百科知识的军事话题追踪方法。该方法首先以基于维基百科的词语语义相关度与共现统计方式,同时结合军事主题与帖子的结构特征建立文本图中节点间的关系边及其权重;接着以改进的基于图的链接挖掘方法选取帖子关键词;最后通过计算话题与文本关键词列表间的语义相关度实现话题追踪。实验表明,该方法无需大规模样本训练与语义知识的手工构建,能够有效解决语义稀疏对追踪所带来的负面影响,较好地追踪到军事话题帖。  相似文献   

19.
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号