首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
话题识别与跟踪研究   总被引:24,自引:3,他引:24  
作为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。自1997年以来连续举行的多次大规模评测使得话题识别与跟踪研究正逐步成为近来自然语言处理尤其是信息检索领域的一个研究热点,目前国内在这方面的研究尚处在起步阶段。该文介绍了话题识别与跟踪研究的发展历史、研究任务、主要技术及评价方法等,希望能引起相关研究者对这项研究的关注。  相似文献   

2.
基于子话题分治匹配的新事件检测   总被引:4,自引:0,他引:4  
洪宇  张宇  范基礼  刘挺  李生 《计算机学报》2008,31(4):687-695
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.  相似文献   

3.
李树平  佟林  夏春艳 《网友世界》2014,(19):147-147
话题检测与跟踪旨在实现对新闻媒体信息流中新话题的自动检测以及对已知话题的动态跟踪。它是信息处理中的一项重要技术,如何提取鲁棒的话题样本特征是其中的研究重点。本文主要针对样本中的话题偏移问题,应用数据挖掘技术对样本进行话题偏移补偿,从而有效的删除偏移话题,提升了样本特征的鲁棒性。  相似文献   

4.
话题跟踪旨在实现对新闻媒体信息流中已知话题的动态跟踪。在现有的向量空间模型分类算法的基础上,提出一种基于话题更新的话题跟踪算法,通过实验对其进行评价。  相似文献   

5.
面向互联网新闻的在线话题检测算法   总被引:2,自引:0,他引:2       下载免费PDF全文
程葳  龙志袆 《计算机工程》2009,35(18):28-30
针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。  相似文献   

6.
话题检测可以及时发现互联网舆情热点和突发性事件,并可对话题进行持续跟踪,从而实时掌握舆情事件动向。文中提出了一种基于聚类的改进话题检测和跟踪算法。首先,对文本的特征向量进行改进,增加了基于句子主干的主干向量。然后对每个检测到的话题提取两个中心向量,一个是基本中心向量,另一个是基于主干向量提炼的主干中心向量。在此基础上再通过计算每个文本与中心向量之间的距离进行聚类分析,保证话题中各个文本之间的内聚性。同时基于主题词抽取,在主题词的基础上计算话题之间的主题相关性,有效地实现了子话题检测功能,从而提高了话题检测和跟踪的准确性。通过对10大网站5个频道超过两周数据量的测试,结果表明此方法在一定程度上提高了话题检测和跟踪的正确率,并具有一定的适应性和推广性。  相似文献   

7.
基于增量型聚类的自动话题检测研究   总被引:1,自引:0,他引:1  
张小明  李舟军  巢文涵 《软件学报》2012,23(6):1578-1587
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection and tracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.  相似文献   

8.
话题识别与跟踪中的层次化话题识别技术研究   总被引:19,自引:0,他引:19  
话题识别与跟踪(topic detection and tracking,TDT)旨在发展一系列基于事件的信息组织技术,层次化话题识别(hierarchical topic detection,HTD)是其中一项全新的任务定义形式.通过连续的大规模评测,话题识别与跟踪已成为国际上自然语言处理尤其是信息检索领域的一个研究热点.为此,将自然语言处理与信息检索技术相结合,提出了针对事件特点的切实有效的单粒度话题识别方法,并提出了基于多层聚类的MLCS算法对话题进行层次化组织.所提出的方法具有很好的效果,在TDT2004的HTD评测中,该方法取得了第2名的成绩.  相似文献   

9.
话题关联检测是话题检测与跟踪的一项子任务,是判断随机抽取的两篇新闻报道是否讨论同一个话题的技术。受词语共现模型的启发,结合话题关联检测的特点,提出了词语间的动态同现关系,实现了基于动态共现关系的报道相似度计算方法;探讨了相似度计算方法在中文话题关联检测中的应用。通过实验可知,动态共现关系可以在一定程度上反映报道的语义信息,相似度计算方法很好地改善了中文话题关联检测系统的性能,取得了不错的效果。  相似文献   

10.
根据话题检测任务的定义和特点,本文分析了传统的增量聚类算法和K-means算法的优缺点,提出了基于话题检测的自适应增量K-means算法,设计了话题检测实验,实验结果证明了该算法提高了话题检测性能,具有良好的应用前景。  相似文献   

11.
本文首先简单介绍了话题发现与追踪的发展史及主要任务,然后重点分析比较了现有话题关联识别模型的使用情况,并测试了文档中各层次知识特征对话题关联识别性能的影响。其测试结果对如何评判已有的识别系统或构建好的识别系统具有一定参考价值。  相似文献   

12.
基于多策略优化的分治多层聚类算法的话题发现研究   总被引:1,自引:2,他引:1  
话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类) ,然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。  相似文献   

13.
基于反馈学习自适应的中文话题追踪   总被引:7,自引:1,他引:7  
在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。  相似文献   

14.
一种基于动态进化模型的事件探测和追踪算法   总被引:18,自引:2,他引:16  
在大量分析网络新闻特点的基础上,借鉴Single-Pass聚类思想,并结合新闻要素给出了一种基于动态进化模型的事件探测和追踪算法.该动态模型是基于新闻事件的生存特点提出的,包括:基于时间距离的相似度计算模型、事件模板进化策略以及动态阈值设置思想.该算法可以自动对新闻资料进行组织生成新闻专题,进而为用户提供个性化服务.实验结果验证了算法的有效性.  相似文献   

15.
面向网络论坛的突发话题发现   总被引:1,自引:0,他引:1  
每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在“水木社区”的“水木特快”上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。  相似文献   

16.
随着计算机的普及与互联网的高速发展,Facebook、Twitter、新浪微博等社交媒体逐渐成为人们信息交流的主要渠道。然而,由于社交媒体信息具有数量庞大、结构复杂、传播速度快等特点,人们无法从中快速准确地获取想要的信息。于是,话题检测与追踪技术应运而生,它将用户关注的信息从大量无序信息中筛选出来,经过细致的过滤和有效的整合,生成简单、清晰的话题信息,并在此基础上实现对话题的追踪和发展趋势分析。该文对社交媒体上的话题检测与追踪工作进行综述,首先论述了话题检测方面的三类方法,包括基于主题模型的话题检测、基于改进聚类算法的话题检测和基于多特征融合的话题检测;其次,对话题追踪的研究成果进行了介绍,主要分为非自适应话题追踪和自适应话题追踪两大类;最后,列举出社交媒体话题的检测与追踪中存在的问题以及对未来研究的展望。  相似文献   

17.
宋丹  王卫东  陈英 《微机发展》2006,16(9):62-64
话题识别与跟踪旨在发展一系列基于事件的信息组织技术,通过监测以实现对新闻媒体信息流中新话题的自动识别和已知话题的动态跟踪。文中提供一种利用改进的向量空间模型进行识别和跟踪的方法。没有使用传统向量空间模型中单个向量,而是按照语义将特征词划分为4个组(人物、时间、地点、内容)并形成4个向量空间。每个空间进行独立的权重计算和相似度计算。实验证明这些方法是有效的。  相似文献   

18.
话题发现与追踪技术研究   总被引:3,自引:1,他引:2  
话题发现与追踪以新闻流为处理对象,采用基于事件的信息组织方式进行研究,一直是自然语言处理领域里的热点。该研究借鉴大量相关研究尤其是信息检索中的经典模型和方法,取得了很大成功。首先介绍了话题发现与追踪的主要研究内容、评价方法以及发展历史;然后对其多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号