共查询到20条相似文献,搜索用时 781 毫秒
1.
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。 相似文献
2.
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构。为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法。该文结尾设计了实验构造真实新闻文本流数据上的主题树。实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征。 相似文献
3.
对新闻播报节目进行自动主题划分,可以有效地组织和利用新闻播报类数据。目前自动故事单元划分的研究以视频数据为主,音频的语音识别文本中包含丰富的语义信息,同时声音事件的转换也可以提供很多重要信息,能够有效的进行基于语义的主题划分。根据这些信息,该文提出了一种基于规则的多信息融合的方法,利用切分点邻域的音频类型信息来修正使用语义信息的切分结果,完成主题划分。实验表明根据规则进行特征融合后,新闻节目主题划分的F-估值为64.8%,错误概率Pk和WindowDiff分别达到18.3%和24.5%。 相似文献
4.
为了准确挖掘出同一主题的大量网络新闻的线索发展脉络,该文提出了一种基于条件随机场模型的网络新闻主题线索发掘方法。首先,根据新闻主题线索句的识别规则提取出相关特征,并应用到条件随机场模型中提取出主题线索句;然后,按照时间顺序构建原始线索链;最后,对语义相近的原始线索链进行合并处理,获得最终的新闻主题发展脉络。实验结果表明,该方法在主题线索句识别上有较好的效果,最终得到的主题线索脉络能够较清晰地展现新闻发展趋势。 相似文献
5.
6.
随着社交媒体的兴起,各种社交媒体服务应运而生,社交媒体多源化现象越来越明显。一种基于关联规则挖掘的方法可以用来分析研究社交媒体多源现象,即通过同一个用户与不同社交媒体上多源数据的行为交互,挖掘社交媒体多源数据知识关联,进而设计跨网络协同的视频推荐应用。本研究框架主要分为3个步骤:(1)基于主题建模的知识发现,对用户和视频进行主题建模,得到其在主题层上的表示;(2)基于关联规则挖掘的跨网络知识关联,以跨网络共同用户作为连接不同网络的桥梁,利用关联规则的方法挖掘不同网络间的知识关联;(3)基于跨网络知识发现的冷启动视频推荐,将用户和视频映射到同一主题空间并进行主题匹配,最终进行视频推荐。实验结果表明,通过跨网络用户协同,该跨网络知识关联方法能得到除了语义关联外更加灵活有效的跨网络关联,并在冷启动的跨网络视频推荐中取得较好的推荐效果。 相似文献
7.
8.
舆情新闻事件跟踪,是舆情监控、热点分析、政策制定等研究和应用的重要基础。针对舆情新闻的稀疏性、敏感性、易演化性、次生性等特点,基于在线Biterm主题模型(online Biterm topic model,DBTM),通过随机坍缩变分贝叶斯(stochastic collapsed variational Bayesian inference,SCVB0)算法更新参数,提出面向舆情新闻事件监控的主题模型MBTM(monitor Biterm topic model),利用该模型检测初期事件主题,跟踪后续新闻所属的主题。为了对存在关联关系的事件进行串联,进一步给出事件线索的概念,分别从主题层面和语义层面度量线索关联度,进而针对新闻事件主题生成事件线索。实验结果表明,MBTM模型在大多数指标上均优于OBTM等模型,验证了该方法的有效性和高效性。 相似文献
9.
10.
事件检测任务的目标是从文本中自动获取结构化的事件信息。目前基于表示学习的神经事件检测方法能够有效利用潜在语义信息,但人工标注数据集的语义知识含量有限,制约了神经网络模型的认知广度。相对地,多任务表示学习框架,有助于模型同时学习不同任务场景中的语义知识,从而提升其认知广度。BERT预训练模型得益于大规模语言资源的充沛语义信息,具有高适应性(适应不同任务)的语义编码能力。因此,该文提出了一种基于BERT的多任务事件检测模型。该方法将BERT已经包含的语义知识作为基础,进一步提升多任务模型的表示、学习和语义感知能力。实验表明,该方法有效提高了事件检测的综合性能,其在ACE2005语料集上事件分类的F1值达到了76.7%。此外,该文在实验部分对多任务模型的训练过程进行了详解,从可解释性的层面分析了多任务架构对事件检测过程的影响。 相似文献
11.
12.
The existing seq2seq model often suffers from semantic irrelevance when generating summaries, and does not consider the role of keywords in summary generation. Aiming at this problem, this paper proposes a Chinese news text abstractive summarization method with keywords fusion. Firstly, the source text words are input into the Bi-LSTM model in order. The obtained hidden state is input to the sliding convolutional neural network, so local features between each word and adjacent words are extracted. Secondly, keyword information and gating unit are used to filter news text information, so as to remove redundant information. Thirdly, the global feature information of each word is obtained through the self-attention mechanism, and the hierarchical combination of local and global word features representation is obtained after encoding. Finally, the encoded word feature representation is input into the LSTM model with the attention mechanism to decode the summary information. The method models the n-gram features of news words through a sliding convolutional network. Based on this, the self-attention mechanism is used to obtain hierarchical local and global word feature representations. At the same time, the important role of keywords in abstractive summary is considered, and the gating unit is used to remove redundant information to obtain more accurate news text information. Experiments on Sogou's news corpus show that this method can effectively improve the quality of summary generation, and effectively enhance the values of ROUGE-1、ROUGE-2、ROUGE-L. 相似文献
13.
提出一种基于多视角非负矩阵分解的视角不变特征提取方法用于融合多视角信息并进行人体行为识别。通过提取每个视频帧的时空描述符,有效描述了视频场景中的运动和形态信息;为了解决观测角度改变对识别的影响,在不同视角下构建基于时空描述符的时空矩阵,并利用多视角非负矩阵分解构建多视角的目标函数以得到融合了多视角信息的共识矩阵;计算共识矩阵的最大相关系数进行人体行为分类。该方法在WVU数据集、i3Dpose数据集上进行了验证,并与其他方法进行比较,结果表明了该方法在行为识别方面的有效性。 相似文献
14.
15.
基于H.264标准的多视点视频编码方案的研究 总被引:2,自引:0,他引:2
为研究一种新的高效的多视点视频编码方法,提高编码效率,并有效地提高视点间随机切换访问的能力,利用H.264中的新技术多参考帧、SP/SI帧、分层B帧编码等,根据时空预测编码结构的方法,提出了一种基于分层B帧并有利于视点间随机切换访问的多视点视频编码方案.实验结果表明,该方案在提高了编码效率的同时,在视点较多的情况下能够有效地提高视点间随机切换访问的能力. 相似文献
16.
为了帮助读者从大量新闻报道信息中迅速地把握其主要内容,本文分析了事件要素对新闻主要内容的影响,结合新闻报道的基本原则和要求,提出了一种基于混合模型的事件要素提取方法.该方法首先对新闻数据中识别的实体进行加权,然后使用依存句法树分析实体在新闻事件中扮演的角色,并对关于要素的指代现象进行消解,最终融合频率及角色关系对实体加权的方法进行改进,有效地提取出新闻事件关联性较为重要的要素.实验结果表明,本文所述方法能够准确地提取出与新闻事件关联性较强的事件要素,提高了读者快速筛选新闻事件要素的效率. 相似文献
17.
话题跟踪中静态和动态话题模型的核捕捉衰减 总被引:1,自引:0,他引:1
话题跟踪是一项针对新闻话题进行相关信息识别、挖掘和自组织的研究课题,其关键问题之一是如何建立符合话题形态的统计模型.话题形态的研究涉及两个问题,其一是话题的结构特性,其二是话题变形.对比分析了现有词包式、层次树式和链式这3类主流话题模型的形态特征,尤其深入探讨了静态和动态话题模型拟合话题脉络的优势和劣势,并提出一种基于特征重叠比的核捕捉衰减评价策略,专门用于衡量静态和动态话题模型追踪话题发展趋势的能力.在此基础上,分别给出突发式增量式学习方法和时序事件链的更新算法,借以提高动态话题模型的核捕捉性能.实验基于国际标准评测语料TDT4,采用NIST(National Institute of Standards and Technology)提出的最小检测错误权衡系数评测法,并结合所提出的核捕捉衰减评价方法,对各类主要话题模型进行测试.实验结果显示,结构化的动态话题模型具有最佳的跟踪性能,且突发式增量式学习和时序事件链的更新算法分别给予动态话题模型0.4%和3.3%的性能改进. 相似文献
18.
信息抽取是自然语言处理工作中的重要任务之一。针对由于自然语言的多样性、歧义性和结构性而导致的信息抽取困难的问题,提出了一种面向金融事件信息抽取的层次化词汇-语义模式方法。首先,定义了一个金融事件表示模型;然后应用基于深度学习的词向量方法来实现自动生成同义概念词典;最后采用基于有限状态机驱动的层次化词汇-语义规则模式实现了对各类金融事件信息自动抽取的目标。实验结果表明,所提方法可以从金融新闻文本中准确地抽取出各类金融事件信息,并且对26类金融事件的微平均识别准确率达到93.9%,微平均召回率达到86.9%,微平均F1值达到90.3%。 相似文献
19.
为了有效利用多视图数据信息提升监督特征选择的性能,构建了一种结构化多视 图稀疏限定,并基于该稀疏限定提出了一种监督特征选择方法,即结构化多视图监督特征选择 方法(SMSFS)。该方法在特征选择过程中能够同时考虑不同视图特征的重要性以及同一视图中 不同特征的重要性,从而有效的结合多视图数据信息,提升监督特征选择的性能。SMSFS 目标 函数是非凸的,设计了一个有效的迭代算法对目标函数进行求解。将所提结构化多视图监督特 征选择方法 SMSFS 应用到了图像标注任务,在 NUS-WIDE 和 MSRA-MM2.0 图像数据库上进 行了实验,并与其他特征选择算法进行了比较,实验结果表明该算法能够有效结合多视图数据 信息,提升特征选择性能。 相似文献