首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 512 毫秒
1.
徐静  杨小平 《计算机应用》2018,38(11):3100-3104
网络的快速发展使得在线新闻媒体成为人们获取信息的重要来源。Web站点发布的信息是否能够反映当前关注的热点,是否能够及时发布事件的最新进展情况,对Web站点的可用性有重大影响。在利用条件随机场(CRF)模型识别主题线索句的基础上,得到与Web信息相关的同一主题的线索发展趋势。通过获得的线索发展趋势来推断主题线索的时间区间,进而估计出Web信息的有效区间,在此基础上结合时效性所包含的发布及时性和内容新鲜性两个方面来对Web信息时效性进行合理的评价。实验结果表明,所提方法在Web信息时效性评价上有较好的效果。  相似文献   

2.
如何自动结构化新闻话题,从不同角度和不同侧面了解新闻话题,解决网络新闻信息过载的问题成为研究的热点。提出将新闻话题进行线索化的观点,根据抽取线索算法得到关键词和命名实体集合作为每一条线索主旨,并将新闻报道归类到线索中作为其内容来结构化新闻话题。实验结果表明,该方法在线索精度和文档划分评测指标上都有较好的效果,能够较清晰地展现话题的不同线索,以帮助用户了解新闻话题的发展脉络。  相似文献   

3.
针对现有视频图像目标检测算法应用于矿工检测时检出率、定位准确率、检测效率等均较低的问题,提出了一种基于条件随机场的矿工检测方法。该方法包括矿工检测模型建立与矿工检测识别2部分。在模型建立阶段,提取若干样本图像的方向梯度直方图特征,并利用主成分分析法对特征进行降维处理;以条件随机场为框架进行感兴趣区域标志,以标定训练样本,并训练条件随机场模型参数。在检测识别阶段,提取待检测图像的方向梯度直方图特征,并对特征进行降维,采用训练得到的条件随机场模型,通过局部二元模式推断标定图像各子窗口,最终得到矿工所在区域。实验结果表明,该方法可准确地检测出矿工在图像中的位置。  相似文献   

4.
中文文本情感主题句分析与提取研究   总被引:3,自引:0,他引:3  
樊娜  蔡皖东  赵煜  李慧贤 《计算机应用》2009,29(4):1171-1173
提出一种提取中文文本情感主题句子的方法。首先评估文本中语义概念的概括和归纳能力,确定文本主题概念。将包含主题概念的句子作为候选主题句子,计算各个候选句子的重要度,最终确定文本主题句。然后采用条件随机场模型,选取情感倾向特征和转移词特征训练模型,从文本主题句集合中提取情感主题句。实验证明,以提出的方法为基础进行文本情感分析,避免了与主题无关的句子对分析结果的影响,有效地提高了文本情感分析的准确率。  相似文献   

5.
提出一种识别网络新闻中主要内容与标题不相符或相关性不大的低价值新闻的算法。该算法先从新闻标题中提取出最能反映新闻主题的两个主题词,再分析主题词在正文中的分布情况,并计算出相关概率,以相关概率来判断是否为低价值新闻。实验证明该算法的识别率可达到85.71%,高于基于主题句相似度计算方法的72%,且该算法不受新闻正文长度的影响,是一种实用有效的识别方法。  相似文献   

6.
网络评论的情感倾向性分析是当下热门的研究方向,其第一步就需要有效识别文本中的主观性信息。提出并分别实现了基于主客观线索的方法、基于NPOS的方法和基于条件随机场的方法来提取主观句子,最后,采用投票机制,按照少数服从多数的原则判断句子主客观性,实验结果显示,该系统显著提高了主观查全率、查准率和F-度量,有广阔的应用前景。  相似文献   

7.
吴亮  何毅  梅雪  刘欢 《计算机应用》2018,38(6):1760-1764
针对在线行为连续序列的识别问题以及行为识别模型的稳定性问题,提出一种监控视频中基于概率潜动态条件随机场(PLDCRF)的在线行为识别方法。首先,应用时空兴趣点(STIP)对行为特征进行提取;再利用PLDCRF模型识别室内人体的活动状态。PLDCRF模型融合了隐含状态变量,能够构建姿态序列子结构,可以选取姿态之间的动态特征,并且直接标记出未分割序列;同时也可以正确地标记出行为间的转换过程,从而明显改善了行为识别的效果。隐含条件随机场(HCRF)、潜动态条件随机场(LDCRF)、潜动态条件神经场(LDCNF)以及PLDCRF模型对10种不同动作的识别率比较结果表明,所提PLDCRF模型对连续的行为序列的综合识别能力更强,并且有更好的稳定性。  相似文献   

8.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

9.
提出了一种基于层叠条件随机场的CFN自动标注方法。该方法在低层条件随机场模型中解决了框架元素的识别,将识别结果传递到上层短语类型识别的条件随机场模型,再将识别结果传递到上层句法功能识别的条件随机场模型,其低层模型为上层模型提供决策支持。实验选用CFN中"陈述"框架下的句子库,实现了基于层叠条件随机场CFN自动标注的原型系统。  相似文献   

10.
网络新闻口语评论文本中人物对象识别方法   总被引:1,自引:1,他引:0  
网络新闻口语评论文本中的人物对象是网络舆情的重要内容,是口语评论情感倾向性分析的基础。该文结合新闻口语评论中人物对象特点,提出了一种有效的人物对象自动识别方法。该方法首先在分词基础上,采用多频率综合判别对单字作为人物对象的可靠度进行评估,以获得稳定的识别线索;其次,根据线索划定处理窗口,利用改进频繁项挖掘算法,从窗口中提取候选人物对象;最后,对结果中存在的冗余进行优化处理。实验结果表明,新方法能够完整、有效地识别网络新闻口语评论文本中的人物对象。  相似文献   

11.
卢玲  杨武  王远伦  雷子鉴  李莹 《计算机应用》2018,38(5):1272-1277
新闻文本常包含几十至几百条句子,因字符数多、包含较多与主题无关信息,影响分类性能。对此,提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量,再构建段落向量与文本类别的神经网络注意力模型,用于计算句子的注意力,将句子注意力的均方差作为其对类别的贡献度,进行句子过滤,然后构建卷积神经网络(CNN)分类模型,分别将过滤后的文本及其注意力矩阵作为网络输入。模型用max pooling进行特征过滤,用随机dropout防止过拟合。实验在自然语言处理与中文计算(NLP&CC)评测2014的新闻分类数据集上进行。当过滤文本长度为过滤前文本的82.74%时,19类新闻的分类正确率为80.39%,比过滤前文本的分类正确率超出2.1%,表明结合注意力机制的句子过滤方法及分类模型,可在句子级信息过滤的同时提高长文本分类正确率。  相似文献   

12.
根据新闻文本的特点,分别对新闻标题与正文进行分析,该文提出了一种针对新闻文本的特征加权的主题句抽取方法。首先对新闻主题句在文本中的分布情况进行分析,选取了位置特征;然后根据新闻标题对于新闻主旨的提示作用,选取了标题句子重合度与关联度的特征,且在关联度特征中将基于加权二部图的最大匹配算法融入其中;最后依据句子的得分排名,进行主题句抽取。实验显示,利用该方法进行主题句抽取的P@1为75.9%,P@3 达到92.4%。  相似文献   

13.
Many of today’s online news websites and aggregator apps have enabled users to publish their opinions without respect to time and place. Existing works on topic-based sentiment analysis of product reviews cannot be applied to online news directly because of the following two reasons: (1) The dynamic nature of news streams require the topic and sentiment analysis model also to be dynamically updated. (2) The user interactions among news comments can easily lead to inaccurate topic extraction and sentiment classification. In this paper, we propose a novel probabilistic generative model (DTSA) to extract topics and the specified sentiments from news streams and analyze their evolution over time simultaneously. In DTSA, three different timescale models are studied to account for the historical dependencies of sentiment-topic word distributions at current epoch, continuous, skip and multiple timescale models. Additionally, we further consider the links among news comments to avoid the error caused by user interactions. In order to mine more interpretable topics, a Conditional Random Fields (CRF) model is adopted to label a set of meaningful phrases for augmenting the bag-of-word features. Finally, we derive distributed online inference procedures to update the model with newly arrived data and show the effectiveness of our proposed model on real-world data sets.  相似文献   

14.
Educational institutions showing interest to find the opinion of the students about their course and the instructors to enhance the teaching-learning process. For this, most research uses sentiment analysis to track students’ behavior. Traditional sentence-level sentiment analysis focuses on the whole sentence sentiment. Previous studies show that the sentiments alone are not enough to observe the feeling of the students because different words express different sentiments in a sentence. There is a need to extract the targets in a given sentence which helps to find the sentiment towards those targets. Target extraction is the subtask of targeted sentiment analysis. In this paper, we proposed the innovative model to find the targets of the given sentence using Bi-Integrated Conditional Random Fields (CRF). A Parallel fusion neural network model is designed to perform this task. We evaluate the model using the Michigan dataset and we build a dataset for target extraction from student reviews. The experimental results show that our proposed fusion model achieves better results compared to baseline models.  相似文献   

15.
基于词汇链的中文新闻网页关键词抽取方法   总被引:1,自引:0,他引:1  
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。  相似文献   

16.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果.  相似文献   

17.
音节是泰语构词和读音的基本单位,泰语音节切分对泰语词法分析、语音合成、语音识别研究具有重要意义。结合泰语音节构成特点,提出基于条件随机场(Conditional Random Fields)的泰语音节切分方法。该方法结合泰语字母类别和字母位置定义特征,采用条件随机场对泰语句子中的字母进行序列标注,实现泰语音节切分。在InterBEST 2009泰语语料的基础上,标注了泰语音节切分语料。针对该语料的实验表明,该方法能有效利用字母类别和字母位置信息实现泰语音节切分,其准确率、召回率和F值分别达到了99.115%、99.284%和99.199%。  相似文献   

18.
Intrusion detection faces a number of challenges; an intrusion detection system must reliably detect malicious activities in a network and must perform efficiently to cope with the large amount of network traffic. In this paper, we address these two issues of Accuracy and Efficiency using Conditional Random Fields and Layered Approach. We demonstrate that high attack detection accuracy can be achieved by using Conditional Random Fields and high efficiency by implementing the Layered Approach. Experimental results on the benchmark KDD '99 intrusion data set show that our proposed system based on Layered Conditional Random Fields outperforms other well-known methods such as the decision trees and the naive Bayes. The improvement in attack detection accuracy is very high, particularly, for the U2R attacks (34.8 percent improvement) and the R2L attacks (34.5 percent improvement). Statistical Tests also demonstrate higher confidence in detection accuracy for our method. Finally, we show that our system is robust and is able to handle noisy data without compromising performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号