首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对舆情监测需要根据关键词来对特定话题进行追踪的应用场景,以及舆情新闻数据容易遗漏、关键词不完整、话题会产生漂移的难点,提出了一种面向舆情监测的话题追踪方法.首先通过对话题关键词进行加权的TextRank算法来提取有倾向的关键词作为文本特征表示,进而提升追踪效果;其次针对关键词不完全的问题,对舆情数据进行分析,通过点互信息对话题关键词进行补全;最后针对话题漂移的现象,在话题追踪过程中根据关键词衰减指数对话题关键词进行动态调整.实验表明,论文提出的方法在面向舆情监测的话题追踪任务上取得了较好的效果.  相似文献   

2.
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWText Rank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWText Rank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和Text Rank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。  相似文献   

3.
针对目前少数民族语言方面热点关键词提取算法研究较少,而且精度和效率不高这一问题,提出一种哈萨克文网络热点关键词提取方法。将预处理后得到的文本利用多重因子加权改进的TF-IDF算法进行关键词提取,后续根据其位置和频率信息进行关键词组配,得到候选热点关键词集合;结合TF-PDF算法和媒体关注度思想,构造关键词热度评分标准公式KHD(Keywords Hot Degree),实现对热点关键词的提取。实验结果证明此方法可行有效,并且在提取精度和效率上都有显著提高。  相似文献   

4.
在网页浏览推荐任务中,如何利用网页内容选取合适的推荐关键词是具有挑战性的研究热点.为了实现有效的关键词推荐方法,利用大规模的真实网络用户浏览行为数据,以及相关提取算法和新词发现算法实现并比较了基于领域关键词提取技术和基于查询词候选集合的关键词推荐方法.实验结果证明,2种方法都能够有效地表征用户信息需求,而第1种推荐方法的准确率更高,具有更好的推荐性能.  相似文献   

5.
本通过分析舆情信息采集策略,提出智能化的关键词追踪模型,通过关键词智能追踪模型的应用,网络舆情监测系统能及时抓取热点事件的热点关键词,从而实现网络舆情监控系统对热点事件发展趋势的灵敏响应,并为网络舆情热点事件的预警提供数据支持。简单来说关键词智能追踪模型就是以一定的关键词权重算法为基础,依据舆情事件变化速度,通过多次的反复的归纳计算,对之前选取的关键词进行修改、调整和校对的过程。  相似文献   

6.
为了提高中文关键词提取的准确率和实用性,提出一种基于TF统计和语法分析相结合的中文关键词提取算法。该算法在对文本进行自动分词后,用TF统计和语法分析对每个词进行权重计算,然后根据计算结果提取文献的关键词。实验结果表明,该方法提高了关键词提取的精度。  相似文献   

7.
关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。  相似文献   

8.
基于舆情事件的关键词抽取算法作为舆情监测的基础技术之一,其目的是在不同的舆情事件中抽取出人们关注的核心词汇,从而快速了解新闻内容。随着深度学习的发展,传统的无监督关键词抽取技术和有监督算法中的分类模型已经逐渐被基于深度学习的序列标注模型所替代。梳理无监督关键词抽取的限制性、分类模型在关键词抽取中的优势与不足、以及现有的深度学习对关键词抽取技术发展的帮助,重点分析整体关键词抽取技术的发展中卷积神经网络、循环神经网络等深度学习的关键词抽取方法,并归纳现有方法的优缺点与发展趋势。此外,深度学习虽然在关键词抽取领域发挥了重要的作用,但其自身也存在着依赖大规模带标签样本、训练时间长与复杂度高等缺陷,需要在未来发展中进行解决。为确保分析过程的真实性,利用6个舆情新闻数据集和2个小型数据集进行实验复现,实验结果与文中理论分析一致。在此基础上,对关键词抽取技术及其所面临的困难和挑战进行梳理和分析,并针对现存问题对该领域的发展前景加以展望。  相似文献   

9.
关键词抽取技术是自然语言处理领域的一个研究热点。在目前的关键词抽取算法中,深度学习方法较少考虑到中文的特点,汉字粒度的信息利用不充分,中文短文本关键词的提取效果仍有较大的提升空间。为了改进短文本的关键词提取效果,针对论文摘要关键词自动抽取任务,提出了一种将双向长短时记忆神经网络(Bidirectional Long Shot-Term Memory,BiLSTM)与注意力机制(Attention)相结合的基于序列标注(Sequence Tagging)的关键词提取模型(Bidirectional Long Short-term Memory and Attention Mechanism Based on Sequence Tagging,BAST)。首先使用基于词语粒度的词向量和基于字粒度的字向量分别表示输入文本信息;然后,训练BAST模型,利用BiLSTM和注意力机制提取文本特征,并对每个单词的标签进行分类预测;最后使用字向量模型校正词向量模型的关键词抽取结果。实验结果表明,在8159条论文摘要数据上,BAST模型的F1值达到66.93%,比BiLSTM-CRF(Bidirectional Long Shoft-Term Memory and Conditional Random Field)算法提升了2.08%,较其他传统关键词抽取算法也有进一步的提高。该模型的创新之处在于结合了字向量和词向量模型的抽取结果,充分利用了中文文本信息的特征,可以有效提取短文本的关键词,提取效果得到了进一步的改进。  相似文献   

10.
王庆  陈泽亚  郭静  陈晰  王晶华 《计算机应用》2015,35(6):1649-1653
针对专业领域中科技项目的关键词提取和项目词库建立的问题,提出了一种基于语义关系、利用共现矩阵建立项目关键词词库的方法。该方法在传统的基于共现矩阵提取关键词研究的基础上,综合考虑了关键词在文章中的位置、词性以及逆向文件频率(IDF)等因素,对传统算法进行改进。另外,给出一种利用共现矩阵建立关键词关联网络,并通过计算与语义基向量相似度识别热点关键词的方法。使用882篇电力项目数据进行仿真实验,实验结果表明改进后的方法能够有效对科技项目进行关键词提取,建立关键词关联网络,并在准确率、召回率以及平衡F分数(F1-score)等指标上明显优于基于多特征融合的中文文本关键词提取方法。  相似文献   

11.
聂琰 《计算机时代》2014,(11):19-21
针对高校网络舆情监测工作的不足,结合高校舆情信息的传播特点,提出了在校园网范围内基于Nutch搜索引擎技术进行信息检索,在互联网上采用元搜索引擎技术获取相关信息的舆情监测系统构建方案。采用关键词特征库匹配方式自动进行网络舆情监测,及时准确地发现网络舆情信息;探讨了高校对于网络舆情的监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。  相似文献   

12.
随着我国计算机信息技术的高速发展,网络舆情系统在互联网领域中得到了越来越多的关注,但是我国的网络舆情管理工作仍然存在着诸多问题,其中最为集中的问题体现在反应机制的不完善。鉴于此,本文首先描述Floyd算法的内涵,阐述Floyd算法的运算步骤,提出基于Floyd改进算法的控制策略,同时分析Floyd改进算法在网络舆情中的应用与模型,重点探讨影响网络舆情监测技术的3个因素。最后以人民网和正义网正式发表的相关资料作为舆情热点数据,对提出的模型算法进行对比验证。结果表明,基于Floyd的改进算法在各项指标上显著优于其他算法,但当实验数组达到一定上限时,仍然会出现重用率极限值。希望此次研究能为我国政府机关加强对网络舆论的分析,达到能够应对社会突发事件的能力,提升政府机关在互联网环境中的舆情管理能力提供一定的帮助。  相似文献   

13.
基于自然语言语义分析的Internet文件分类与过滤   总被引:6,自引:2,他引:4  
网上文件过滤是网络信息安全研究的重要课题。传统的过滤方法简单地把关键字匹配作为分类的依据,常导致漏判误判等问题。文中提出一种基于自然语言理解的语义模板算法解决网上文件分类过滤的问题。实验结果表明该方法漏判误判率较低,是一种行之有效文件分类方法。  相似文献   

14.
快速发展的互联网已成为反应社会舆情的重要载体之一,如何对互联网数字媒体内容舆情进行分析监控,及时有效地发现危害社会安全的各类有害虚假的舆情信息,已成为促进我国数字媒体内容舆情信息安全和内容监管健康发展迫切需要解决的问题。提出了一个基于互联网的数字媒体内容舆情分析模型,设计并实现了基于互联网的数字媒体内容舆情分析系统,并就涉及的实用关键技术进行了探讨。  相似文献   

15.
网络舆情信息源影响力的评估研究   总被引:1,自引:0,他引:1  
文章通过对网络舆情、信息源、影响力等概念的深入研究,构建网络舆情信息源影响力评估体系。评估方法试图从根本上抓住网络舆情信息源影响力的本质特点 除了考虑信息源的表现力,还考虑网民对影响力的反馈,以及信息源转载信息这一行为中隐含的对同行信息源影响力的反馈。在量化影响力时,文章借鉴网络链接分析算法PageRank,提出算法SrcRank对信息源重要度进行排名。实例分析结果表明,评估方法能够客观而合理地评价网络舆情信息源的影响力。  相似文献   

16.
针对目前网络舆情形成迅速,对社会影响巨大,主要讨论在加强互联网信息监管的同时.研究网络舆情的演化趋势并研究相关算法以对其发展做出科学的预测.目的是对网络舆情的特性有一定的了解,掌握其基本的变化规律,以便提早采取应对措施,对于及时应对网络突发的公共事件和全面掌握社会民情民意有重大意义。  相似文献   

17.
基于二次线性模型的网络舆情演化研究与实现   总被引:1,自引:0,他引:1  
吴琼 《现代计算机》2011,(28):3-6,16
针对目前网络舆情形成迅速,对社会影响巨大,主要讨论在加强互联网信息监管的同时,研究网络舆情的演化趋势并研究相关算法以对其发展做出科学的预测,目的是对网络舆情的特性有一定的了解,掌握其基本的变化规律,以便提早采取应对措施,对于及时应对网络突发的公共事件和全面掌握社会民情民意有重大意义。  相似文献   

18.
针对互联网上的舆论信息传播速度快,对社会造成巨大影响这一问题,社会管理者应该进行及时的舆情分析,从而进行有效控制和引导,避免形成更大的社会影响和危害.为了从网络信息中分析网络舆情的发展态势,将文本情感分析技术应用于网络舆情研究.针对网络舆情的话题评论,采用语义模式和词汇情感倾向相结合的方法,并形成了一种判定算法,该算法比较全面地判定话题评论的情感倾向性,把握网络舆情的正面或负面导向性.实验结果表明了该方法的有效性和准确性.  相似文献   

19.
基于Rhino的JavaScript动态页面解析研究与实现   总被引:1,自引:0,他引:1  
面对互联网上占据全国页面总数50%以上的动态页面,当前网络舆情管控工作中的信息采集环节对以动态页面为主要发布形态的互联网媒体无法实现信息获取.鉴于此,文中提出了基于Rhino实现JavaScript动态页面解析的整体方案.实验结果表明该方案充分丰富了互联网舆情管控工作的数据源对象,是实现动态页面内超链接网络地址递归获取和网页主体内容提取行之有效的解决方案.  相似文献   

20.
针对高校网络舆情监测工作的不足,结合高校舆情信息的传播特点,提出构建舆情监测系统的整体方案.在校园网内基于Nutch搜索引擎技术进行信息检索,互联网范围内采用元搜索引擎技术获取相关信息,采用关键词特征库匹配方式自动进行网络舆情监测,实现对舆情信息及时准确的发现,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号