首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 125 毫秒
1.
网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。  相似文献   

2.
网络新闻文本在环境污染事件感知方面具有重要的应用价值。然而,由于环境污染事件的“多米诺效应”,网络新闻文本往往存在对多类型污染事件的混合描述,现有事件检测方法容易导致文本分类错误。本文提出一种基于联合主题特征的网络新闻文本蕴含环境污染事件检测方法,通过兼顾环境网络新闻文本的全局特征和主题分布特征来改善检测分类效果。该方法采用词频-逆文档频率向量对文档进行全局特征表示,并结合文档的主题分布特征向量,构建联合主题特征向量作为监督分类模型的输入,实现环境污染事件检测。实验结果表明,使用联合主题特征的支持向量机方法进行事件类别检测平均F1值相较于全局特征提高15%,相较于主题特征提高36%。本文提出的网络新闻文本蕴含环境污染事件检测方法可支持污染事件类型检测和影响信息抽取,有助于环境污染事件的时空统计与变化趋势预测。  相似文献   

3.
微博中蕴含台风灾害损失信息识别和分类方法   总被引:1,自引:0,他引:1  
社交媒体在灾害信息的实时发布与传播中发挥着越来越重要的作用。在灾害发生过程中,社交媒体中蕴含的实时灾损信息对灾情及时响应和评估有重要意义。然而,这些涉灾文本具有信息破碎度高、文本特征稀疏、标注语料库匮乏等缺点,使得传统的基于监督学习的方法难以有效提取其中的灾损信息。为此,本文提出了一种通过扩展上下文特征和匹配特征词的方法来快速识别和分类社交媒体中蕴含的不同类别的灾损信息。本方法首先基于中文语法规则,抽取小规模不同灾损类别下微博文本中的涉灾关键词构建特征词搭配对。然后,利用词向量模型和已有词库对这些特征词搭配对进行补充和扩展。同时,根据中文词语共现规则,引入外部语料库优化特征词间的语义搭配关系。最终,以此为基础构建台风灾损分类知识库对灾情文本中蕴含的不同类别灾损信息进行识别和分类。本文以2016年9月15日台风“莫兰蒂”登陆事件作为研究案例,以评估本文方法在灾损信息识别和分类上的效果。结果表明,本文方法对微博文本中蕴含的不同类别风灾损失信息的识别和分类效果显著(各类别综合评价指标都达到了0.74以上)。基于灾损信息分类结果,本文绘制了台风影响的时空分布图,从而进一步说明本文方法在灾害损失评估和减灾救灾方面的效用。  相似文献   

4.
从社交媒体中挖掘灾害应急信息,能够有效帮助传统灾害管理获取实时、主题丰富的灾害信息,从而成为灾害应急管理的新手段。得益于深度学习在自动特征提取上的成就,本文研究了一种利用卷积神经网络对社交媒体中的灾害应急信息进行自动实时提取与分类的方法。首先,利用社交媒体数据和Word2vec模型,构建与灾害类事件相关的语料库并获得相应的词向量;其次,将词嵌入文本和相应的灾情类别作为卷积神经网络的输入,经过多分类学习得到分类模型,用以提取近实时灾害信息。以2012年“7.21北京特大暴雨”事件为案例,通过分类模型获得常见灾情类别的暴雨灾害社交媒体信息。该模型在测试集上的精度达到了90%以上,并且将模型运用于新爬取的2016年暴雨数据集上也得到了较好的表现,说明该模型在近实时自动提取灾害信息方面具有可行性。在对2012年分类结果进行时空分析结果表明,通过社交媒体获得的暴雨灾害主题信息符合灾害发展的规律,说明了利用深度学习提取社交媒体数据中的灾害应急信息的有效性和可行性,能够为实时灾害应急管理提供新的思路。  相似文献   

5.
本文围绕互联网中网页文本蕴含的丰富地理空间信息,抽取网页文本中蕴含的地名实体,提出了一种地名共现网络模型,该模型综合考虑网页中地名的频次信息,表达网页文本中地名的共现及联系传递特征。在此基础上,提出一种基于链接分析的网页文本核心地名的提取方法,通过PageRank算法计算每个地名在共现网络中的链接权重,对网页文本构建的共现地名网络进行核心地名的提取,从而在庞大的网络资源中发现具有显著的焦点特征或导航枢纽特征的重要地名。最后,采用人民日报与新浪新闻体育版2份语料进行实验验证,证明了该方法的有效性。  相似文献   

6.
网络文本蕴涵地理信息抽取:研究进展与展望   总被引:1,自引:0,他引:1  
互联网的普及产生了大量蕴含着丰富地理语义的文本,为地理信息的深度挖掘和知识发现带来了巨大机遇。同时,蕴含地理语义文本的异构性和动态性,使得地理实体的属性数量和种类激增、地理语义关系复杂,对地理信息检索、空间分析和推理、智能化位置服务等提出了严峻的挑战。本文阐述了网络文本蕴含地理信息抽取的技术流程,从地理实体识别、地理实体定位、地理实体属性抽取、地理实体关系构建、地理事件抽取5个方面总结了网络文本蕴含地理信息抽取的进展和关键技术瓶颈,分析了可用于网络文本蕴含地理信息抽取的开放资源,并展望了未来的发展方向。  相似文献   

7.
灾害期间的舆情引导有助于维护社会稳定。社交媒体是舆论传播的重要渠道,通过微博评论了解用户的网络情感及关注的话题,可以帮助相关舆情监测部门掌握公众的关注热点,从而选择适当的干预节点来应对网络舆情,并对公众情绪进行疏导,这对于应急管理具有现实意义。现有的研究大多是利用有监督的机器学习方法进行情感分类,这需要人工进行语料的标注,工作量大。本文根据微博评论文本的特点,综合考虑情感词以及表情符号等多重情感源,构建了台风灾害领域情感词典。在此基础上,提出了一种基于情感词语义规则的情感倾向计算方法,以及基于词向量的话题聚类方法。首先,采集了近年5次台风灾害期间共计40多万条微博评论文本,基于大连理工情感词汇本体库进行扩展构建了台风灾害领域情感词典,结合PMI法构建表情符号词典,根据语义规则确定情感倾向,并使用3500条评论文本验证了该方法的有效性。然后,本文基于词向量、TF-IDF与K-means的聚类方法探索灾害期间热点话题。最后,以2020年4号台风“黑格比”为例,基于台风期间的5万余条微博评论文本进行了舆情情感分析,并识别出6类与台风相关的话题。通过时空分析发现,随着时间的推移,微博评论文本的数量发生一定变化,评论数量多的地区大都集中在沿海地区和经济水平高的地区,台风登陆当天浙江省的恐惧情感达到最高。结果表明,基于语义规则和词向量的台风灾害网络情感分析方法,能在类似灾害事件发生时为政府部门掌握和引导网络舆情提供辅助。  相似文献   

8.
互联网页面和社交网络文本中蕴含丰富的道路交通信息,是其他交通信息采集平台的有效补充。然而,自然语言文本形式的交通信息多以线性参考或地标方位描述交通事件空间位置,且大量存在事件元素缺失或隐含现象,对交通信息的自动化抽取有着较大影响。考虑到交通信息的自然语言表达方式虽然自由随意,但表达模式相对固定,提出一种从互联网文本中抽取道路交通信息的模式匹配方法。首先,基于道路交通事件描述的语言特征构建模式库;然后,以特征词词性序列的形式表达互联网文本和抽取模式,利用DTW距离度量序列相似度,实现抽取模式匹配;最后,在匹配抽取模式和填补规则指导下获取结构化的道路交通信息。由上海市城市交通相关门户网站和微博客平台的实验过程显示,本文所提出的模式匹配方法,抽取道路交通信息的准确率和召回率分别达到90%和80%以上,表明该方法能有效抽取互联网文本蕴含的道路交通信息,且实现过程相对简单,易于扩展,具有可用性。  相似文献   

9.
网络文本中所包含的相关信息目前已成为公共安全事件紧急救援与影响评估的重要信息源。现有的方法虽然可定向地提取文本信息中事件的各类要素信息,但由于缺乏面向事件的整体建模与解析框架,难以从网络文本中获取系统的事件要素的结构化信息,即所提取的事件要素信息要么不够完整,要么与目标事件不匹配,由此产生的遗漏与谬误难以支撑针对公共安全事件信息的系统分析。为解决该问题,本文提出了面向公共安全事件的网络文本大数据结构化理论框架,首先,建立了公共安全事件的语义框架,并以地震事件为例构建了相应的结构化表结构;其次,应用训练语料的关联标注解决了事件要素与事件无法匹配的难点;最后,通过使用可融合关联信息的文本解析算法,系统提取了事件类型、事件名称、事件时间、事件位置及其他属性,基本实现了网络文本中不同事件信息的结构化。本文以云南邵通鲁甸地震为例,展示了地震事件的网络文本信息的结构化过程与结果,为分析地震所受的关注程度以及救援状况提供了重要参考。在上述研究的基础上,开发了面向公共安全事件的网络文本信息挖掘系统,展示了地震事件文本的结构化解析以及由此实施的事件关注度分析。  相似文献   

10.
地理知识库是地理实体及其相互间关系的集合,对于智能搜索、问答、推荐等知识服务有重要的支撑作用。然而,已有的地理知识库由于来源、形式、构建者等的不同,在实体地名、空间位置、类别等方面存在“同义异形”和“同形异义”的语义异构现象,影响了地理知识库间的知识融合与共享。语义对齐是解决语义异构的一种有效方法,其中实体类别对齐是语义对齐的基础,对于提高实体地名和空间位置的对齐精度具有重要作用。现有的实体类别对齐方法主要采用传统的字符相似度和结构相似度等来度量类别的相似度,无法捕捉实体类别深层次的语义相关性,从而影响了类别对齐的精确性。因此,本文提出了一种基于词嵌入的地理实体类别对齐方法,采用词嵌入模型从语料中学习实体类别的语义信息,并通过词向量来表达,以此弥补现有方法存在的缺失,进而提升实体对齐精度。进一步地,通过通用语料与地理信息语料的融合,本文实现了词嵌入模型所用语料在地理语义方面的增强,从而更精准地度量地理实体类别间的相关性。不同地理知识库实体类别对齐的实验表明,本文提出的方法能够有效捕捉地理实体类别的深层次语义信息,其实体类别对齐的调和平均值(Fl)可达0.9568,有效提高了实体类别的对齐精度。  相似文献   

11.
地理实体关系语料库是地理信息获取与地理知识服务的基础数据资源,其规模直接影响机器学习模型训练的效果。快速更新的网络文本不断涌现新的关系实例,要求语料库及时更新以覆盖更丰富的关系实例。手工构建和更新语料库成本高昂,亟需一种快速构建大规模地理实体关系语料库的方法。本文提出一种基于回标技术的地理实体关系语料库构建方法。首先,参考地理实体分类标准与语义关系、空间关系分类标准,针对地理实体关系的自然语言描述习惯,建立地理实体关系的标注体系;然后,结合精确匹配与模糊匹配策略,提高客体匹配的覆盖率;接着,基于优序图法建立句子打分规则,实现种子三元组到句子映射的定量评价;最后,使用中文百度百科文本验证方法的有效性。实验结果显示,本文方法平均回标成功率为67.83%,关系标注的准确率为76.36%。相比人工构建空间关系标注语料库的过程,本文提出的语料自动构建方法,标注速度快,规模大,为自动扩充标注语料库提出了可行方案。同时,该方法兼顾了地理实体间的语义关系和空间关系,且关系类型不受限,可用于开放式关系抽取任务。  相似文献   

12.
This paper analysed the evolution of landslide research and research foci in different countries. The data comprise 3105 landslide SCI articles published between January 1977 and June 2015 from the Web of Science. The data are extracted under interaction constraints of the journal title, category, and keywords. The complex network method is used for the analysis. First, from the perspective of topics and methods, the evolution is systematically assessed by generating a co-citation network of the articles and a semantic cluster analysis. Second, from the perspective of topics and landsliderelated disasters, the focus in different countries is discussed by generating co-occurrence networks. These networks are the co-occurrence of the countries and keywords, and the co-occurrence of countries and landslide-related disaster phrases. The main conclusions are as follows:(1) landslide susceptibility analysis and methods of machine learning are popular research topics and methods, respectively. The topics change through time, and the article output is influenced by increasing landslide-related disasters, increasing economic losses and casualties, a desire for a more complete and accurate landslide inventory, and the use of effective methods, such as geographical information Science(GIS) and machine learning.(2) The research focus in each country is related with the country-specific disasters or economic costs caused by landslides to some degree. In addition to Italy and the USA, China is the country most commonly affected by landslides, and it should develop its own landslide database and complete in-depth studies of disaster mitigation.  相似文献   

13.
为解决天然地震事件性质辨识依赖人工检测、自动化程度不高且误差较大的问题,利用机器学习中的最小二乘支持向量机(LSSVM)和信息论中的排列熵、近似熵及香农熵等特征参数,建立Entropy-LSSVM地震波形特征提取与事件性质辨识模型。基于2021年青海玛多MS7.4地震、云南漾濞地震事件及人工爆破干扰事件等共计500条波形数据,设计多个不同训练比例与测试比例的随机抽取子实验,采用准确率、召回率、特效度、精确度、F-measure验证该模型的有效性。实验结果表明,熵特征对天然地震和非天然地震事件波形的区分效果明显,且结合熵特征的LS-SVM模型整体性能优于QDA、LDA、朴素贝叶斯、决策树、LogitBoost及RobustBoost等方法,训练集与测试集比例为3∶2的辨识准确率和召回率分别达到99.00%和96.97%,即使训练集只有50条的辨识准确率也可达98%以上,这对天然地震事件的有效甄别有一定参考价值。  相似文献   

14.
地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号