首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.  相似文献   

2.
高学攀  杜楚  吴金亮 《无线电工程》2020,(12):1050-1054
针对军事领域的命名实体识别问题,提出一种基于BiLSTM-CRF的实体识别方法,旨在识别军事文本中的人名、军用地名、军事机构名、武器装备、设施目标、部队番号等军事命名实体。使用词嵌入方法自动学习中文字符的分布式表示作为模型输入;利用双向长短时记忆(Bi-directional Long-Short Term Memory,BiLSTM)神经网络处理输入的字符向量序列,统筹上下文语义学习任务特征;将学习到的特征接入线性链式条件随机场(CRF)进行军事命名实体标注,获得命名实体识别结果并输出。在人工构建数据集上的实验结果表明,提出的方法能够很好地完成军事命名实体识别任务。  相似文献   

3.
电子邮件是APT (Advanced Persistent Threat)攻击中常用的攻击载体,本文针对APT邮件攻击提出了一种基于多维度分析的APT邮件攻击检测方法。首先,提取邮件头部和邮件正文信息,邮件附件文件还原;然后,分别通过邮件头部、邮件正文、情报检测、文件内容深度检测、邮件异常行为检测和邮件站点自学习等多维度进行分析;最后基于分析结果将邮件归类为普通邮件和可疑APT攻击特征的邮件。本文提出的方法既结合传统的邮件威胁攻击特征,并融入情报检测和附件深度检测,且考虑邮件异常行为分析,最后结合客户业务进行自学习分析,有效地提高了APT邮件攻击的检测准确率,为APT邮件攻击检测提供一种良好的检测方案。  相似文献   

4.
随着互联网技术的快速发展,人类已经习惯于从网络上获取知识,然而伴随着网络资源爆炸式增长,网络资源内容多样,人们使用浏览器获取知识的方法却停滞不前,因此需要一种工具来帮助人们从网络中高效地获取和发现新知识.由于网络资源文本并不是完全结构化的数据,还包括一些自由文本等复杂的无结构数据,这种文本信息虽然方便人们自由表达概念以及事件等,但是同时也为机器搜索、统计分析等制造了障碍.因此,为了在文本上更方便地进行知识分析和挖掘,本文提出一种基于深度学习的算法知识实体识别与发现的方法,应用于算法知识领域来解决上述问题.通过创建算法知识专家库[1],训练词向量,建立深度神经网络模型,从算法知识文本中识别和发现算法知识名称.实验结果表明,该深度神经网络模型识别算法知识的准确率高达98%,并有效发现了专家库以外的新知识点,实现了预期实验需求.  相似文献   

5.
6.
针对因存在倾斜的人脸而导致的人脸属性识别和人脸物体识别不精准的问题,提出了一种比普通人脸对齐算法更快速的方法.算法根据识别人脸5个关键点,定位出倾斜的人脸,从而识别出倾斜的人脸并进行对齐,经过一系列比对和大量实验对比结果,最终基于python语言应用DLIB框架实现了人脸对齐算法,相比较其他开源算法,该算法简洁方便,比...  相似文献   

7.
关系抽取是信息抽取技术的重要环节,旨在从无结构的文本中抽取出实体之间的关系.目前基于深度学习的实体关系抽取已经取得了一定的成果,但其特征提取不够全面,在各项实验指标方面仍有较大的提升空间.实体关系抽取不同于其他自然语言分类和实体识别等任务,它主要依赖于句子和两个目标实体的信息.本文根据实体关系抽取的特点,提出了SEF-...  相似文献   

8.
针对物联网环境中高级持续性威胁(APT)具有隐蔽性强、持续时间长、更新迭代快等特点,传统被动检测模型难以对其进行有效搜寻的问题,提出了一种基于超图Transformer的APT攻击威胁狩猎(HTTN)模型,能够在时间跨度长、信息隐蔽复杂的物联网系统中快速定位和发现APT攻击痕迹。该模型首先将输入的网络威胁情报(CTI)日志图和物联网系统内核审计日志图编码为超图,经超图神经网络(HGNN)层计算日志图的全局信息和节点特征;然后由Transformer编码器提取超边位置特征;最后对超边进行匹配计算相似度分数,从而实现物联网系统网络环境下APT攻击的威胁狩猎。在物联网仿真环境下的实验结果表明,提出的HTTN模型与目前主流的图匹配神经网络相比均方误差降低约20%,Spearman等级相关系数提升约0.8%,匹配精度提升约1.2%。  相似文献   

9.
实体识别技术作为知识图谱构建的重要步骤,已广泛用于语义网络、机器翻译、问答系统等自然语言处理中,在推动自然语言处理技术落地实践的过程中起着非常关键的作用。本文根据实体识别技术的发展历程调研了现有的实体识别方法,主要为早期基于规则和词典的实体识别方法、基于机器学习的以及基于深度学习的命名实体识别方法;整理了每种实体识别方法的关键思路、优缺点和具有代表性的模型,特别对目前使用较多的基于双向长短期记忆网络(BiLSTM)模型和基于Transformer模型的实体识别方法进行了概述;介绍了目前主流的数据集以及评价标准。最后,面向未来机器类通信的语义需求,总结了实体识别技术面临的挑战,并对其未来在物联网业务数据方面的发展进行了展望。  相似文献   

10.
跨语言实体对齐旨在找到不同语言知识图谱中指向现实世界同一事物的实体.传统的跨语言实体对齐方法通常仅依靠知识图谱内部的结构信息,但实际上一些知识图谱提供的实体描述信息也可以被利用.本文提出了一种结合知识图谱的内部结构和实体描述信息共同进行跨语言实体对齐的模型.该模型首先通过训练基于知识图谱结构信息的知识向量找到可能被对齐的实体对,再结合实体描述信息利用改进后的共享参数模型选出最终的对齐实体,最后通过迭代对齐的方法重复前两个步骤找到更多的对齐实体直到训练结束.实验结果表明,与基准算法相比,本文所提模型在跨语言实体对齐任务上可以取得相对不错的结果.  相似文献   

11.
网络威胁情报(CTI)蕴含丰富的威胁行为知识,及时分析处理威胁情报能够促进网络攻防由被动防御向主动防御的转变。当前多数威胁情报以自然语言文本的形式存在,包含大量非结构化数据,需要利用实体抽取方法将其转换为结构化数据以便后续处理。然而,由于威胁情报中包含大量漏洞名称、恶意软件、APT组织等专业词汇,且实体分布极不平衡,导致通用领域的实体抽取方法应用于威胁情报时受到极大限制。为此,提出一种融合Focal Loss的实体抽取模型,通过引入平衡因子和调制系数改进交叉熵损失函数,平衡样本分布。此外,针对威胁情报结构复杂且来源广泛,包含大量专业词汇的问题,在模型中增加单词和字符特征,有效改善了威胁情报中的OOV问题。实验结果表明,相较于现有主流模型BiLSTM和BiLSTM-CRF,所提模型在F1分数上分别提高了7.07%和4.79%,验证了引入Focal Loss和字符特征的有效性。  相似文献   

12.
命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义,分析提出了命名实体识别的主要难点在于领域命名实体识别局限性、命名实体表述多样性和歧义性、命名实体的复杂性和开放性;然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能;接着系统梳理了当下命名实体识别任务中的若干热门研究点,分别是匮乏资源下的命名实体识别、细粒度命名实体识别、嵌套命名实体识别以及命名实体链接;最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和实验测评指标,并给出了未来的研究建议。  相似文献   

13.
军事武器实体识别是军事领域本体构建的一项重要任务,基于深度学习方法实现自动军事武器实体识别能够提升军事情报信息检索的效率.为提升军事武器实体识别的精确率,面向网络公开非结构化军事新闻数据,提出了一种结合双层多头自注意力机制和BiLSTM-CRF模型的武器实体识别方法.在BiLSTM-CRF模型的基础上,采用双层自注意力...  相似文献   

14.
基于大数据分析的APT攻击检测研究综述   总被引:2,自引:0,他引:2  
高级持续性威胁(APT, advanced persistent threat)已成为高安全等级网络的最主要威胁之一,其极强的针对性、伪装性和阶段性使传统检测技术无法有效识别,因此新型攻击检测技术成为APT攻击防御领域的研究热点。首先,结合典型APT攻击技术和原理,分析攻击的6个实施阶段,并归纳攻击特点;然后,综述现有APT攻击防御框架研究的现状,并分析网络流量异常检测、恶意代码异常检测、社交网络安全事件挖掘和安全事件关联分析等4项基于网络安全大数据分析的APT攻击检测技术的研究内容与最新进展;最后,提出抗APT攻击的系统综合防御框架和智能反馈式系统安全检测框架,并指出相应技术在应对APT攻击过程中面临的挑战和下一步发展方向。  相似文献   

15.
16.
半监督学习是一种结合监督学习与无监督学习的学习方法,通过利用未标记数据,提高标记数据所建立模型的效果,目的是减少传统的机器学习任务中对大量标注数据的需求、降低人工成本.在中文电子病历实体识别领域,由于缺少足够的标注数据,且医学文本专业性较强、人工标注成本高,可以利用半监督学习方法,提升少量标注数据的训练效果.本文介绍了中文电子病历实体识别的研究背景和半监督学习的相关研究,并应用改进后的Tri-Training算法,提升中文电子病历实体识别模型的效果.  相似文献   

17.
命名实体识别是自然语言处理领域的一项关键任务,其目的在于从自然语言文本中识别出具有特定含义的实体,如人名、地名、机构名和专有名词等。在命名实体识别任务中,研究人员提出过多种方法,包括基于知识和有监督的机器学习方法。近年来,随着互联网文本数据规模的快速扩大和深度学习技术的快速发展,深度学习模型已成为命名实体识别的研究热点,并在该领域取得显著进展。文中全面回顾现有的命名实体识别深度学习技术,主要分为四类:基于卷积神经网络模型、基于循环神经网络模型、基于Transformer模型和基于图神经网络模型的命名实体识别。此外,对深度学习的命名实体识别架构进行了介绍。最后,探讨命名实体识别所面临的挑战以及未来可能的研究方向,以期推动命名实体识别领域的进一步发展。  相似文献   

18.
部分联合学习模型使用同一个编码器对实体识别和关系抽取这两项任务进行编码,但是单个编码器不足以捕获同一空间中两个任务所需的信息,本文通过使用序列编码器获取实体标签,表格编码器获取关系标签的双编码方式改善这一缺陷;与此同时,为了让整个模型更快、更好的收敛到理想效果,在双编码器模型的基础上加入了最小风险训练来优化全局损失函数.与现有的主流模型在4个标准数据集上进行对比发现,本文模型相较主流模型在评价指标上均有一定程度的提升.  相似文献   

19.
近年来,高级持续性威胁(APT,Advanced Persistent Threat)已经成为一种严重威胁企业数据安全的网络攻击。这种网络攻击具有针对性、隐蔽性、持续性和可变性特点,目的直达企业核心数据。传统基于"网关+服务器+PC终端"的三层安全防护架构过于分散,无法有效地发现和阻止此类攻击。文中提出了一种改进的分层集中式网络安全架构,通过集中分析和管控的方法,使企业内部的安全防护部件构成一个有机整体,能够有效地防范APT网络攻击。  相似文献   

20.
实体对齐是知识图谱的关键技术,通过发现不同数据源中的等价实体,实现异构数据的有效融合与利用。在高校论文统计中,由于教师论文题录信息复杂多样,现有主要依靠教师自行申报的方式很难准确统计。论文统计的核心在于正确进行教师个体的实体对齐。当前实体对齐技术发展迅速,但存在模型实施成本高、缺乏业务场景应用、纠错能力弱等问题。为解决高校论文统计中实体对齐问题,构建一种新的实体对齐模型。该模型考虑高校内部的学术社交关系,实现教师论文题录信息的有效对齐,并建立数据纠错回流机制,以提高论文统计的准确性。本模型具有良好的适用性,可基于高校现有数据资源实现,对完善高校论文统计与评价具有重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号