融合Focal Loss的网络威胁情报实体抽取 |
| |
作者姓名: | 郭渊博 李勇飞 陈庆礼 方晨 胡阳阳 |
| |
作者单位: | 1. 信息工程大学密码工程学院;2. 加利福尼亚大学河滨分校 |
| |
基金项目: | 国家自然科学基金资助项目(No.61501515,No.61601515)~~; |
| |
摘 要: | 网络威胁情报(CTI)蕴含丰富的威胁行为知识,及时分析处理威胁情报能够促进网络攻防由被动防御向主动防御的转变。当前多数威胁情报以自然语言文本的形式存在,包含大量非结构化数据,需要利用实体抽取方法将其转换为结构化数据以便后续处理。然而,由于威胁情报中包含大量漏洞名称、恶意软件、APT组织等专业词汇,且实体分布极不平衡,导致通用领域的实体抽取方法应用于威胁情报时受到极大限制。为此,提出一种融合Focal Loss的实体抽取模型,通过引入平衡因子和调制系数改进交叉熵损失函数,平衡样本分布。此外,针对威胁情报结构复杂且来源广泛,包含大量专业词汇的问题,在模型中增加单词和字符特征,有效改善了威胁情报中的OOV问题。实验结果表明,相较于现有主流模型BiLSTM和BiLSTM-CRF,所提模型在F1分数上分别提高了7.07%和4.79%,验证了引入Focal Loss和字符特征的有效性。
|
关 键 词: | 网络安全 威胁情报 实体抽取 样本不平衡 |
|
|