基于深度学习的不良应用域名早期识别方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于深度学习的不良应用域名早期识别方法

引用本文：	胡安磊,田语,陈勇,李振宇,谢高岗.基于深度学习的不良应用域名早期识别方法[J].高技术通讯,2024(2):151-161.

作者姓名：	胡安磊田语陈勇李振宇谢高岗

作者单位：	1. 中国科学院计算技术研究所;2. 中国互联网络信息中心;3. 中国科学院大学;4. 中国科学院计算机网络信息中心

基金项目：	国家重点研发计划(2022YFB3103000)；;国家自然科学区域联合重点基金(U20A20180,62072437)资助项目；

摘要：	不良应用网站依赖域名系统(DNS)实现不良内容传播,严重影响互联网的健康发展。尽早识别出不良应用网站对应的域名(即不良应用域名),并进行相应治理,对域名系统的管理与运行至关重要。本文从国家顶级域名(. CN)管理的角度出发,关注如何在注册阶段识别不良应用域名。分析发现不良应用域名在注册特征与文本结构2个维度,与正常域名存在显著差异。为此,提出了一种基于深度学习的不良应用域名早期识别方法。该方法首先提取域名的注册信息特征,并利用预训练语言模型基于Transformer的双向编码器(BERT)提取域名本身的文本语义特征,其次基于注意力机制融合2类特征,并最终使用全连接神经网络,构建域名分类器,实现不良应用域名的早期识别。基于真实网络数据的实验结果表明,所提方法分类准确率(F1分数)可达到0.99;消融实验结果也验证了所选特征的有效性和必要性。
关键词：	域名系统(DNS) 域名分类深度学习预训练语言模型

设为首页 | 免责声明 | 关于勤云 | 加入收藏