首页 | 官方网站   微博 | 高级检索  
     

基于深度学习的不良应用域名早期识别方法
引用本文:胡安磊,田语,陈勇,李振宇,谢高岗.基于深度学习的不良应用域名早期识别方法[J].高技术通讯,2024(2):151-161.
作者姓名:胡安磊  田语  陈勇  李振宇  谢高岗
作者单位:1. 中国科学院计算技术研究所;2. 中国互联网络信息中心;3. 中国科学院大学;4. 中国科学院计算机网络信息中心
基金项目:国家重点研发计划(2022YFB3103000);;国家自然科学区域联合重点基金(U20A20180,62072437)资助项目;
摘    要:不良应用网站依赖域名系统(DNS)实现不良内容传播,严重影响互联网的健康发展。尽早识别出不良应用网站对应的域名(即不良应用域名),并进行相应治理,对域名系统的管理与运行至关重要。本文从国家顶级域名(. CN)管理的角度出发,关注如何在注册阶段识别不良应用域名。分析发现不良应用域名在注册特征与文本结构2个维度,与正常域名存在显著差异。为此,提出了一种基于深度学习的不良应用域名早期识别方法。该方法首先提取域名的注册信息特征,并利用预训练语言模型基于Transformer的双向编码器(BERT)提取域名本身的文本语义特征,其次基于注意力机制融合2类特征,并最终使用全连接神经网络,构建域名分类器,实现不良应用域名的早期识别。基于真实网络数据的实验结果表明,所提方法分类准确率(F1分数)可达到0.99;消融实验结果也验证了所选特征的有效性和必要性。

关 键 词:域名系统(DNS)  域名分类  深度学习  预训练语言模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号