基于混合代码表示的源代码脆弱性检测 |
| |
引用本文: | 张琨,杨丰玉,钟发,曾广东,周世健.基于混合代码表示的源代码脆弱性检测[J].计算机应用,2023(8):2517-2526. |
| |
作者姓名: | 张琨 杨丰玉 钟发 曾广东 周世健 |
| |
作者单位: | 南昌航空大学软件学院 |
| |
基金项目: | 江西省自然科学基金资助项目(20212BAB212009)~~; |
| |
摘 要: | 软件脆弱性对网络与信息安全产生了极大的威胁,而脆弱性的根源在于软件源代码。因为现有的传统静态检测工具和基于深度学习的检测方法没有完整地表示代码特征,并且简单地使用词嵌入方法转换代码表示,所以检测结果准确率低,误报率高或漏报率高。因此,提出了一种基于混合代码表示的源代码脆弱性检测方法来解决代码表示不完整的问题,并提升检测性能。首先将源代码编译为中间表示(IR),并提取程序依赖图;然后基于数据流和控制流分析进行程序切片来得到结构化的特征,同时使用doc2vec嵌入节点语句得到非结构化的特征;接着使用图神经网络(GNN)对混合特征进行学习;最后使用训练好的GNN进行预测和分类。为了验证所提方法的有效性,在软件保证参考数据集(SARD)和真实世界数据集上进行了实验评估,检测结果的F1值分别达到了95.3%和89.6%。实验结果表明,所提方法有较好的脆弱性检测能力。
|
关 键 词: | 脆弱性检测 中间表示 表示学习 图神经网络 深度学习 |
|
|