首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 208 毫秒
1.
随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页检测领域的性能,本文提出将URL数据结合HTTP请求信息作为原始数据样本进行特征提取,解决了单纯URL数据过于简单而造成特征提取困难的问题,通过实验对比了三种编码处理方式,根据实验结果选取了最佳字符编码的处理方式,保证了后续检测模型的效果。同时本文针对URL字符输入的特点,设计了适合URL检测的卷积神经网络模型,为了提取数据深层特征,使用了两层卷积层进行特征提取,其次本文在池化层选择使用BiLSTM算法提取数据的时序特征,同时将该网络的最后一个单元输出达到池化效果,避免了大量的模型计算,保证了模型的检测效率。同时为解决数据样本不均衡问题,在迭代过程中为其分配不同惩罚因子,改进了数据样本初始化权重的分配规则并进行了归一化处理,增加恶意样本在整体误差函数中的比重。实验结果表明本文模型在准确率、召回率以及检测效率上较优于其他主流检测模型,并对于不均衡数据集具有较好的抵抗能力。  相似文献   

2.
吴森焱  罗熹  王伟平  覃岩 《软件学报》2021,32(9):2916-2934
随着Web应用的日益广泛,Web浏览过程中,恶意网页对用户造成的危害日趋严重.恶意URL是指其所对应的网页中含有对用户造成危害的恶意代码,会利用浏览器或插件存在的漏洞攻击用户,导致浏览器自动下载恶意软件.基于对大量存活恶意URL特征的统计分析,并重点结合了恶意URL的重定向跳转、客户端环境探测等逃避检测特征,从页面内容、JavaScript函数参数和Web会话流程这3个方面设计了25个特征,提出了基于多特征融合和机器学习的恶意URL检测方法——HADMW.测试结果表明:该方法取得了96.2%的精确率和94.6%的召回率,能够有效地检测恶意URL.与开源项目以及安全软件的检测结果相比,HADMW取得了更好的效果.  相似文献   

3.
汪鑫  武杨  卢志刚 《计算机科学》2018,45(3):124-130, 170
互联网应用已经渗透到人们日常生活的方方面面,恶意URL防不胜防,给人们的财产和隐私带来了严重威胁。当前主流的防御方法主要依靠黑名单机制, 难以检测 黑名单以外的URL。因此,引入机器学习来优化恶意URL检测是一个主要的研究方向,但其主要受限于URL的短文本特性,导致提取的特征单一,从而使得检测效果较差。针对上述挑战,设计了一个基于威胁情报平台的恶意URL检测系统。该系统针对URL字符串提取了结构特征、情报特征和敏感词特征3类特征来训练分类器,然后采用多分类器投票机制来判断类别,并实现威胁情报的自动更新。实验结果表明,该方法对恶意URL进行检测 的准确率 达到了96%以上。  相似文献   

4.
针对网页安全威胁的动态性、广泛性等特点,设计了一个基于蜜罐在线恶意网页检测系统。该系统使用URL数据表来记录网页地址,同时结合蜜罐技术对URL数据表不存在或存在但还需进行检测的网页进行综合检测,实时检测出用户需要浏览的网页的安全状态,避免恶意网页的攻击,从而提高人们网络活动的安全性。  相似文献   

5.
基于统计学习的挂马网页实时检测   总被引:1,自引:0,他引:1  
近年来挂马网页对Web安全造成严重威胁,客户端的主要防御手段包括反病毒软件与恶意站点黑名单。反病毒软件采用特征码匹配方法,无法有效检测经过加密与混淆变形的网页脚本代码;黑名单无法防御最新出现的恶意站点。提出一种新型的、与网页内容代码无关的挂马网页实时检测方法。该方法主要提取访问网页时HTTP会话过程的各种统计特征,利用决策树机器学习方法构建挂马网页分类模型并用于在线实时检测。实验证明,该方法能够达到89. 7%的挂马网页检测率与0. 3%的误检率。  相似文献   

6.
《软件》2019,(1):63-68
恶意URL现如今对网络安全影响巨大,能否高效的检测恶意URL成为一个亟待解决的问题。针对传统基于文本特征的检测方法没有考虑到URL中词的位置和上下文信息的缺点,提出了一种基于上下文信息的恶意URL检测方法,首先利用预处理方法解决了URL中存在大量的随机字符组成单词的问题,使用特殊符号作为分隔符对URL分词,对得到的分词结果使用Word2vec生成词向量空间,然后训练卷积神经网络提取文本特征并分类。实验结果表明,该方法在大量真实数据上能够达到97.30%的准确率、90.15%的召回率和92.33%的F1值。  相似文献   

7.
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。  相似文献   

8.
恶意网址URL检测一直是信息安全防御技术领域的研究热点之一。针对传统恶意URL检测技术无法自主探测未知URL,并且缺乏适应大数据时代发展的能力等问题,设计并实现了一种基于大数据技术,结合决策树算法与黑白名单技术的恶意URL检测模型。该模型基于Spark分布式计算框架,利用已知URL训练集提取特征、训练决策树分类模型,然后用已有分类模型对黑白名单无法检测出的URL进行分类预测,达到检测目的。实验证明,构建的检测模型具有很好的检测效果和稳定性。  相似文献   

9.
中文语义标注在自然语言处理领域有广泛的应用,其目的在于挖掘并标注出中文多语义名词的多个语义。提出一种新颖的语义标注算法,通过在线URL分类目录,构建得到URL分类器。借助于URL分类器,对搜索引擎返回的多语义名词的搜索结果(包括网页URL及摘要)进行分类,得到多语义名词的初始语义分类结果。对初始语义分类结果按其网页摘要聚类,提取聚类特征后得到多语义词的语义标注结果。该算法利用基于URL的网页分类方法,能在线对中文多语义名词进行语义标注。实验结果证明,该语义标注算法可以取得70%的准确率及80%的召回率,适用于网络热词语义标注。  相似文献   

10.
传统恶意网页识别缺乏全局性、系统性考量,没有将网页作为有机整体,而是独立针对标签结构、URL地址、文本内容等特定层面特征开展研究,导致准确率较低.虽然已有学者提出融合特征思想,但依旧使用机器学习算法予以实现,特征工程工作量巨大,识别效率低下.针对上述问题,提出一种基于多特征融合的Tri-BERT-SENet模型,用于完成恶意网页的识别任务.利用获取得到的HTML特征、网页URL特征以及网页文本特征,结合BERT模型的上下文感知能力,将特征转化为3个BERT模型输出;之后将模型输出作为特征通道,使用SENet进行加权计算,最终输出识别结果.实验结果表明,与传统机器学习模型以及使用BERT对单一特征的识别方法相比,该检测方法在恶意网页识别的准确率上有较大提升.  相似文献   

11.
陆璐  全君林  李玮超 《计算机工程》2010,36(23):113-115,118
设计一个基于客户端的恶意网页收集系统。系统通过设置主题爬虫,有针对性地获取可能包含恶意脚本的网页文件,通过分析恶意代码常见的挂木马方式与恶意代码样本,设计正则表达式来提取网页恶意代码的特征码,利用相应算法扫描并匹配利用爬虫获取的网页文件,如发现网页文件中包含可疑的恶意脚本,则将它的域名URL、恶意网页路径与恶意代码脚本类型存入恶意网页库中,以实现恶意网页的搜集。  相似文献   

12.
针对目前主流恶意网页检测技术耗费资源多、检测周期长和分类效果低等问题,提出一种基于Stacking的恶意网页集成检测方法,将异质分类器集成的方法应用在恶意网页检测识别领域。通过对网页特征提取分析相关因素和分类集成学习来得到检测模型,其中初级分类器分别使用K近邻(KNN)算法、逻辑回归算法和决策树算法建立,而次级的元分类器由支持向量机(SVM)算法建立。与传统恶意网页检测手段相比,此方法在资源消耗少、速度快的情况下使识别准确率提高了0.7%,获得了98.12%的高准确率。实验结果表明,所提方法构造的检测模型可高效准确地对恶意网页进行识别。  相似文献   

13.
Webshell是一种基于Web服务的后门程序.攻击者通过Webshell获得Web服务的管理权限,从而达到对Web应用的渗透和控制.由于Webshell和普通Web页面特征几乎一致,所以可逃避传统防火墙和杀毒软件的检测.而且随着各种用于反检测特征混淆隐藏技术应用到Webshell上,使得传统基于特征码匹配的检测方式很难及时检测出新的变种.本文将讨论Webshell的特点和机理,分析其混淆隐藏技术,发掘其重要特征,提出并实现了一种基于决策树的检测模型.该模型是一种监督的机器学习系统,对先验网页样本进行学习,可有效检测出变异Webshell,弥补了传统基于特征匹配检测方法的不足,而结合集体学习方法Boosting,可以增强该模型的稳定性,提高分类准确率.  相似文献   

14.
马冬雪  宋设  谢振平  刘渊 《计算机应用》2020,40(6):1574-1579
针对正则表达式解析招投标网页效率低下的问题,提出了一种基于招投标领域本体的网页自动化解析新方法。首先,分析了招投标网页文本的结构特征;其次,构建了招投标本体的轻量级领域知识模型;最后,给出一种招投标网页元素语义匹配与抽取算法,实现招投标网页的自动化解析。实验结果表明,新方法通过自适应的解析,准确率、召回率分别可达到95.33%、88.29%,与正则表达式方法相比,分别提高了3.98个百分点和3.81个百分点。所提方法可实现自适应地对招投标网页中语义信息的结构化解析抽取,能够较好地满足实用性能要求。  相似文献   

15.
互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性, 网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就, 但随着对恶意网页识别需求的不断提高, 在识别效率上仍然表现出较大的局限性。本文提出一种基于深度学习与特征融合的识别方法, 将图卷积神经网络(Generalized connection network,GCN)与一维卷积神经网络(Convolution neural network, CNN)、支持向量机(Support vector machine, SVM)相结合。首先, 考虑到传统神经网络只适用于处理结构化数据以及无法很好的捕获单词间非连续和长距离依赖关系, 从而影响网页识别准确率的缺点,通过 GCN 丰富的关系结构有效捕获并保持网页文本的全局信息; 其次, CNN 可以弥补 GCN 在局部特征信息提取方面的不足,通过一维 CNN 对网页 URL(Uniform resource locator, URL)进行局部信息提取, 并进一步将捕获到的 URL 局部特征与网页文本全局特征进行融合, 从而选择出兼顾 CNN 模型和 GCN 模型特点的更具代表性的网页特征; 最终, 将融合后的特征输入到 SVM分类器中进行网页判别。本文首次将 GCN 应用于恶意网页识别领域, 通过组合模型有效兼顾了深度学习与机器学习的优点, 将深度学习网络模型作为特征提取器, 而将机器学习分类算法作为分类器, 通过实验证明, 测试准确率达到 92.5%, 高于已有的浅层的机器学习检测方法以及单一的神经网络模型。本文提出的方法具有更高的稳定性, 以及在精确率、召回率、 F1 值等多项检测指标上展现出更加优越的性能。  相似文献   

16.
基于布局特征与语言特征的网页主要内容块发现   总被引:1,自引:0,他引:1  
本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。  相似文献   

17.
李沁蕾  王蕊  贾晓启 《计算机应用》2014,34(6):1661-1665
针对在线社交网络中跨站脚本(XSS)攻击的安全问题,提出了一种在线社交网络恶意网页的检测方法。该方法依据在线社交网络中跨站脚本恶意代码的传播特性,提取一组基于相似性和差异性的特征,构造分类器和改进n-gram模型,再利用两种模型的组合,检测在线社交网络网页是否恶意。实验结果表明,与传统的分类器检测方法相比,结合了改进n-gram模型的检测方法保证了检测结果的可靠性,误报率约为5%。  相似文献   

18.
Webpage design has become an important component affecting user satisfaction when they surf the Internet. Interface designers are struggling to improve the quality of user experience by designing webpages that meet users’ emotional needs. An optimization design method of webpage interface is proposed in this study based on Kansei engineering theory, and a job‐hunting website homepage is taken as the research example. After determining the materials, the semantic differential (SD) method is used to extract user‐centered emotional dimensions, and the key design factors of homepages’ appearance are acquired. Next, based on the obtained semantic differential evaluation data, back propagation neural network (BPNN) is conducted to identify quantitative relations between key design factors and emotional dimensions. Finally, genetic algorithm (GA) is employed to search for a near‐optimal design. The proposed method is helpful to design webpages that can satisfy participants’ emotions. It can also be used in a variety of design cases.  相似文献   

19.
属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号