首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
目前网络消费变得越来越频繁,但钓鱼网站给网上交易平台及相关用户带来较重的经济损失,如何有效甄别钓鱼网站,减少用户损失,显得尤为重要.文章通过URL特征、网页内容、网页图片特征等属性来描述网页,根据钓鱼网页不同类型,针对各个特征属性,构建不同的分类器,然后通过逐步判别方式,达到动态预测各待检测网页的目的.工具上,针对处理大数据集,利用SPARK平台计算结果,通过实验测试,取得了良好的分类效果.  相似文献   

2.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

3.
基于账号的URL访问日志,通过检测风险设备定位风险账号;提取设备出现次数离散度、设备多账号风险度、收费网络占比等访问行为特征,将其量化为特征向量集;利用高斯混合模型(GMM)将所得到的特征向量集进行聚类,得出设备有异常访问行为的概率. 使用修正余弦相似度算法计算同一账号下同类设备访问URL的相似程度. 综合高斯混合模型的聚类结果和修正余弦相似度的计算结果得到风险账号的评估结果. 实验结果表明,该方法在误报率低于5%的同时达到85%的检出率,可以在IP地址范围较小、账号登录频率不高的园区网环境下及时发现风险账号.  相似文献   

4.
钓鱼网站一直是网络安全中需要解决的难题之一,它的隐蔽性很高,但造成的损失往往很大.针对钓鱼网站的研究,有很多学者通过机器学习算法对钓鱼网站和正常网站进行分类.根据在钓鱼网站检测中常用的分类算法(KNN;SVM;贝叶斯)为基础,通过对网站的URL特征和页面内容特征进行实验比较研究.实验结果表明,在URL特征和页面内容特征上,线性SVM分类器的准确率和召回率都高于KNN算法和多项式的朴素贝叶斯算法.  相似文献   

5.
随着近年来互联网信息的爆炸式增长,通用网络爬虫成为人们获取信息的有效手段。但其查准率却无法保证。针对此问题,提出一种基于改进BM25算法和SVM算法的聚焦爬虫,用于解决通过网络爬虫的缺点。聚焦爬虫分为网页爬取模块、网页预处理模块和网页关联性评价模块三部分。网页爬取模块以URL种子集合为初始集合负责网页信息的爬取。网页预处理模块采用改进BM25算法提取网页信息的主题特征向量。网页关联性评价模块采用SVM算法对主题特征向量进行分类,获取和用户检索主题相关的网页信息。实验结果表明,本文的方法在网页抓取的查准率上都取得良好的效果。  相似文献   

6.
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.  相似文献   

7.
由于网页信息呈现的多样性和复杂性,基于Web数据挖掘的信息提取准确率不高。为了提高科技专家Web信息挖掘的正确率,提出一种基于Web数据挖掘的多因素科技专家信息提取方法,对于网页给定统一资源定位符(URL)先进行网页正文提取,综合特征词在网页正文中的位置及特征词与特征词之间的距离构成最短距离匹配方法,抽取科技专家姓名、性别、出生年月、出生地点、职称等信息。实验结果表明,该方法获得了94.43%的查全率和92.34%的准确率,较好地满足了应用需求。  相似文献   

8.
僵尸网络利用诸如蠕虫、木马以及rootkit等传统恶意程序,进行分布式拒绝服务攻击、发送钓鱼链接、提供恶意服务,已经成为网络安全的主要威胁之一。由于P2P僵尸网络的典型特征是去中心化和分布式,相对于IRC、HTTP等类型的僵尸网络具有更大的检测难度。为了解决这一问题,该文提出了一个具有两阶段的流量分类方法来检测P2P僵尸网络。首先,根据知名端口、DNS查询、流计数和端口判断来过滤网络流量中的非P2P流量;其次基于数据流特征和流相似性来提取会话特征;最后使用基于决策树模型的随机森林算法来检测P2P僵尸网络。使用UNB ISCX僵尸网络数据集对该方法进行验证,实验结果表明,该两阶段检测方法比传统P2P僵尸网络检测方法具有更高的准确率。  相似文献   

9.
SQL注入攻击是近年来Internet网络上最流行的网站入侵方式之一,本文简要介绍了SQL注入攻击的原理,实现过程及一般防御手段,然后采用ASP.NET级的URL重写技术建立了一种针对SQL注入攻击的防御方法.  相似文献   

10.
设计并实现了一个基于相似聚类算法的垂直搜索引擎。利用网络爬虫NWebCrawler,通过定制正则表达式,高效爬取所需的URL;通过解析爬取的URL信息,提取结构化数据;利用正向最大匹配算法,对搜索关键字分词;利用向量空间模型,根据相似度值对搜索结果聚类;基于Lucene建立索引,检索所需信息。实验结果表明,基于相似聚类算法的垂直搜索引擎,比通用搜索引擎的准确率和召回率高,与普通的垂直搜索引擎相比,具备了相似产品查询功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号