首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
垃圾网页在利益的驱使下采用作弊手段欺骗搜索引擎获得更高的排名,干扰了用户对信息的获取.通过分析网页内容特征及其分布,提出了结合内容特征信息与TrustRank算法的方法对垃圾网页进行检测.实验结果表明,结合了内容特征信息的TrustRank算法能够有效的检测出垃圾网页.  相似文献   

2.
基于内容的搜索引擎垃圾网页检测   总被引:1,自引:0,他引:1  
有些网页为了增加访问量,通过欺骗搜索引擎,提高在搜索引擎的搜索结果中的排名,这些网页被称为"搜索引擎垃圾网页"或"垃圾网页"。将搜索引擎垃圾网页的检测看成一个分类问题,采用C4.5分类算法建立决策树分类模型,将网页分成正常网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。  相似文献   

3.
基于内容与链接特征的中文垃圾网页分类   总被引:2,自引:0,他引:2  
随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。  相似文献   

4.
如何快速有效地计算网页的相似性是发现钓鱼网页的关键.现有的钓鱼网页检测方法在检测效果上依然存在较大的提升空间.文中提出基于匈牙利匹配的钓鱼网页检测模型,该模型首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特征签名,比较全面地刻画了网页访问后的特征;然后通过匈牙利算法计算二分图的最佳匹配来寻找不同网页签名之间匹配的特征对,在此基础上能够更加客观地度量网页之间的相似性,从而提高钓鱼网页的检测效果.一系列的仿真实验表明文中方法可行,并具有较高的准确率和召回率.  相似文献   

5.
针对垃圾网页的内容特征和链接特征,设计一种集成主成分分析PCA(Principal Component Analysis)与支持向量机分类算法的垃圾网页检测方法。该方法使用PCA来提取网页样本特征的主成分,使用主成分特征训练支持向量机(SVM)分类器。训练过程引入AdaBoost以提高分类器的性能。此外,采用聚类算法处理训练和测试数据集,解决了样本不均衡问题。通过在WebSpamUK2007数据集上进行多组对比实验,结果表明,所设计的垃圾网页检测方案具有最高的检测率(0.851)。  相似文献   

6.
文必龙  唐苏龙  张浩 《微机发展》2013,(4):87-90,95
主题搜索引擎的研究难点之一就是主题与网页信息之间的准确匹配。通过对网页的特征进行分析,提取网页特征中的主题特征词,并用提取的主题特征词表示网页主题信息,提出了利用网页特征及特征之间的关系来建立网页特征模型。该特征模型能准确地描述网页的内部特征和外部特征的主题表现力,有利于计算网页与主题之间的相似度。实验结果表明该特征模型能有效地表达网页的主题信息,并有助于提高主题搜索引擎的资源发现率和搜索准确率。  相似文献   

7.
为提升钓鱼网页检测的准确率和效率,提出基于主辅特征的混合式深度学习模型.从URL、HTML页面内容和文档对象模型(document object model,DOM)结构中提取39种特征来表示钓鱼网页的多样性,其中包括两种新特征,基于信息增益将这39种特征根据重要程度分为主要特征和辅助特征;将两种特征向量通过不同通道分别送入由卷积神经网络和双向长短时记忆网络组成的混合式深度学习网络进行训练,对两通道的输出进行加权融合实现分类.实验结果表明,所提模型能有效地检测钓鱼网页.  相似文献   

8.
为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Vec词向量和词移距离计算3个单页语义相似度特征;然后将单页语义相似度特征融合单页统计特征,使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明,基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%,比对照方法提高4%左右。  相似文献   

9.
首先将垃圾网页特征分为两个不同的视图, 即基于内容特征的视图和基于链接特征的视图, 利用典型相关分析及其相关改进方法进行特征提取, 生成两组新的特征; 再对新生成的两视图特征采用不同组合方式产生单视图数据, 并用这组数据作为训练数据构建分类算法。实验结果表明, 将垃圾网页看成两视图数据, 并应用多视图典型相关分析技术, 可有效提高垃圾网页的识别精度。  相似文献   

10.
垃圾网页是指一些网页通过不正当的手段来误导搜索引擎,使网页获得高于其应有的排名,从而获得更多的访问量。它不仅降低了网页的质量,同时也导致了严重的Web信息安全问题。传统的垃圾网页检测通常使用经典的机器学习方法包括贝叶斯算法、SVM、C4.5等,这些算法对垃圾网页的检测有一定的效果。在前人的研究基础上提出一种基于免疫克隆选择的垃圾网页检测方法。利用人工免疫系统的自学习及自适应能力来检测利用新作弊技术的垃圾网页,并与广泛用于垃圾网页检测的贝叶斯算法对比。实验表明该方法能有效、可靠地检测出垃圾网页。  相似文献   

11.
RGB-D图像包含丰富的多层特征,如底层的线特征、平面特征,高层的语义特征,面向RGB-D图像的多层特征提取结果可以作为先验知识提升室内场景重建、SLAM(simultaneous localization and mapping)等多种任务的输出质量,是计算机图形学领域的热点研究内容之一。传统的多层特征提取算法一般利用RGB图像中丰富的颜色、纹理信息以及深度图像中的几何信息提取多层特征,此类提取算法依赖输入RGB-D图像的质量,而受采集过程中环境和人为因素的影响,很难得到高质量的RGB-D图像。随着深度学习技术的快速发展,基于深度学习的多层特征提取算法突破了这一限制,涌现出一批高质量的研究成果。本文对面向RGB-D图像的多层特征提取算法进行综述。首先,汇总了现有的常用于多层特征提取任务的RGB-D数据集和相关算法的质量评价指标。然后,按照特征所处的不同层次,依次对线、平面和语义特征相关算法进行了总结。此外,本文还对各算法的优缺点进行比较并结合常用算法质量评价标准进行了定量分析。最后,讨论了当前多层特征提取算法亟待解决的问题并展望了未来发展的趋势。  相似文献   

12.
情感识别在人机交互中具有重要意义,为了提高情感识别准确率,将语音与文本特征融合。语音特征采用了声学特征和韵律特征,文本特征采用了基于情感词典的词袋特征(Bag-of-words,BoW)和N-gram模型。将语音与文本特征分别进行特征层融合与决策层融合,比较它们在IEMOCAP四类情感识别的效果。实验表明,语音与文本特征融合比单一特征在情感识别中表现更好;决策层融合比在特征层融合识别效果好。且基于卷积神经网络(Convolutional neural network,CNN)分类器,语音与文本特征在决策层融合中不加权平均召回率(Unweighted average recall,UAR)达到了68.98%,超过了此前在IEMOCAP数据集上的最好结果。  相似文献   

13.
织毯为人们的日常生活增添了一抹绚丽、浪漫的色彩。新疆拥有广阔的天然草地面积,畜牧业发达,因而产生了大量的优质毛料,为织毯的发展奠定了基础。同时众多少数民族、游牧民族聚居于此,不同的民俗、不同的宗教影响于织毯的装饰风格,使新疆地毯极具地域特点。随着社会的发展,织毯的社会功能逐渐高于它的使用功能。织毯除了满足人们生理需求与视觉享受之余,更多的是对其地域思想、地域文化的体现,并对其进行推广与传播。  相似文献   

14.
云的光谱和纹理特征统计分析   总被引:3,自引:0,他引:3       下载免费PDF全文
利用静止卫星图像资料建立了夏季白天中低纬地区的11 种云/ 表面类型的样本集, 从中随机 挑选656 个样本, 提取116 个光谱和纹理特征参数并进行统计分析, 通过特征选择组成特征向量, 带入逐个修改聚类和模糊聚类的分类器进行敏感性试验。结果发现, 在反映云特征方面, 光谱特征 是云分类最基本的特征, 比纹理特征明显, 是云分类识别的主要依据; 除去水汽通道的标准差以外 其它光谱特征都比较明显, 红外和水汽通道的特征明显好于可见光通道, 尤其是对中低云和卷云的 描述。纹理特征在反映云特征方面也有一定的代表性, 特别是一阶概率特征中四通道的惯量及水汽 通道的逆差距; 纹理特征引入后分类准确率显著提高, 但在引入一阶概率特征基础上引入灰度级差 矢量特征效果改善并不明显。  相似文献   

15.
16.
基于主曲线的脱机手写数字结构特征分析及选取   总被引:8,自引:0,他引:8  
要提高脱机手写数字识别的识别率,关键是特征的提取与选择.主曲线是主成分分析的非线性推广,它是通过数据分布“中间”并满足“自相合”的光滑曲线.它较好地反映了数据分布的结构特征.在数字特征选取中,首先将主曲线用于训练数据的特征提取;其次在详细分析数字主曲线的结构特点的基础上,选择出用于数字识别的粗分类、细分类特征;最后在对手写数字进行识别时,先进行粗分类再进行细分类.所提方法在Concordia大学的CENPARMI手写体数字数据库上的实验结果表明:利用这些特征能有效区分相似字符,提高了手写数字的识别率,为脱机手写数字识别的研究提供了一条新途径。  相似文献   

17.
任永功  尹明飞  杨荣杰 《计算机科学》2012,39(5):177-179,212
近几年,垃圾博客过滤成为国际上新的热点研究领域。现有的过滤算法大多基于词频特征分类,特征冗余并缺乏关联性。为了解决此问题,提出一种基于组合特征的动态垃圾博客过滤算法(CFDSD),该算法采用作者属性和自相似特征来解决特征冗余和关联性低的问题,并应用贝叶斯分类算法优化词频特征分类。实验表明,该算法能适应博客随时间变化而动态更新的特点,同时提高了过滤效率。  相似文献   

18.
面向对象特征融合的高分辨率遥感图像变化检测方法*   总被引:2,自引:0,他引:2  
针对高分辨率遥感图像变化检测的难点和传统像元级变化检测方法的局限性,提出了基于面向对象的思想,利用分割后图像对象的光谱特征、纹理特征、形状特征分别进行变化检测,然后将不同对象特征检测结果进行融合得到最终结果。实验表明了本方法比传统的像素级方法对高分辨率遥感图像变化检测有较强的优势。  相似文献   

19.
基于内容的图像检索是图像检索中较高层次的检索,文中对CBIR的各种特征提取方法进行了分析比较,最后指出了当前的研究热点和今后的发展方向。  相似文献   

20.
现有主流的利用预训练卷积神经网络提取图像特征的方法存在仅使用单层预训练特征表征图像和预训练任务与实际研究任务不一致的问题,使得现有图文匹配方法无法充分利用图像特征,极易受到噪声特征干扰。针对上述问题,使用了预训练网络中的多层特征,并提出了多层次图像特征融合算法。在图文匹配的学习目标指导下,利用多层感知机(multi-layer perceptron)有监督地融合和降维多层次的预训练图像特征,生成融合图像特征,从而充分利用预训练特征,减少噪声干扰。实验结果表明,提出的融合算法可实现对预训练的图像特征更有效的利用,相比于使用单层次特征的方法能获得更好的图文匹配效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号