首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
本文首先描述基于关键字和特征码的网页去重算法思想,然后对算法中的关键词提取问题,特征串提取问题和特征串相似度计算问题进行了分析和研究。  相似文献   

2.
针对传统关联分析技术应用于网页文本分析上存在的问题,提出一种基于命名实体及实体关系的网页文本关联分析方法.该方法以命名实体和实体关系作为特征来代替传统高频词,首先采用基于向量相似度比较的修正策略来提取网页文本中的命名实体,然后分析Maxfpminer算法并对其进行改进,利用改进的Maxfpminer算法对网页文本进行关联分析.实验结果表明,该方法分析得到的知识模式的有效性和可读性均优于传统方法.  相似文献   

3.
业务选择网关(SSG)从用户请求数据包中解析出URL,然后查找路由映射表进行路由选择.提出了一种基于改进主动哈希的URL存储和查找算法,该算法首先使用循环冗余校验(CRC)码对URL进行编码;接着引出访问度的概念,在此基础上对主动哈希算法进行改进,并用改进的主动哈希算法对URL进行散列.实验证明该算法的URL查找效率得到明显提高,并且也大大减少了存储空间.  相似文献   

4.
Bloom Filter哈希空间的元素还原   总被引:2,自引:0,他引:2       下载免费PDF全文
彭艳兵  龚俭  刘卫江  杨望 《电子学报》2006,34(5):822-827
本文提出使用语义增强的Counting Bloom Filter Reconstruction(RSECBF)算法来快速还原源串或给出源串的聚类特征.它给每个哈希函数独立的哈希映射空间以消除哈希函数的内部冲突;扩展哈希函数使其不受均匀性限制,使得哈希函数可以带有语义;利用哈希串的重叠和数量一致性来解决同源哈希串拼接成源串的问题,为源串的还原创造了条件.本文针对Pareto分布的哈希函数,为主成分的还原提出了一个简洁的源串还原算法.对于直接选择部分比特的哈希映射而言,如果主成分分析中的RSECBF不能还原出源串,则还原出来的最长串就是源串的聚类特征.仿真及实际检验表明,Bloom Filter可以扩展其哈希函数来实现语义增强,RSECBF还原的结果是可信的.本算法可以在异常行为发生的时候挖掘网络行为特征.  相似文献   

5.
随着互联网的广泛应用,图像数据越来越多,如何从海量图像中快速检索出感兴趣的图像成为难题。文中提出一种基于Hadoop的图像检索方法,首先提取图像SURF特征点,经K-Means聚类、PCA降维后得到图像的特征矩阵,再使用局部敏感哈希算法(LSH)得到固定长度的哈希码,并使用HBases存储图像和哈希值,检索时使用欧式距离进行相似度计算。在MirFlickr数据集进行了图像检索实验,结果表明,文中的方法可以大幅提高图像检索效率,可以满足海量图像检索的需要。  相似文献   

6.
使用PCA降维,提取人脸表情特征,并结合基于距离的哈希K近邻分类算法进行人脸表情识别。首先使用类Haar特征和AdaBoost算法进行人脸检测,并对人脸图像进行预处理;接着使用PCA提取人脸表情特征,并将特征加入到哈希表;最后使用K近邻分类算法进行人脸表情的识别。将特征库重构为哈希表后,很大地提高了识别效率。  相似文献   

7.
在信息安全相关研究中,图像哈希算法是一项热门的内容,通过一串短效的字符、数字序列,对一副图像进行映射,在数字水印、图像检索、图像索引、图像认证等方面,均有着广泛的应用.哈希算法的两个基本性质就是感知鲁棒性、惟一性.传统的密码学哈希算法,一般仅适用于文本数据,需要设计开发新的哈希算法,用于图像等多媒体数据的处理.基于此,本文基于数字图像,提出了基于压缩感知的图像哈希算法,分别以颜色向量角、环形分割为切入点,对图像哈希算法进行了研究.  相似文献   

8.
一种基于主题相关度的网页排序算法   总被引:1,自引:0,他引:1  
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率.  相似文献   

9.
目前诈骗网站检测识别多基于网站域名、URL等文本特征以及网站源码特征,缺乏对诈骗网站生存、传播行为和网页结构特征的分析利用.基于诈骗网站存活周期短、域名劫持、社交分享这三类特征,探索研究了三种高业务价值域名数据集提取算法,旨在提高集中发现诈骗网站域名的效率.同时利用诈骗网站网页结构(快照)上的相似性特征,结合目前较为火热的卷积神经网络,对相关特征进行提取和检测.设计并实现了一套基于高价值域名数据的诈骗网站识别深度学习系统.实验结果表明,本套系统能够有效提取高价值域名数据,具备较强的诈骗网站识别能力.  相似文献   

10.
描述了一个网络舆情监控系统的设计与实现方法。系统由舆情信息采集及预处理、舆情分析和舆情服务组成,通过网络爬虫对网页内容进行提取,运用DOM树获得文本信息,并进行网页的去重,运用ICTCLAS进行分词,提取特征词并构建VSM向量空间模型,通过k-means聚类算法获得热点话题,并利用HowNet进行文本情感倾向性分析。提高了网络舆情监控与分析的准确性、即时性,为正确地引导舆论提供了分析依据。  相似文献   

11.
基于改进HTML-Tree的中文网页特征向量提取方法   总被引:1,自引:0,他引:1  
中文网页特征向量的提取是提高中文网页分类准确度和召回度的关键.经过研究HTML网页的结构特点,提出一种基于改进的HTML-Tree及网页元素权重的中文网页文本预处理方法,并在此基础上进行网页文本特征向量的提取.该方法充分利用不同类别网页的特点,考虑了网页内各种元素权重的贡献.经过实验验证,该方法提高了网页特征向量提取的效率,有效提高了中文网页分类的准确度和召回度.  相似文献   

12.
根据 Alpha 图像的特征和串匹配算法的编码参数统计特性,提出了一种基于字节型多变长码的串匹配的 Alpha 图像编码算法。该算法首先对多个串匹配编码参数采用字节型多变长码方案进行联合优化编码,然后采用邻近偏移量优先的分段映射方案对偏移量参数进行编码,最后对匹配串长度参数采用分段编码方案进行编码。实验结果表明,本文提出的算法与LZ4HC、zlib、PNG、HEVC(x265)相比,都具有超低复杂度兼高编码效率的优势。  相似文献   

13.
随着图像数据的迅猛增长,当前主流的图像检索方法采用的视觉特征编码步骤固定,缺少学习能力,导致其图像表达能力不强,而且视觉特征维数较高,严重制约了其图像检索性能。针对这些问题,该文提出一种基于深度卷积神径网络学习二进制哈希编码的方法,用于大规模的图像检索。该文的基本思想是在深度学习框架中增加一个哈希层,同时学习图像特征和哈希函数,且哈希函数满足独立性和量化误差最小的约束。首先,利用卷积神经网络强大的学习能力挖掘训练图像的内在隐含关系,提取图像深层特征,增强图像特征的区分性和表达能力。然后,将图像特征输入到哈希层,学习哈希函数使得哈希层输出的二进制哈希码分类误差和量化误差最小,且满足独立性约束。最后,给定输入图像通过该框架的哈希层得到相应的哈希码,从而可以在低维汉明空间中完成对大规模图像数据的有效检索。在3个常用数据集上的实验结果表明,利用所提方法得到哈希码,其图像检索性能优于当前主流方法。  相似文献   

14.
基于人类视觉系统的图像感知哈希算法   总被引:2,自引:0,他引:2       下载免费PDF全文
张慧  张海滨  李琼  牛夏牧 《电子学报》2008,36(Z1):30-34
图像感知哈希(Perceptual Hashing)是一门新兴技术,它通过对图像感知信息的简短摘要和基于摘要的匹配,来支持图像的认证和识别,具有广泛的应用前景.目前关于图像感知哈希的研究主要集中在图像特征的提取上,但是特征的选择缺乏对人眼视觉特性的考虑.本文从不同的侧面提出几种基于人类视觉系统的图像感知哈希算法.通过这几种算法之间和已有传统算法之间的测试比较,结果表明考虑了人眼视觉特性的图像感知哈希算法在鲁棒性和区分性上能够得到提高,算法给出的感知距离度量更符合人的主观感受.  相似文献   

15.
基于卷积神经网络和监督核哈希的图像检索方法   总被引:1,自引:0,他引:1       下载免费PDF全文
当前主流的图像检索方法采用的视觉特征,缺乏自主学习能力,导致其图像表达能力不强,此外,传统的特征索引方法检索效率较低,难以适用于大规模图像数据.针对这些问题,本文提出了一种基于卷积神经网络和监督核哈希的图像检索方法.首先,利用卷积神经网络的学习能力挖掘训练图像内容的内在隐含关系,提取图像深层特征,增强特征的视觉表达能力和区分性;然后,利用监督核哈希方法对高维图像深层特征进行监督学习,并将高维特征映射到低维汉明空间中,生成紧致的哈希码;最后,在低维汉明空间中完成对大规模图像数据的有效检索.在ImageNet-1000和Caltech-256数据集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力,提高图像检索效率,优于当前主流方法.  相似文献   

16.
主题网页识别是面向主题爬虫的重要组成部分,因此网页主题识别的准确率对后续的研究工作至关重要。首先,提取出能体现网页主题的文本,然后利用改进朴素贝叶斯算法对提取的文本的主题进行识别,结果表明该方法能取得较好的识别效果。  相似文献   

17.
本文提出一种基于尺度不变特征变换(SIFT)和聚类分析(K-means)相结合的感知哈希算法。其中,基于不变特征变换用于提取图像的局部稳定特征点,聚类分析用来对特征数据经行压缩并得到图像感知哈希。图像的相似性通过感知哈希值之间的汉明距离来测评。实验数据分析表明,该算法在图像尺度变换、各种几何攻击、仿射变换以及JPEG等攻击中具有较好的稳健率。  相似文献   

18.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.  相似文献   

19.
感知哈希(Perceptual Hashing)是多媒体数据集到摘要集的单向映射,为多媒体数字内容的标识、检索、认证等应用提供了安全可靠的技术支撑.本文提出一种融合视觉感知及时空域特征的视频感知哈希算法.算法首先对视频序列每一帧进行随机可重叠分块,并计算每个分块以像素为单位的亮度均值,在某一步长下,以同一帧的分块亮度差作为视频帧空域特征,以不同视频帧相同位置的分块亮度差作为时域特征,通过哈希量化得到时空域感知哈希,通过时空域感知哈希融合,最后得到简洁的视频唯一标识——摘要哈希.实验结果表明,该算法表现出较好的鲁棒性与区分性,通过相似度拟合图算法分析,可以实现视频篡改的准确检测及定位.  相似文献   

20.
提出了基于Zernike矩和熵特征的数字图像感知哈希算法。算法利用Zernike矩计算参考方向,以计算等面积环块和等角度扇形块内的熵作为感知特征,并通过量化处理构造哈希序列。算法利用哈希码之间的欧氏距离作为图像内容相似性的判定依据。实验结果表明,该算法对加性噪声、JEPG压缩、几何变换等操作具有较好的鲁棒性,且对于内容不同的图像有较好的区分度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号