首页 | 官方网站   微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   13篇
  免费   3篇
  国内免费   2篇
工业技术   18篇
  2024年   1篇
  2023年   2篇
  2021年   1篇
  2020年   4篇
  2019年   1篇
  2018年   1篇
  2017年   1篇
  2016年   1篇
  2015年   3篇
  2014年   3篇
排序方式: 共有18条查询结果,搜索用时 31 毫秒
11.
徐济惠 《微机发展》2014,(9):103-107
以互联网重复文档反作弊需求为背景,研究了基于Simhash的海量文档反作弊技术。以Simhash算法为文档判重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素。针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较。通过测试数据和分析,该技术能保证运行稳定,每个实例可存储1亿文档,平均请求耗时稳定在20 ms左右,高峰期请求耗时会增长,但一般不会超过100 ms。  相似文献   
12.
针对传统SQL注入漏洞检测方法准确率和效率无法达到很好平衡的问题,提出了一种基于Simhash文本相似性检测的SQL注入漏洞检测技术。使用特征值来进行网页间的比较,提高了检测的精度与效率,据此设计并实现了一个SQL注入漏洞检测原型系统。实验结果表明,该系统在检测SQL注入漏洞时兼具了准确性与高效性。  相似文献   
13.
Twitter已经成为微博中的代表性应用,但是通过分析发现twitter上的消息(推文)有很多完全一致或相似,这对后续对推文的分析和存储都带来很大的问题。为了处理这些内容完全一致或相似的消息(推文),针对推文特有的短文本的特点,基于规则处理完全一致的推文,采用simhash的方法来处理相似性的推文。实验采用实际抓取的240万条推文数据进行分析和处理,分别对中文和英文的推文重复情况进行了分析,实验结果发现重复的推文占总推文的10%左右。  相似文献   
14.
针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为文本相似度检测提供依据。在Merkle树和布隆过滤器结构的基础上,设计了新的索引结构BHMerkle,减少了区块构建和查询时的计算开销,实现了对交易的快速定位。同时提出多特征权重Simhash算法,提高了词权计算的准确性并提高签名值匹配阶段的效率,从而对具有抄袭行为的恶意用户进行识别,并通过奖惩机制遏制恶意行为的发生。抄袭识别方案在不同主题的新闻数据集上的平均准确率为94.8%,平均召回率为88.3%,相较于多维度Simhash算法和基于信息熵加权的Simhash(E-Simhash)算法,平均准确率分别提升了6.19、4.01个百分点,平均召回率分别提升了3.12、2.92个百分点。实验结果表明,所提方案在抄袭文本的查询及检测效率方面均有所提升,且在抄袭识别方面具有较高的准确性。  相似文献   
15.
基于主成分分析与 Simhash 的入侵检测方法   总被引:1,自引:0,他引:1  
论文提出一种基于主成分分析(PCA)与 Simhash 的入侵检测技术。利用 PCA 得到属性的特征值作为权重,再利用 Simhash 的思想得到每一条数据的指纹。通过对比网络数据指纹之间的 Hamming 距离可以发现,“正常”数据与“非正常”数据之间存在较为明显的差异。利用 KDD99数据集进行模拟实验,使用该方法与目前常见的基于 SVM 的技术进行比较,可以得出结论:在保证准确率的基础上,该方法在时效性上有显著提高。  相似文献   
16.
在网络协议特征提取问题中,已有的基于频率统计和序列比对等算法在时间效率和准确率上有一定缺陷,因此提出了一种基于Simhash的高频相似序列提取方法。针对传统的Simhash算法一般用于文本处理领域的问题,根据二进制序列的特点将协议数据进行“分词”处理,并采用了减少哈希结果长度、降低比较次数等方法进一步提高算法效率,最终使Simhash适合于高频相似序列提取问题。实验结果表明,该算法的平均覆盖率达到74.28%,并且在此准确率的条件下时间效率较高。  相似文献   
17.
数据去重是大数据预处理过程中最主要的一个步骤。为了提升大数据去重的效率,以及优化其在较差情况下的表现,本文以中文微博的原始数据为基础,在传统的Simhash方法的基础上,改进计算相似度的公式,将文本重复率纳入考虑,并在检索步骤中采用桶排序的思想,进行多次多级的线程分配以提高效率。实验结果表明,改进后的算法可以显著提升传统算法的效率和准确率。   相似文献   
18.
为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号