期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李珍姚寒冰穆逸诚《计算机应用》2019,39(9):2623-2628

针对密文检索中存在的计算量大、检索效率不高的问题，提出一种基于Simhash的安全密文排序检索方案。该方案基于Simhash的降维思想构建安全多关键词密文排序检索索引（SMRI），将文档处理成指纹和向量，利用分段指纹和加密向量构建B+树，并采用"过滤-精化"策略进行检索和排序，首先通过分段指纹的匹配进行快速检索，得到候选结果集；然后通过计算候选结果集与查询陷门的汉明距离和向量内积进行排序，带密钥的Simhash算法和安全k近邻（SkNN）算法保证了检索过程的安全性。实验结果表明，与基于向量空间模型（VSM）的方案相比，基于SMRI的排序检索方案计算量小，能节约时间和空间成本，检索效率高，适用于海量加密数据的快速安全检索。相似文献

2.

一种基于浏览器的CSRF攻击检测方法

下载免费PDF全文

张靖羽扈红超霍树民《信息工程大学学报》2021,22(2):169-174

互联网的安全形势日益严重,CSRF漏洞是最严重的Web漏洞之一,如何检测CSRF攻击成为业内热点。目前的CSRF检测技术主要通过验证字段例如Fom表单字段、验证SameOrigin等传统方式,但字段容易被攻击者更改,从而成功绕过CSRF检测。在验证字段的基础上,通过进一步分析网页内容,提出一种基于浏览器的CSRF检测方法,首先通过HTTP请求分析初步判断,再进一步分析网页内容检测CSRF攻击,告警提示用户。通过基于 Chrome浏览器的扩展插件技术实现所提出的检测方法,并通过实验进行验证与分析。相似文献

3.

Simhash算法在文本去重中的应用

下载免费PDF全文

张航盛志伟张仕斌杨敏《计算机工程与应用》2020,56(11):246-251

为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析。仿真实验表明:优化权重计算能有效地提升Simhash算法的性能,E-Simhash算法在去重率、召回率、F值等方面均优于传统Simhash算法,并且在文本去重方面取得了良好的效果。相似文献

4.

基于多特征融合的安卓恶意应用程序检测方法

下载免费PDF全文

王勇蔡建宇孟春刘振岩薛静锋《信息安全学报》2018,3(4):54-62

安卓恶意应用程序的检测目前存在着检测速度慢、检测率低等问题,本文针对这些问题提出了一种基于多特征融合的安卓恶意应用程序检测方法。从Android恶意应用的恶意行为特点出发,运用静态分析和动态分析互相结合的方法,提取出权限和组件、函数API调用序列、系统命令、网络请求等多维度特征,对维度较大的特征种类使用信息增益方法进行特征的筛选,取出最有用特征。本文还利用半敏感哈希算法的降维和保持相似度的特性,提出基于Simhash算法的特征融合方法,将原有的大维度的特征降维到相对较小的维度,并解决了特征的不平衡问题。融合后的特征使用GBDT算法和随机森林算法分类,检测恶意样本。实验对比分析得出本文使用的多种特征融合的方法在可以大大降低分类的训练时间,提高检测效率。相似文献

5.

基于Labeled-LDA模型的文本特征提取方法

王瑞龙华邵玉斌杜庆治《电子测量技术》2020,(1):141-146

针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取出的主题词与关键词进行相似度计算,找到文本隐含主题的类别并提取特征词。实验表明结合后的特征提取方法比TF-IDF、传统LDA主题模型的文本特征提取方法,获得更高的分类精度,其中准确度提高了3.40%,召回率提高了4.40%,F值提高了3.92%。相似文献

6.

基于Simhash算法的海量文档反作弊技术研究

徐济惠《微机发展》2014,(9):103-107

以互联网重复文档反作弊需求为背景,研究了基于Simhash的海量文档反作弊技术。以Simhash算法为文档判重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素。针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较。通过测试数据和分析,该技术能保证运行稳定,每个实例可存储1亿文档,平均请求耗时稳定在20 ms左右,高峰期请求耗时会增长,但一般不会超过100 ms。相似文献

7.

基于Simhash的SQL注入漏洞检测技术研究

池水明阚歆炜张旻《计算机时代》2014,(3):3-5

针对传统SQL注入漏洞检测方法准确率和效率无法达到很好平衡的问题,提出了一种基于Simhash文本相似性检测的SQL注入漏洞检测技术。使用特征值来进行网页间的比较,提高了检测的精度与效率,据此设计并实现了一个SQL注入漏洞检测原型系统。实验结果表明,该系统在检测SQL注入漏洞时兼具了准确性与高效性。相似文献

8.

Twitter中重复消息的分析和处理

徐凯沙瀛李阳单既喜王晓岩《计算机工程与应用》2014,50(21):111-115

Twitter已经成为微博中的代表性应用,但是通过分析发现twitter上的消息（推文）有很多完全一致或相似,这对后续对推文的分析和存储都带来很大的问题。为了处理这些内容完全一致或相似的消息（推文）,针对推文特有的短文本的特点,基于规则处理完全一致的推文,采用simhash的方法来处理相似性的推文。实验采用实际抓取的240万条推文数据进行分析和处理,分别对中文和英文的推文重复情况进行了分析,实验结果发现重复的推文占总推文的10%左右。相似文献

9.

基于主成分分析与 Simhash 的入侵检测方法 总被引：1，自引：0，他引：1

周龙泉卫文学《计算机与数字工程》2015,(7)

论文提出一种基于主成分分析（PCA）与 Simhash 的入侵检测技术。利用 PCA 得到属性的特征值作为权重,再利用 Simhash 的思想得到每一条数据的指纹。通过对比网络数据指纹之间的 Hamming 距离可以发现,“正常”数据与“非正常”数据之间存在较为明显的差异。利用 KDD99数据集进行模拟实验,使用该方法与目前常见的基于 SVM 的技术进行比较,可以得出结论：在保证准确率的基础上,该方法在时效性上有显著提高。相似文献

10.

基于Simhash的协议数据高频相似序列提取算法

下载免费PDF全文

黄学波徐正国燕继坤《计算机工程与应用》2020,56(16):199-203

在网络协议特征提取问题中,已有的基于频率统计和序列比对等算法在时间效率和准确率上有一定缺陷,因此提出了一种基于Simhash的高频相似序列提取方法。针对传统的Simhash算法一般用于文本处理领域的问题,根据二进制序列的特点将协议数据进行“分词”处理,并采用了减少哈希结果长度、降低比较次数等方法进一步提高算法效率,最终使Simhash适合于高频相似序列提取问题。实验结果表明,该算法的平均覆盖率达到74.28%,并且在此准确率的条件下时间效率较高。相似文献