排序方式: 共有16条查询结果,搜索用时 0 毫秒
1.
针对密文检索中存在的计算量大、检索效率不高的问题,提出一种基于Simhash的安全密文排序检索方案。该方案基于Simhash的降维思想构建安全多关键词密文排序检索索引(SMRI),将文档处理成指纹和向量,利用分段指纹和加密向量构建B+树,并采用"过滤-精化"策略进行检索和排序,首先通过分段指纹的匹配进行快速检索,得到候选结果集;然后通过计算候选结果集与查询陷门的汉明距离和向量内积进行排序,带密钥的Simhash算法和安全k近邻(SkNN)算法保证了检索过程的安全性。实验结果表明,与基于向量空间模型(VSM)的方案相比,基于SMRI的排序检索方案计算量小,能节约时间和空间成本,检索效率高,适用于海量加密数据的快速安全检索。 相似文献
2.
在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0Simhash算法则具有高准确度以及可行性。 相似文献
3.
4.
5.
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析。仿真实验表明:优化权重计算能有效地提升Simhash算法的性能,E-Simhash算法在去重率、召回率、F值等方面均优于传统Simhash算法,并且在文本去重方面取得了良好的效果。 相似文献
6.
针对LDA主题模型文本特征提取时主题识别不明确的问题,提出一种基于Labeled-LDA模型的文本特征提取方法。使用LDA主题模型对文本隐含主题中的主题词进行提取,根据TF-IDF算法实现对文本类别的关键词进行提取。通过文本simhash算法对提取出的主题词与关键词进行相似度计算,找到文本隐含主题的类别并提取特征词。实验表明结合后的特征提取方法比TF-IDF、传统LDA主题模型的文本特征提取方法,获得更高的分类精度,其中准确度提高了3.40%,召回率提高了4.40%,F值提高了3.92%。 相似文献
7.
8.
安卓恶意应用程序的检测目前存在着检测速度慢、检测率低等问题,本文针对这些问题提出了一种基于多特征融合的安卓恶意应用程序检测方法。从Android恶意应用的恶意行为特点出发,运用静态分析和动态分析互相结合的方法,提取出权限和组件、函数API调用序列、系统命令、网络请求等多维度特征,对维度较大的特征种类使用信息增益方法进行特征的筛选,取出最有用特征。本文还利用半敏感哈希算法的降维和保持相似度的特性,提出基于Simhash算法的特征融合方法,将原有的大维度的特征降维到相对较小的维度,并解决了特征的不平衡问题。融合后的特征使用GBDT算法和随机森林算法分类,检测恶意样本。实验对比分析得出本文使用的多种特征融合的方法在可以大大降低分类的训练时间,提高检测效率。 相似文献
9.
10.
谢瑶兵 《微电子学与计算机》2015,(2):69-72
针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率. 相似文献