首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
田星  郑瑾  张祖平 《计算机科学》2018,45(7):186-189
通过对传统Jaccard算法的研究和改进,提出了一种基于词向量的Jaccard句子相似度算法。传统的Jaccard算法以句子的字面量为特征,因而在语义层面的相似度计算方面受到了一定的限制。而随着深度学习的兴起,尤其是词向量的提出,词语在计算机中的表示有了突破性的进展。该算法首先通过训练将每个词语映射为语义层面的高维向量,然后计算各个词向量之间的相似度,高于阈值α的作为共现部分,最终计算句子的相似度。实验表明,相较于传统的Jaccard算法,该算法在短文本相似度计算的准确率上有较明显的提升。  相似文献   

2.
该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法。实验结果表明,该文提出的文本模型简单有效,分类算法计算量不高,而且还能达到或超过经典分类器的分类综合性能。  相似文献   

3.
李杰  侯锐 《计算机仿真》2020,37(3):148-151,177
针对传统的大数据访问中信息传输冗余量消除方法存在查全率、信息传输冗余量消除效率以及速率较低等问题,提出了基于Hamming距离值的大数据访问中信息传输冗余量消除方法。利用滑动以及滚动相结合的窗口移动模式减少窗口计算量,将Rsync滚动校验算法以及MD5算法相结合,在文件任意位置开始计算滚动校验值,通过递进关系,获取连续数据块的校验值,根据不同数据块的校验值进行数据匹配。将经过匹配后的数据块利用CDC分块检测算法进行检测,根据余弦相似度计算公式以及Hamm距离值计算相似度,实现大数据访问中信息传输冗余量消除。实验结果表明,所提方法有效提高了冗余信息查全率、信息传输冗余量消除效率以及速率,能够快速、准确地消除多余的信息。  相似文献   

4.
基于节点相似度的网络社团检测算法研究   总被引:1,自引:0,他引:1  
社团结构是众多复杂网络的统计特性之一,挖掘网络中存在的社团结构日益受到人们的普遍关注。网络中的社团结构检测本质上类似于传统机器学习领域的聚类分析,其关键问题在于如何定义网络中节点间的相似度。首先提出了基于节点相似度的节点分裂算法SUN,相比传统的基于边界数(betweenness)的节点分裂算法GN, SGN在速度和精度上都有明显改善;接着,在利用各种节点相似度计算方法得到节点间的相似度之后,采用几种经典的聚类分析算法对网络进行社团划分,在模拟数据和真实数据上的实验表明:基于网络拓扑结构信息的signal和regular方法优于基于网络节点局部信息的Jaccard方法,而且对于复杂网络社团划分问题,如果选择好的网络节点相似度构造方法,已有的基于相似度矩阵的聚类分析算法都能快速有效地对网络社团进行划分。  相似文献   

5.
随着用户和项目数量的增长,用户-项目评分矩阵变得极其稀疏,导致基于相似度计算的推荐算法精度降低。为此,提出一种基于加权Jaccard系数的综合项目相似度度量方法,使用项目综合相似度对评分矩阵进行预填充。实验结果表明,在用户-项目评分矩阵极其稀疏的情况下,该算法能产生比传统算法更精确的推荐结果。  相似文献   

6.
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性. 为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度. 实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.  相似文献   

7.
为了提高个人微博相似度的精确性,实现事件的高效归类,提出一种基于改进的Jaccard相似度和余弦相似度的JS综合相似度算法。该算法采用改进的TF-IDF算法提取特征词及LDA(Latent Dirichlet Allocation)主题模型构造同类词模板,在此基础上计算个人微博相似度,最后利用K-means时序事件归类算法对个人微博进行归类。实验结果表明所提出的JS综合相似度算法比传统的相似度算法具有更高的精确度,在一定程度上提高了个人微博时序事件归类的准确性。  相似文献   

8.
MinHash作为位置敏感哈希(LSH)算法中的一种,可以用来快速估算两个集合的相似度,查找网络上的重复网页或者相似新闻网页,MinHash算法使用Jaccard相似度来度量对象的相似程度。本文针对MinHash算法在分布式平台上的实现和性能表现进行分析和研究,给出了MinHash的分布式算法。最后通过具体的实验,验证了提出的MinHash算法在处理实际问题上的正确性和准确性。  相似文献   

9.
句子相似度的计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验结果表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。  相似文献   

10.
汉越文本相似度计算是实现汉越文本理解和文本分类的基础.目前使用神经网络来计算文本相似度是一个有效方法,但由于文本较长、冗余信息较多,神经网络难以有效捕获文本间的相似信息,同时汉-越平行语料稀缺导致模型泛化性能一般,此方法受到一定限制.故提出一种融合关键词和语义特征的汉越文本相似度计算方法.针对文本较长冗余信息较多,提出使用文本关键词来获得文本关键信息以压缩文本减少冗余,同时计算出文本间关键词相似信息;针对汉-越平行语料稀缺,提出使用知识蒸馏的方法来训练神经网络来对文本进行编码,得到上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断.实验表明,本文提出的方法能有效提升汉-越文本相似度计算的准确率.  相似文献   

11.
杨家慧  刘方爱 《计算机应用》2016,36(7):2006-2010
针对传统基于邻域的协同过滤推荐算法存在数据稀疏性及相似性度量只能利用用户共同评分的问题,提出一种基于巴氏系数和Jaccard系数的协同过滤算法(CFBJ)。在项目相似性度量中,该算法引入巴氏系数和Jaccard系数,巴氏系数利用用户所有评分信息克服共同评分的限制,Jaccard系数可以增加相似性度量中共同评分项所占的比重。该算法通过提高项目相似度准确率来选取最近邻,优化了对目标用户的偏好预测和个性化推荐。实验结果表明,该算法比平均值-杰卡德差分(MJD)算法、皮尔森系数(PC)算法、杰卡德均方差(JMSD)算法、PIP算法误差更小,分类准确率更高,有效缓解了用户评分数据稀疏所带来的问题,提高了推荐系统的预测准确率。  相似文献   

12.
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法搭配,并对传统Jaccard和SimHash进行了改进分别产生新算法:基于短文章的Jaccard和基于Cosine Distance的SimHash.针对比较对象众多实验效率低下的问题,提出了先纵向比较筛选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000舆情样本实验证明:改进的SimHash比传统的SimHash具有更高的精度和召回率;改进的Jaccard较传统Jaccard,召回率提高了17%,效率提高了50%;MinHash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96%的条件下,都具有75%以上的高召回率,且稳定性很好.其中MinHash去重效果略低于Jaccard,但特征比较时间较短,综合表现最好.  相似文献   

13.
针对传统协同过滤推荐算法通常存在的数据稀疏和冷启动问题,根据用户间的信任关系,提出基于模糊C均值聚类的综合信任推荐算法。采用评分数据和信任数据计算用户间的隐式信任值和显式信任值,利用显隐式信任得到综合直接信任值,基于信任的传递特性获得Jaccard全局信任值,最终通过动态结合综合直接信任与Jaccard全局信任获取综合信任值,同时将信任机制融入模糊C均值聚类算法实现对目标用户的精准推荐。在FilmTrust真实数据集上的实验结果表明,该算法有效缓解了数据稀疏和冷启动问题,并且相比传统协同过滤推荐算法具有更高的推荐质量。  相似文献   

14.
李润梅  梁秋鸿 《自动化学报》2019,45(10):1915-1922
提出了一种基于区间二型模糊集合理论的人工交通系统可信度评估方法.该方法以二型模糊集合算法为核心数据处理方法,构建了人工交通系统的评估体系.利用置信区间方法提取实际交通数据和人工交通数据的统计特征,同时为二型模糊集合提供了输入数据.利用二型模糊集合处理不确定性、随机性和噪声数据的能力,得到刻画实际交通系统和人工交通系统特性的输出数据集.并基于Jaccard算法对两个系统二型模糊集合的输出集进行了相似度运算,以Cronbach系数值为依据,实现了人工交通系统的可信度评估.与传统可信度评估方法相比,该评估方法具有较强的数据处理能力,有效地实现了基于数据驱动方法理念下人工系统与实际系统之间的比较.本文基于面向对象编程语言搭建开发的基于Agent的人工交通系统模型,对其进行了可信度评估验证,评估结果说明了所提出方法的合理性和有效性.  相似文献   

15.
为了减小无需测距的DV-hop算法的定位误差,提出基于杰卡德系数跳数修正因子的DV-hop改进算法(JDV-Hop)。改进算法使用节点个数集合的杰卡德系数细化节点间的跳数,减小对节点单跳距离内未知节点跳数的估计误差,然后利用DDV-hop算法中的差分误差系数进一步修正节点间的平均跳距。最后在选择参与定位计算的锚节点时,引入一种节点间可以协作式定位的可信度因子,将定位结果精度高的节点升级为新的锚节点,进行下一轮定位。MATLAB仿真结果显示,在相同条件下,改进算法不仅无需增加额外的硬件开销,且与DDV-hop等现有改进算法相比具有明显更高的定位精度。  相似文献   

16.
智能拼图算法常用的方法是先求出各个碎片之间的相似度度量,再根据度量还原图像。MGC(马氏梯度相似度度量)是其中一种很有效的度量,但在实际运用过程中,如果碎片中有大量相似物体存在时,算法不能很好地还原图像,会出现类似于“乱码”的情况。提出了一种利用Jaccard(杰卡德)度量,结合MGC度量,计算图像碎片之间的相似度,再利用贪心策略还原图像。实验结果表明,对于由自选图像随机生成的碎片,算法能够更准确地还原图像,并且能减小出现“乱码”图像的概率。提出了把Jaccard度量和MGC度量相结合的方法运用在智能拼图的还原中,尤其是当拼图碎片中有很多相似物体的情况下,该方法能明显地减少“乱码”现象,同时实验仿真结果证明了提出的方法比单纯的MGC方法具有抗噪性强和拼图准确率高的特点,在考古学碎片图片和文字复原、计算机取证、图像合成和场景无缝拼接等领域有一定的实用价值。  相似文献   

17.
针对传统推荐算法的相似性度量准确性不高及数据极端稀疏性等问题,提出一种基于云填充和混合相似性的协同过滤推荐算法。首先通过云模型填充用户-项目评分矩阵,然后对相似性度量方法进行改进,将基于时间序列的用户间影响力融合到基于Jaccard系数的相似性度量方法中。在MovieLens数据集上的验证结果表明,改进后的算法提高了推荐精度同时在一定程度上克服了数据稀疏性的影响。  相似文献   

18.
于永彦 《计算机工程》2012,38(10):22-26
Multi-RANSAC、RHT等方法难以有效实现多模型估计。为此,提出一种基于模型聚类的多模型估计方法。将数据点描述为所属模型的倾向集,把倾向集间的Jaccard距离描述为数据点的一种属性,基于该属性使用改进的Cobweb算法进行聚类。该方法无需预知模型数目和参数变换,可有效克服漏检、交叉模型误检等情况。实验结果表明,该方法具有高效、高精度等优点,适用于消隐点检测、相机自标定等领域。  相似文献   

19.
Applying VSM and LCS to develop an integrated text retrieval mechanism   总被引:1,自引:0,他引:1  
Text retrieval has received a lot of attention in computer science. In the text retrieval field, the most widely-adopted similarity technique is using vector space models (VSM) to evaluate the weight of terms and using Cosine, Jaccard or Dice to measure the similarity between the query and the texts. However, these similarity techniques do not consider the effect of the sequence of the information. In this paper, we propose an integrated text retrieval (ITR) mechanism that takes the advantage of both VSM and longest common subsequence (LCS) algorithm. The key idea of the ITR mechanism is to use LCS to re-evaluate the weight of terms, so that the sequence and weight relationships between the query and the texts can be considered simultaneously. The results of mathematical analysis show that the ITR mechanism can increase the similarity on Jaccard and Dice similarity measurements when a sequential relationship exists between the query and the texts.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号