首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
语言调查采集到的数据存在相当程度的差异,需要进行二次加工。本文基于编辑距离算法实现从语言和方言词汇大数据中的词汇相似匹配及数据的对齐和定位。通过对达让语数据进行的3次实验发现,在做距离计算时,以词算而不是以词加括号内注释的整体去算的方式在保证抽取词汇召回率的基础上准确率会显著提升。实验结果表明,基于编辑距离的数据抽取方法是可行的,具有较好的检索效果。  相似文献   

2.
决策树算法是数据挖掘中的一种重要算法,介绍了决策树的构建过程中数据预处理方法及决策树构造方法与步骤.数据预处理是为了提高数据挖掘对象的质量,主要包括数据清洗、数据集成与数据消减.数据预处理之后,在训练样本集的基础上,通过选择适当的属性做为树根、子树根,不断重复,基于剪枝方法,最终建立了经过优化的决策树.  相似文献   

3.
字符串相似连接操作具有广泛应用,因而将着重研究基于编辑距离的字符串相似连接。而现有的字符串相似连接算法大多为内存算法。实际应用中的数据集越来越大,有必要针对超大规模数据集研制字符串相似性连接外存算法。利用组合频率向量划分数据集,并提出了基于编辑距离的字符串相似性连接外存算法框架,证明了磁盘调度问题的难度并提出了不同的启发式磁盘调度方法。此外,还提出了基于该外存算法框架实现字符串相似性连接增量式计算的方法。实验结果表明,数据划分方法可以有效地过滤不相关的数据子集;磁盘调度算法能够有效减少磁盘IO次数;外存算法是高效的;增量式计算方法能够高效地处理数据更新。  相似文献   

4.
随着计算机网络技术的发展,检索成为互联网中一项重要的技术。字符串搜索系统允许用户提供一段字符串作为查询条件,系统将查询条件中提取的字符串与数据库中所有的数据逐一进行比较,计算它们之间的相似度,并根据相似度值的高低排序,返回相似度值最高的字符串。根据字符串相似度度量算法的最长公共子串LCS算法和编辑距离算法的基本原理,将两种算法进行实现,并在特定的简谱字符比较应用中进行实例分析,评价两种算法的应用特点。  相似文献   

5.
为解决中文字符串匹配精度较低的问题,提出了一种基于编辑距离和相似度改进的汉字字符串近似匹配算法,针对汉字字符串特点,使用汉字拼音和五笔编码计算;通过改进动态规划算法,能够有效提高编辑距离的计算准确度以及执行效率;再引入考虑交换问题的归一化算法,以语义编辑距离与长句长度的比值作为归一化结果,以此来提高近似匹配算法的准确度。实验结果表明,改进后算法计算的相似度质量要优于改进前的算法结果,且对提高算法效率和查全率、查准率和时间性能等指标均有明显改善,证明该算法的可行性和有效性。  相似文献   

6.
文章主要介绍了一种基于多维聚类预处理的云计算任务调度算法,根据预先分类好的资源特征向量进行分类依据,将云计算资源与特征向量间的相似度距离作为测度函数,将资源划分到预先定义好的类别中。本调度算法对资源进行分类预处理,能有效缩小任务对于资源搜索的范围,从而提高任务调度的速度。  相似文献   

7.
基因本体是一个被广泛使用的生物数据资源,主要用于描述基因和基因产物的属性,包括分子功能、生物过程和细胞组件三个方面.基于基因本体的术语相似度及基因功能相似度计算对基因功能分析、比较和预测等生物学研究热门领域具有非常重要的意义.本文综述了基于基因本体的语义相似度算法,主要包括基因本体同一分支中的术语相似度计算法和基因本体跨分支术语相似度算法两大部分内容,并对这些方法的优缺点做了一定的分析总结.  相似文献   

8.
扁晓倩 《信息技术》2023,(2):12-16+23
针对大数据量下的英语资源库信息推荐模型中数据稀疏性较大的问题,提出一种基于协同过滤算法的英语资源库信息推荐模型。对历史监测的数据进行深度挖掘,将原始数据通过整合完善转化为资源数据集。通过协同过滤算法和资源反馈矩阵的表述实现资源选取,根据任意用户对项目集中同一数据资源的反馈评分计算得出每个项目间的相似阈值,以此为基础拟合项目整体相似阈值,根据阈值数挑选与用户最为匹配的项目资源,完成推荐。仿真实验证明,该模型算法的推荐精准度和效率较高,有效解决了数据稀疏性较大的问题。  相似文献   

9.
郭雷勇  李宇 《通信技术》2020,(2):301-311
在定长滑动窗口算法的基础上,应用有限状态机,按照标签的状态,对RFID标签数据进行清洗。算法解决了在清洗算法中重复窗口的问题,通过创建多阶哈希表存储标签读写记录,针对在海量标签数据中存在的多读、冗余读的现象,通过改进滑动窗口的数据清洗方法,解决其在处理效率方面的不足。对阈值等影响清洗算法准确率的相关因素进行仿真,结果表明基于FSM的海量RFID标签数据清洗算法可以有效清洗标签数据,且性能优于SMURF等算法。  相似文献   

10.
研究英语单词形态相似度的计算方法。采用可设置编辑距离上限参数的算法实现从指定词汇范围自动抽取近形词。筛选出的易混近形词经消重和分类后可以丰富英语词汇知识库的内容。易混词知识库在教材编写、词汇能力训练设计、词典编纂和真词错误拼写校正等领域具有应用价值。  相似文献   

11.
针对基于电磁感知数据进行目标识别的问题,设计了由基本属性和行为属性组成的电磁目标知识模型,在知识模型的基础上提出了基于知识推理的电磁目标识别通用架构及流程。最后,面向典型应用场景,提出了一种基于知识推理的移动目标属性识别方法,介绍了数据预处理方法,给出了轨迹相似度定义并设计了一种基于豪斯多夫距离的轨迹相似度计算方法,开展了仿真实验。仿真结果表明所提算法的有效性,可应用于电磁目标的识别问题。  相似文献   

12.
微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户.  相似文献   

13.
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的.  相似文献   

14.
近年来学术界抄袭事件时有发生,给整个学术界的声誉造成了极坏的影响。针对海量文本查重问题,运用基于编辑距离的动态规划算法,实现文本集合间的相似度计算。该算法通过计算句子相似度数值来判断文本相似度,检测并标明出相似句对应的原句。实验结果可知,该系统对较长的文本可以完成雷同判定。  相似文献   

15.
研究基于编辑距离的top-k相似字符串查询处理方法,即对于给定的字符串集合S和查询串σ,返回S中前k个与σ编辑距离最小的字符串。首先提出了基于长度跳跃索引的2种自适应过滤策略来减少字符串之间编辑距离的计算次数;其次提出了查询字符串与不匹配字符串集合的编辑距离下界,以便在处理和σ无公共特征的字符串时,进一步减少编辑距离的计算次数;最后给出了基于上述过滤策略的高效top-k相似字符串查询算法,并在3个真实的数据集上进行了实验,实验结果验证了所提算法的高效性。  相似文献   

16.
重复数据删除技术的发展及应用   总被引:2,自引:0,他引:2  
重复数据删除技术包括相同数据重复数据删除技术和相似数据重复数据删除技术。相同数据重复数据删除技术主要有:相同文件重复数据删除技术、固定长度分块的重复数据删除技术、基于内容分块的重复数据删除技术、基于滑动块的重复数据删除技术和基于数据特征的重复数据消除算法等。重复数据删除技术适合应用于数据备份系统、归档存储系统、远程灾备系统等场合。  相似文献   

17.
在网络技术高速发展的今天,Web技术得到普及,通过对Web的数据挖掘,用户能够获取到所需要的数据信息、知识,同时能够对用户的访问行为、内容进行深入分析.Web日志挖掘是数据挖掘中的重点内容,借助日志挖掘的数据预处理技术,获取到用户特征,将自身的Web的服务设计进行优化,开展针对性的网络活动.基于此,在本文中对Web日志挖掘中的数据预处理技术进行研究,提出预处理算法.  相似文献   

18.
随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词词义和词长作为衡量单词权重的考量因素。通过理论分析以及相应的实验数据表明,文章提出的改进方法实现了在大规模文档数据基础上对相似文档的快速检测。  相似文献   

19.
基于主成分分析的去噪算法在进行局部像素分组时,由于噪声具有不确定性和随机性,以欧氏距离 直接作为图像块相似性这一判断标准容易使得结果产生偏差。针对此问题,文中提出了一种基于向量相似度的 LPG-PCA 图像去噪算法,将向量相似度和欧氏距离相结合作为相似图像块的判断标准,优化了相似图像块的选取。 此外,在相似图像块样本数的选取方面采用自适应的数量选取方法,使得样本数的选取更加合理,进一步提高了图 像的去噪质量。实验结果表明所提算法在峰值信噪比和结构相似性方面均优于传统的LPG-PCA 图像去噪算法,且 对亚毫米波成像也具有一定的去噪效果。  相似文献   

20.
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号