共查询到20条相似文献,搜索用时 15 毫秒
1.
赵志靖 《智能计算机与应用》2016,(4):5-8
语言调查采集到的数据存在相当程度的差异,需要进行二次加工。本文基于编辑距离算法实现从语言和方言词汇大数据中的词汇相似匹配及数据的对齐和定位。通过对达让语数据进行的3次实验发现,在做距离计算时,以词算而不是以词加括号内注释的整体去算的方式在保证抽取词汇召回率的基础上准确率会显著提升。实验结果表明,基于编辑距离的数据抽取方法是可行的,具有较好的检索效果。 相似文献
2.
3.
字符串相似连接操作具有广泛应用,因而将着重研究基于编辑距离的字符串相似连接。而现有的字符串相似连接算法大多为内存算法。实际应用中的数据集越来越大,有必要针对超大规模数据集研制字符串相似性连接外存算法。利用组合频率向量划分数据集,并提出了基于编辑距离的字符串相似性连接外存算法框架,证明了磁盘调度问题的难度并提出了不同的启发式磁盘调度方法。此外,还提出了基于该外存算法框架实现字符串相似性连接增量式计算的方法。实验结果表明,数据划分方法可以有效地过滤不相关的数据子集;磁盘调度算法能够有效减少磁盘IO次数;外存算法是高效的;增量式计算方法能够高效地处理数据更新。 相似文献
4.
5.
为解决中文字符串匹配精度较低的问题,提出了一种基于编辑距离和相似度改进的汉字字符串近似匹配算法,针对汉字字符串特点,使用汉字拼音和五笔编码计算;通过改进动态规划算法,能够有效提高编辑距离的计算准确度以及执行效率;再引入考虑交换问题的归一化算法,以语义编辑距离与长句长度的比值作为归一化结果,以此来提高近似匹配算法的准确度。实验结果表明,改进后算法计算的相似度质量要优于改进前的算法结果,且对提高算法效率和查全率、查准率和时间性能等指标均有明显改善,证明该算法的可行性和有效性。 相似文献
6.
文章主要介绍了一种基于多维聚类预处理的云计算任务调度算法,根据预先分类好的资源特征向量进行分类依据,将云计算资源与特征向量间的相似度距离作为测度函数,将资源划分到预先定义好的类别中。本调度算法对资源进行分类预处理,能有效缩小任务对于资源搜索的范围,从而提高任务调度的速度。 相似文献
7.
基因本体是一个被广泛使用的生物数据资源,主要用于描述基因和基因产物的属性,包括分子功能、生物过程和细胞组件三个方面.基于基因本体的术语相似度及基因功能相似度计算对基因功能分析、比较和预测等生物学研究热门领域具有非常重要的意义.本文综述了基于基因本体的语义相似度算法,主要包括基因本体同一分支中的术语相似度计算法和基因本体跨分支术语相似度算法两大部分内容,并对这些方法的优缺点做了一定的分析总结. 相似文献
8.
针对大数据量下的英语资源库信息推荐模型中数据稀疏性较大的问题,提出一种基于协同过滤算法的英语资源库信息推荐模型。对历史监测的数据进行深度挖掘,将原始数据通过整合完善转化为资源数据集。通过协同过滤算法和资源反馈矩阵的表述实现资源选取,根据任意用户对项目集中同一数据资源的反馈评分计算得出每个项目间的相似阈值,以此为基础拟合项目整体相似阈值,根据阈值数挑选与用户最为匹配的项目资源,完成推荐。仿真实验证明,该模型算法的推荐精准度和效率较高,有效解决了数据稀疏性较大的问题。 相似文献
9.
在定长滑动窗口算法的基础上,应用有限状态机,按照标签的状态,对RFID标签数据进行清洗。算法解决了在清洗算法中重复窗口的问题,通过创建多阶哈希表存储标签读写记录,针对在海量标签数据中存在的多读、冗余读的现象,通过改进滑动窗口的数据清洗方法,解决其在处理效率方面的不足。对阈值等影响清洗算法准确率的相关因素进行仿真,结果表明基于FSM的海量RFID标签数据清洗算法可以有效清洗标签数据,且性能优于SMURF等算法。 相似文献
10.
马立东 《智能计算机与应用》2013,(1):47-51
研究英语单词形态相似度的计算方法。采用可设置编辑距离上限参数的算法实现从指定词汇范围自动抽取近形词。筛选出的易混近形词经消重和分类后可以丰富英语词汇知识库的内容。易混词知识库在教材编写、词汇能力训练设计、词典编纂和真词错误拼写校正等领域具有应用价值。 相似文献
11.
12.
微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户. 相似文献
13.
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的. 相似文献
14.
15.
16.
重复数据删除技术的发展及应用 总被引:2,自引:0,他引:2
重复数据删除技术包括相同数据重复数据删除技术和相似数据重复数据删除技术。相同数据重复数据删除技术主要有:相同文件重复数据删除技术、固定长度分块的重复数据删除技术、基于内容分块的重复数据删除技术、基于滑动块的重复数据删除技术和基于数据特征的重复数据消除算法等。重复数据删除技术适合应用于数据备份系统、归档存储系统、远程灾备系统等场合。 相似文献
17.
18.
19.
基于主成分分析的去噪算法在进行局部像素分组时,由于噪声具有不确定性和随机性,以欧氏距离
直接作为图像块相似性这一判断标准容易使得结果产生偏差。针对此问题,文中提出了一种基于向量相似度的
LPG-PCA 图像去噪算法,将向量相似度和欧氏距离相结合作为相似图像块的判断标准,优化了相似图像块的选取。
此外,在相似图像块样本数的选取方面采用自适应的数量选取方法,使得样本数的选取更加合理,进一步提高了图
像的去噪质量。实验结果表明所提算法在峰值信噪比和结构相似性方面均优于传统的LPG-PCA 图像去噪算法,且
对亚毫米波成像也具有一定的去噪效果。 相似文献
20.
密度峰值聚类算法(DPC)通过决策图直观地找到类簇中心进而完成聚类,是一种简单高效的聚类算法。然而,DPC算法的截断距离和类簇中心都是人为确定的,受主观影响较大,具有不确定性。针对上述问题,提出一种基于类簇合并的无参数密度峰值聚类算法(NDPCCM)。首先根据样本点两两之间的相似度的分布特征将其分为类内相似度和类间相似度两种类型,并利用类内相似度自动确定截断相似度,避免了人为设置参数;接着根据簇中心权值的下降趋势自动选择初始类簇中心,得到初始类簇;最后通过合并初始类簇对初步聚类结果进行优化,提高了聚类的准确性。在人工数据集和UCI真实数据集上,将所提算法与DPC、DBSCAN、K-means算法进行对比实验。结果表明所提算法无需输入参数就能够自动得到类簇,且聚类性能优于其他算法。 相似文献