首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 221 毫秒
1.
基于动态权值的关联数据语义相似度算法研究   总被引:1,自引:0,他引:1  
贾丽梅  郑志蕴  李钝  王振飞 《计算机科学》2014,41(8):263-266,273
语义相似度计算对关联数据的信息检索有重要作用,直接影响数据的语义挖掘效果。实例的属性信息是关联数据语义相似度计算的一个重要因素。针对传统的关联数据语义相似度算法未考虑属性的重要性和取值类型导致计算精度较低的问题,提出基于动态权值的关联数据语义相似度计算方法,即根据待匹配的数据集中属性不同取值的数量、属性值的分布以及属性的有效性3个因素动态计算属性的权值,然后依据属性取值类型选用匹配相似度算法,最后结合属性的动态权值对概念进行实例的相似度计算。实验表明,基于动态权值的相似度计算方法与传统方法相比,实例相似度的计算精度得到了一定的提高。  相似文献   

2.
为了提高离群数据检测精度和效率,提出了一种基于相关子空间的离群数据检测算法。该算法首先根据数据局部密度分布特征得出稀疏度矩阵,通过高斯相似核函数放大稀疏度特征;然后计算各属性维中数据稀疏度相似因子,确定子空间向量及相关子空间,结合数据稀疏度和维度权值得出数据对象的离群因子,选取最大的若干个对象为离群数据;最后采用人工数...  相似文献   

3.
政府采购平台上的电商大数据,由于商品种类繁多且书写格式无统一规范,采用传统模型在大数据中标定出同一种商品时准确率低、速度慢、样本利用率低、泛化能力不足.提出一种基于长短时记忆网络(LSTM)的同一性标定模型,该模型由分词、重要性排序和相似度计算3个子模型串联组成.分词子模型对电商大数据进行预处理,获得有区分度的关键词序列;LSTM重要性排序子模型筛选最能表征商品信息的重要关键词序列;LS T M相似度计算子模型在给定大数据中准确标定出同一种商品.另外还引入二分查找、GloVe词向量化和词序列语义校验技术,分别用于提高标定速度、训练样本利用率与标定泛化能力.实验结果表明,在处理不同品类的电商大数据时,所提模型对易混淆样本的同一性标定准确率高.  相似文献   

4.
准确的成本估算是项目管理的重要内容之一,基于类比的估算是项目成本估算的一种重要方法,估算的准确性与相似项目的选择有着直接的关系。鉴于此,对软件项目的相似度进行研究。将语句相似度的思想用于软件相似度的计算,首先对数据集中的缺失值进行处理,然后计算项目各属性之间的相似度,针对不同的属性取值类型采用不同的方法进行计算,最后将各属性间的相似度进行加权平均得出项目间的相似度。将该方法应用于USP05-FT项目集进行成本的估算。实验结果表明:通过选择合适的相似度进行近邻的选择,评估的平均准确性可以达到85%以上。  相似文献   

5.
现有基于函数调用图的程序二进制文件相似性分析方法在分析经混淆处理的复杂程序时存在准确度低的问题。针对该问题提出了一种基于子图匹配的层次分析方法。以子图为最小检测单元,分层检测各个子图的相似度;再依据各个子图的相似度,采用加权平均策略计算程序二进制文件的相似度。实验结果表明,该方法抗干扰能力强,能够有效应用于恶意程序家族分类及新病毒变种检测,且具有较高的检测效率。  相似文献   

6.
时间序列中快速模式发现算法的研究   总被引:3,自引:0,他引:3  
针对长时间序列,该文提出了一种新的能快速发现序列中时序模式的检索方法。首先将时间序列分成若干等长的子序列;接着从每个子序列中提取特征序列,该特征序列能够反映子序列中数据的变化趋势;然后根据每个特征序列将相应的子序列分配到一系列盒子中,使得不同盒子中的子序列因数据变化趋势不同而不相似,而在同一盒子中的序列由于数据变化趋势相同而有可能相似;最后通过计算每个盒子中任意两个子序列间的欧几里德距离来发现所有的模式。有关实验证明该算法是行之有效的。  相似文献   

7.
为了实现制造资源本体之间的语义互操作,对本体中的概念进行语义相似性计算为进行此操作的关键技术之一。本文提出了一种计算概念语义相似度的新方法,将概念语义相似度分为两部分:主体相似度和附加相似度。主体相似度综合考虑了概念自身的相似度,该概念的父概念和子概念间的相似度,以及概念间的二元关系,同时,加入了概念属性相似度,属性携带了概念的大部分语义信息,计算属性相似度可以有效提高概念语义相似度的准确性。附加相似性是指通过本体中概念的层次结构对主体相似度进行语义补充,利用概念的深度对得到的概念语义相似度进行语义调整,有效的弥补了仅仅利用主体相似度计算概念语义相似度的不足。最后,通过实例证明了该方法的有效性。  相似文献   

8.
程序代码相似度度量的研究与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
针对程序代码相似度的度量问题,提出一种属性计数和结构度量相结合的方法,通过统计程序源代码的操作符和操作数个数,产生Halstead长度、Halstead词汇和Halstead容量3个程序的特征向量,利用向量夹角的余弦计算属性相似度,采用最长公共子序列算法获取结构相似度,从而衡量程序对间的相似程度。实验结果表明,该方法能够有效检测出学生作业中的相似程序代码。  相似文献   

9.
基于自相似的金融时间序列波动聚集性研究   总被引:1,自引:0,他引:1  
自相似与波动聚集性是金融时间序列的两个重要特征,文章将这两个特征结合,提出了一种基于自相似的波动聚集模型。基于该模型提出了一种基于拟合优度与趋势变动的联机时间序列分割算法,算法能够根据波动的自相似特征将序列分割为多个子序列,从而用于研究在不同时段金融时间序列波动的自相似性。对实际数据的实验结果表明,文章所提出的模型和分割算法是有效的。  相似文献   

10.

针对目标案例与历史案例的非一致属性集合问题, 基于匹配度生成子案例库, 使用基于核密度的群体序关系分析法对目标案例各属性进行赋权. 利用符号型属性和数值型属性的特征, 通过不同相似度计算方法分别计算各属性下的相似度, 集结各属性相似度信息和权重信息得到非一致属性集合的历史案例与目标案例的相似度, 最终得到应急方案的推荐结果. 最后通过算例表明了该方法的有效性和可行性.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号