期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张磊曹建军郑奇斌冯钦《计算机仿真》2020,37(1):239-243

为提高异构数据实体分辨的准确性,提出了异构数据实体分辨的蚁群算法参考点选择方法。异构数据的相似性通常难以直接度量,可以将其映射到参照物构造的统一空间后,再进行相似度的度量。给定两个异构数据集,选取若干匹配的数据对象对作为参照物(称之为参考点),将两个数据集中对象转换为到各自参考点的距离向量,依据距离向量的相似性进行实体分辨。为选择出更优的参考点集,建立了以最大化查全率、最大化查准率和最小化参考点集合规模为目标的优化模型,通过约束参考点集合规模,将上述模型转换成两目标优化模型,进而设计求解模型的蚁群算法,实现了参考点集的优化选择。实验结果表明,上述方法能够有效提高异构数据实体分辨的准确性。相似文献

2.

基于常量条件函数依赖的冲突消解算法

冯钦曹建军郑奇斌张磊《计算机仿真》2020,37(2):279-283

目前绝大部分冲突消解方法都是基于迭代计算数据源可靠度和事实可信度的机制。当数据源较少时,数据源的可靠度难于进行评估,仅凭投票来消解冲突往往会造成较大误差。针对数据源较少时的冲突消解问题,提出基于常量条件函数依赖的冲突消解算法。根据多个数据源之间的冲突,找出冲突匹配对及对应的冲突候选值集合。考虑常量条件函数依赖中具体到部分实例子集的约束关系,将常量条件函数依赖集作为先验知识,通过判断候选值是否符合常量条件函数依赖来选择正确的候选值,避免了错误数据比例较大时直接投票选择产生的误差。通过两个真实数据集上的对比实验验证了上述算法的有效性。相似文献

3.

不平衡多分类算法综述

李蒙蒙刘艺李庚松郑奇斌秦伟任小广《计算机应用》2022,42(11):3307-3321

不平衡数据分类是机器学习领域的重要研究内容,但现有的不平衡分类算法通常针对不平衡二分类问题,关于不平衡多分类的研究相对较少。然而实际应用中的数据集通常具有多类别且数据分布具有不平衡性,而类别的多样性进一步加剧了不平衡数据的分类难度,因此不平衡多分类问题已经成为亟待解决的研究课题。针对近年来提出的不平衡多分类算法展开综述,根据是否采用分解策略把不平衡多分类算法分为分解方法和即席方法,并进一步将分解方法按照分解策略的不同划分为“一对一（OVO）”架构和“一对多（OVA）”架构,将即席方法按照处理技术的不同分为数据级方法、算法级方法、代价敏感方法、集成方法和基于深度网络的方法。系统阐述各类方法的优缺点及其代表性算法,总结概括不平衡多分类方法的评价指标,并通过实验深入分析代表性方法的性能,讨论了不平衡多分类的未来发展方向。相似文献

4.

结合缺失模式的不完整数据模糊聚类

郑奇斌刁兴春曹建军《计算机科学》2017,44(12):58-63

数据的完整性是数据可用性的重要维度。由于数据采集等过程中存在的问题,现实中的数据往往存在缺失。现有的聚类算法在面对不完整数据时一般采用忽略缺失或填补缺失的策略,但是当数据缺失属于非随机缺失时,这样的处理策略会导致聚类精度严重下降。当数据缺失属于非随机缺失时,数据缺失模式与缺失属性的取值相关,因此在不完整对象的相似度量中加入缺失模式相似的度量,提出了两种结合缺失模式的 PCM(Possibilistic c-means)模糊聚类算法:最小化缺失模式距离之和的 PatDistPCM 算法和基于缺失模式聚类的 PatCluPCM 算法。在两个公开数据集上的实验证明, 考虑缺失模式的模糊聚类PatDistPCM和PatCluPCM算法,在对存在非随机缺失的数据进行聚类时 ,能有效提高聚类结果的准确性。相似文献

5.

内部威胁发现检测方法研究综述

郭世泽张磊潘雨陶蔚白玮郑奇斌刘艺潘志松《数据采集与处理》2022,37(3):488-501

组织内部网络不仅面临着外部攻击者的威胁,同时也面临以破坏组织网络结构、内部信息资料窃取以及各种诈骗手段为主的内部威胁。内部威胁因为其多元化、伪装性强等特点,对组织机构内部造成了严重影响,因此对于内部威胁发现检测方法的研究变得非常有必要。本文首先对内部威胁进行了描述,重点针对内部威胁发现检测方法的现实意义进行了论述。同时将现有的内部威胁发现检测方法分为3类：基于异常行为的检测方法、基于审计日志异常的检测方法和其他检测方法,分别介绍了现有3类方法的研究现状,并对它们的研究进展进行了总结、归纳和分析。最后对内部威胁发现检测方法的未来研究方向进行了展望。相似文献

6.

基于合作作者与隶属机构信息的同名排歧方法

尚玉玲曹建军李红梅郑奇斌《计算机科学》2018,45(11):220-225, 260

同名排歧是实体分辨领域的重要研究内容之一,其旨在分辨出相同姓名对应的不同人。针对传统同名排歧方法需要丰富的信息以及无法解决信息缺乏时的排歧问题,提出了一种基于合作作者和隶属机构信息的同名排歧方法。根据作者间的合作关系以及作者与机构间的隶属关系构造实体关系图,采用广度优先搜索策略搜索图中两两同名作者间的有效路径;根据有效路径长度、数目及路径上边的类型,计算两个同名作者间的连接强度,并将其与阈值进行比较,实现同名排歧。实验结果表明,所提方法比当前最好的方法具有更好的同名排歧效果,且能够实现单一作者的同名排歧。相似文献

7.

基于多目标蚁群优化的单类支持向量机相似重复记录检测

吕国俊曹建军郑奇斌常宸翁年凤彭琮《兵工学报》2020,41(2):324-331

为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记录样本对进行训练;选择合适的属性相似度函数计算记录对之间的相似特征向量,将其作为单类支持向量机分类器的输入进行二分类检测;建立以查准率、查全率、特征数量综合最优为目标的多目标特征选择模型,结合训练样本为单类样本的特点,将启发式因子定义为类内散度最小化约束,设计了求解模型的多目标蚁群算法。通过将单类支持向量机算法和支持向量域描述算法、传统二分类支持向量机算法进行对比,结果验证了单类支持向量机算法的有效性和优越性。相似文献

8.

基于Bi-GRU并包含注意力机制的文本数据真值发现

常宸曹建军吕国俊郑奇斌翁年凤《中文信息学报》2020,34(2):46-55

针对传统真值发现算法无法直接应用于文本数据的问题,该文提出基于Bi-GRU并包含注意力机制的文本数据真值发现方法。根据文本答案的多因素性,词语使用的多样性与文本数据的稀疏性等特点,该文对用户答案进行细粒度划分,并利用Bi-GRU表征文本答案的语义信息,利用双层注意力机制分别学习用户答案关键词可靠度及用户答案可靠度。依据真值发现的一般假设,无监督学习上下文向量,并最终获得可靠答案。实验结果表明,该算法适用于文本数据真值发现场景,较基于检索的方法及传统真值发现算法效果更优。相似文献

9.

基于深度神经网络的多属性无监督真值发现

常宸曹建军郑奇斌江春《计算机仿真》2020,37(11):270-274

相似文献

10.

面向算法选择的元学习研究综述

李庚松刘艺秦伟李红梅郑奇斌宋明武任小广《计算机科学与探索》2023,(1):88-107

随着人工智能的快速发展,从可行的算法中选择满足应用需求的算法已经成为各领域亟待解决的关键问题,即算法选择问题。基于元学习的方法是解决算法选择问题的重要途径,被广泛应用于算法选择研究并取得了良好成果。方法通过构建问题特征到候选算法性能的映射模型来选择合适的算法,主要包括提取元特征、计算候选算法性能、构建元数据集以及训练元模型等步骤。首先,阐述基于元学习的算法选择概念和框架,回顾简述相关综述工作;其次,从元特征、元算法和元模型性能指标三方面总结研究进展,对其中典型的方法进行介绍并比较不同类型方法的优缺点和适用范围;然后,概述基于元学习的算法选择在不同学习任务中的应用情况;继而,使用140个分类数据集、9种候选分类算法和5种性能指标开展算法选择实验,对比不同算法选择方法的性能;最后,分析目前存在的挑战和问题,探讨未来的发展方向。相似文献