首页 | 官方网站   微博 | 高级检索  
     

面向材料领域机器学习的数据质量治理
作者姓名:刘悦  马舒畅  杨正伟  邹欣欣  施思齐
作者单位:上海大学计算机工程与科学学院,上海 200444;上海市智能计算系统工程技术研究中心,上海 200444;上海大学计算机工程与科学学院,上海 200444;上海大学材料科学与工程学院,上海 200444;上海大学材料基因组工程研究院,上海 200444
基金项目:国家重点研发计划;国家自然科学基金;国家自然科学基金
摘    要:数据驱动的机器学习凭借其准确高效的预测能力广泛应用于材料的性能预测和构效关系研究。数据决定了机器学习的上限。然而,目前材料领域的数据存在来源广、噪音大、样本少、维度高等数据质量问题,阻碍了机器学习在材料领域更广泛的应用。本文从数据品质和数据数量2个视角系统梳理并全面剖析了材料领域数据质量问题及其相关治理工作,发现数据品质与数据数量共同决定数据质量。基于此,提出了面向材料领域机器学习全过程的领域知识嵌入的数据质量治理框架。该框架定义了12种维度用于解析材料数据质量的内涵;构建了数据质量治理的生命周期模型以确保数据质量治理活动有序进行;建立了一系列数据质量治理处理模型,从领域知识与数据驱动2个方面对数据质量进行精准全面治理,为生命周期模型的具体实施提供技术支持。该框架实现了材料数据质量的综合评估与提升,为高质量数据获取提供理论指导与候选方案,加速机器学习在材料研发中的深入应用。

关 键 词:材料科学  机器学习  数据质量  领域知识
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号