首页 | 官方网站   微博 | 高级检索  
     

融合材料领域知识的数据准确性检测方法
引用本文:施思齐,孙拾雨,马舒畅,邹欣欣,钱权,刘悦.融合材料领域知识的数据准确性检测方法[J].无机材料学报,2022,37(12):1311-1320.
作者姓名:施思齐  孙拾雨  马舒畅  邹欣欣  钱权  刘悦
作者单位:1.上海大学 材料基因组工程研究院, 上海 200444
2.上海大学 材料科学与工程学院, 上海 200444
3.上海大学 计算机工程与科学学院, 上海 200444
4.上海大学 上海市智能计算系统工程技术研究中心, 上海 200444
5.之江实验室, 杭州 311100
基金项目:国家重点研发计划(2021YFB3802101);国家自然科学基金(52073169);之江实验室科研攻关项目(2021PE0AC02)
摘    要:材料数据由于小样本、高维度、噪音大等特性, 用于机器学习建模时常常会产生与领域专家认知不一致的结果。面向机器学习全流程, 开发材料领域知识嵌入的机器学习模型是解决这一问题的有效途径。材料数据的准确性直接影响了数据驱动的材料性能预测的可靠性。本研究针对机器学习应用过程中的数据预处理阶段, 提出了融合材料领域知识的数据准确性检测方法。该方法首先结合材料专家认知构建了材料领域知识库。然后, 将其与数据驱动的数据准确性检测方法结合, 从数据和领域知识两个角度对材料数据集进行基于描述符取值规则的单维度数据正确性检测、基于描述符相关性规则的多维度数据相关性检测以及基于多维相似样本识别策略的全维度数据可靠性检测。对于每一阶段识别出的异常数据, 结合材料领域知识进行修正, 并将领域知识融入到数据准确性检测方法的全过程以确保数据集从初始阶段就具有较高准确性。最后该方法在NASICON型固态电解质激活能预测数据集上的实验结果表明: 本研究提出的方法可以有效识别异常数据并进行合理修正。与原始数据集相比, 基于修正数据集的6种机器学习模型的预测精度都有不同程度的提升。其中, 在最优模型上R2提升了33%。

关 键 词:机器学习  材料科学  数据质量  领域知识  
收稿时间:2022-03-21
修稿时间:2022-05-06

Detection Method on Data Accuracy Incorporating Materials Domain Knowledge
SHI Siqi,SUN Shiyu,MA Shuchang,ZOU Xinxin,QIAN Quan,LIU Yue.Detection Method on Data Accuracy Incorporating Materials Domain Knowledge[J].Journal of Inorganic Materials,2022,37(12):1311-1320.
Authors:SHI Siqi  SUN Shiyu  MA Shuchang  ZOU Xinxin  QIAN Quan  LIU Yue
Affiliation:1. Materials Genome Institute, Shanghai University, Shanghai 200444, China
2. School of Materials Science and Engineering, Shanghai University, Shanghai 200444, China
3. School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China
4. Shanghai Engineering Research Center of Intelligent Computing System, Shanghai University, Shanghai 200444, China
5. Zhejiang Laboratory, Hangzhou 311100, China
Abstract:
Keywords:machine learning  materials science  data quality  domain knowledge  
点击此处可从《无机材料学报》浏览原始摘要信息
点击此处可从《无机材料学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号