近日,材料基因组工程研究院杨炯教授团队在机器学习筛选热电材料中获重要进展。论文相关工作以“Active learning for the power factor prediction in diamond-like thermoelectric materials (用主动学习预测类金刚石热电材料的功率因子)”为题被计算材料著名期刊NPJ Computational materials接收。
该工作基于前期高通量计算的158个类金刚石热电材料的功率因子,用主动学习的框架结合机器学习和第一性原理计算,建立高精度的外推模型。主动学习的框架包括数据库,机器学习和验证样本选择模块,计算验证模块,如图1所示。验证样本的选择策略对主动学习的精度和效率有很大影响。在尝试的多种策略中,以多个机器学习算法的争议为推选验证样本标准的“委员会推选(Query by Committee)”策略得到了外推能力最强的模型。在分析搜索空间中所有化合物的功率因子后发现,磷族化合物,含有空位和小原子半径元素的硫族化物可能具有较大的p型功率因子,如图2所示。

图1:类金刚石结构热电材料搜索空间及主动学习框架

图2:通过外推结果预测的具有高p型功率因子的新型热电材料
数据驱动的机器学习方法在近年被引入加速用于热电材料的搜索。机器学习方法的一般过程包括数据收集,机器学习,高性能的候选材料预测和验证。大多数研究中机器学习模型在已知数据集上表现很好,但没有去验证模型在已知数据之外的可靠性。而从材料应用角度讲,机器学习模型的外推预测能力至关重要。弱外推能力往往可以通过扩展数据样本来改善,但是增加大量样本成本高昂。主动学习架构通过外部验证更新机器学习模型,用尽可能少的验证样本最大程度的提高机器学习模型的外推能力。主动学习架构的应用不只局限热电材料也可用于其他功能材料,对加速高性能材料的发现具有重要的意义。
上海大学材料基因组工程研究院为本论文的第一完成单位和通讯单位。论文第一作者为上海大学材料基因组工程研究院博士生盛晔,通讯作者为上海大学杨炯教授和南方科技大学张文清教授。特别地,本论文的第二作者为钱伟长学院2017级材料设计科学与工程专业的同学吴雅颂。整个研究工作是依托我校材料基因组工程研究院,并与南方科技大学、瑞士Material Phases Data System公司(MPDS)进行深入合作完成。
论文链接:https://www.nature.com/articles/s41524-020-00439-8