日本文部科学省宣布,自9月30日起将开放与共享通过材料尖端研究基础设施(ARIM)收集并积累至今的约11万条材料数据,这些数据已整理为便于在数据科学等领域利用的格式。

本图由JST亚洲太平洋综合研究中心根据文部科学省发布的《构建和共享大规模材料数据基础设施》(https://www.mext.go.jp/b_menu/houdou/mext_01556.html)翻译制作
文部科学省正在推进材料领域的研究数字化转型(DX),实现研究数据的生成、整合与管理、充分利用的一体化。在研究数据生成方面,以材料尖端研究基础设施(ARIM)为核心;在从整合与管理方面,以物质与材料研究机构(NIMS)的数据核心基地(MDPF)为核心;在充分利用方面,以数据生成与活用型材料研究开发项目(DxMT)为核心,这三项事业共同构成了现行举措的核心。其目标是通过实现一种能够跨越机构框架对已生成的数据进行共享与充分利用的机制,并确立融入了数据驱动型研究的新一代研究方法,从而实现创新性材料的生成。
在ARIM中,已将各装置差异化的测量数据及合成加工流程数据的格式统一化,并整理为形态易于机器学习等领域加以活用的结构化数据,事业启动后的4年间,此类数据已积累超过100万条。此次,针对已经积累的数据,将从非共享期(即数据生成者为独立完成研究而仅限其研究团队内部使用的期限,原则上最长为2年)已届满的数据开始,依次面向日本学术界与产业界开放共享。希望使用共享数据的研究人员,通过支付规定的使用费,即可下载并使用生成自利用ARIM内约1200台共有设备的研究的、与各类测量值、图表及图像等丰富的材料数据相关结构化数据。所提供的数据已实现不同装置间的数据格式统一化,在AI及机器学习等领域也能充分利用。ARIM还积累了包含失败数据在内的各类实验数据。此外,针对各种材料,ARIM不仅积累了物性值、测量、分析数据,还将材料合成以及半导体和器件加工过程中的温度、压力等实验条件、工艺数据等进行了关联收录。目前可供使用的结构化数据约为11万条,但预计每年将以数十万条的规模增加。
用户从数据共享门户网站申请并注册后,即可对希望使用的数据集进行检索、下载及使用。收费方式为按“个人许可证”或“团体许可证”为单位计算的年度定额制(年会费制)。用户需为日本人,在日外国人需在日本居住6个月以上,且隶属于日本国内设立的法人机构,经申请并获得许可后方可使用。使用方法等详情将在网站(https://nanonet.go.jp/)上公布。
此次开放共享的数据,由多种设备群组及利用该设备的众多不同领域的研究人员生成。活用这些丰富多样的数据特性,有望催生能够助力研究活动中课题解决与新知识生成等方面的用例。
例如,通过充分利用共享数据中包含的测量结果等信息,能够对类似材料及目的相应的实验条件进行整理、预测与提案,有望为高再现性的实验提供支持。此外,通过分析测量的偏差及异常值,有望在可靠性评估等领域加以利用。
通过组合共享数据、用户自身持有的数据、其他开放数据以及计算数据等,预计将实现实验数据的补全及材料特性预测精度的提升,有望实现更高效的材料研发。
此外,共享数据还能作为可视化及分析方法的学习教材使用,通过采用实际测量数据的实践训练,有望在人才培养活动中加以利用,具体包括帮助年轻研究人员及学生掌握数据科学思维及测量技术的教育内容制作等。
原文:《科学新闻》
翻译:JST客观日本编辑部