JST公开高精度中日机器互译系统

ICT 2018年05月10日

日本科学技术振兴机构(JST)信息企划部的中泽敏明研究员与京都大学研究生院信息学研究科的黑桥祯夫教授等人,共同开发出了利用神经元网络进行学习的中日日中科技论文机器翻译系统。

近年来,人们对提高机器翻译精度的期待不断高涨,日本的JST、京都大学与中国科技信息研究所(ISTIC)合作,构建了以科技论文为基础的400多万条中日双语语料库。在让神经元网络翻译引擎学习这些语料库的同时,通过构建双语对译词典降低了误译和漏译的情况,提高了翻译精度。

在该项目中,研究人员还独立开发了以近年来大力研发的“基于注意力机制(Attention Mechanism)的神经元网络翻译”为基础的引擎。这种翻译方法无论输入的句子多长,都能高效进行处理,有望提高长句子的翻译精度(图1)。此外,通过大规模高品质的双语语料库与最尖端的神经元网络翻译引擎相结合,构筑了全球性能最高的中日日中科技论文翻译系统。利用该翻译系统进行的中译日翻译水准,经评估翻译率达到97%(图2)。而且,翻译精度达到了“信息适当,容易理解”程度的约有60%。

在2016年12月举行的以亚洲语言为对象的国际机器翻译研讨会“WAT2016(Workshop on Asian Translation 2016)”上,该神经元网络翻译引擎在科技信息机器翻译任务的精度评估中,取得了第一名的成绩。

此次开发的中日日中机器翻译系统已于2018年5月8日公开,详见以下链接。

JST自动翻译系统

JST在长期以来开展的文献信息提供业务中,积累了大量的中日双语抄录对译。在“中日日中机器翻译实用化项目”中,研发了利用积累的大量双语抄录数据,高精度推测每句话对应的译文的方法;通过自动选取双语句子,构筑了大规模、高品质的双语语料库。

<未来展望>

JST整理了国内外的科技文献信息,通过JDreamⅢ和J-GLOBAL等服务提供科技信息。其中中国文献数据库(JSTChina),就是利用所开发的神经元网络翻译系统,将大量文献信息(标题、抄录等)快速且高精度地翻译成日语来进行信息提供。

此次提供的中日日中机器翻译系统通过构建双语语料库和双语词典,即使是最尖端的技术信息也有望提供高精度的翻译。

<参考图>

PHOTO

图1:基于注意力机制的神经元网络翻译概念图

PHOTO

图2:翻译精度评估标准和中日机器翻译评估结果

文 客观日本编辑部

相关阅读