客观日本

重建巴别塔 --- 纵观日本的人工智能自动翻译 ---- 戴维

2017年07月04日 能源环境

学习外语是现代人的必修课目,也是一件费力的事。

日本有统计说,中高六年花在英语学习的时间是840小时。中国在英语学习上貌似花费了更多的时间。有一位人大代表做了一个调查发现,中部省会城市中小学生每天在学英语上付出的时间大约为:小学生1小时,初中生1.5小时,高中生2小时。从小学三年级到高三毕业,每个学生至少要在学英语上花费5,292.5个小时。如果按照每天8个小时的学习时间来计算,在一个孩子最美好的10年时光里,竟然将近五分之一(18.13%)的时间都花在了英语上。

然而,外语学习并非走出校门就能了结,有的人似乎要贯穿生涯。日本是一个学习风气很浓的国家。面向成年人的语言学校随处可见。有人对成年人学英语的动机作了问卷调查。发现最主要的五个理由是:

1.懂英语对就职、升迁、转职有利
2.海外旅行会更愉快
3.希望跟外国人交流、交朋友
4.会说外语已经是现代的常识
5.看电影或电视剧时不再借助字幕或配音

从中可以看出,学习外语既有为升迁工作的功利主义因素,也有为兴趣所致的精神的因素。这只是对一般人的问卷调查。如果考虑到学术的需要,更能发现外语(英语)的重要性。哈佛大学公众卫生学院的研究员巴拉贝尼调查了2014年出版的《欧洲分子生物学机构会刊》,发现95.4%是英文,而世界人口里以英语为母语的不过5%。在论文数排名前20的国家里,英语为第一语言的只有四个国家。所以,学外语尤其是英语,变得愈发重要。笔者有时甚至幻想着,如果世界语言统一的话,岂不是可以腾出学外语的时间,作其它更重要的研究。

或许世界本来只有一种语言。

《旧约圣经》“创世纪”11章讲了这样一个故事:大洪水以后,繁衍生息的人们来到巴比伦平原,在那里定居。“他们说,来吧,我们要建造一座城和一座塔,塔顶通天,为要传扬我们的名,免得我们分散在全地上(创世纪11章4节)”。上主下來,要看看这群人建造的城和塔。主看他们是同一个名族,讲同一种语言,生怕他们齐心合力,为所欲为,便搅乱了他们的语言,使他们无法造塔,把他们分散到世界各地。

由此佐证了语言的力量,也是我们孜孜不倦学习外语的动力。所以,如何更有效地利用时间,减轻学习外语的负担也是科学界追求的一个目标。因此,自动翻译成为一个攻坚的课题。如果自动翻译实现了,等于重建一座巴别塔,可以综合全球的力量,攻克科学难关。

文本翻译 ---日本

日本作为一个科技发达国家,在自动翻译方面起步很早,文本翻译早在90年代已经出现过两次高潮。其特征和概况如下表所示。

时间

系统概况

评价

第一次

90年代初

・用途:面向翻译公司或者企业的翻译系统

・系统配置:软件+工作站+打印机+扫描器

・价格:600-800万日元

翻译精度:
日英50%
英日60%

93年前后

・用途:面向翻译公司或者企业的翻译系统

・系统配置:软件+工作站

・价格:300万日元

第二次

96年前后

・系统配置:软件降

・价格:10万日元左右

翻译精度:
80%左右。

这个时期的翻译精度的提高基本上是靠提高构造处理能力和词汇选择能力来解决的。科研攻坚的目标,主要瞄准对多义性的解决,以及使语法更精致,使字典更充实。利用统计技术自动抽取语言信息,通过用例模式,提高翻译精度。显然,这是传统编程实现的线性处理,跟人脑的处理完全是异质的。

语音翻译 ---日本

语音翻译方面,早在1986年日本情报通信研究机构(NICT)就着手研究,但是一直进展不大,直到近几年人工智能的崛起,才带来突飞猛进的变化。去年,NICT为了验证其正在开发的名为VoiceTra的翻译系统,免费公开了其翻译应用(APP)。VoiceTra现在可以翻译英语、汉语等30几种语言。笔者通过电视屏幕所看到的翻译场景很振奋人心,它可以瞬时翻译出语音并伴随着字幕。为了在2020年东京奥林匹克时投入商用,他们将旅客通常会去的地方,以及医院等场景的对话数据预先录入计算机,与全日本的大学与企业合力利用人工智能技术进行翻译。设想的用户为医师、旅客、以及出租车司机等等。在完全投放市场之前,已经有企业将其应用于远程通信,电视与电话会议等等。

其他厂商也在积极开发语音翻译的产品。目前,日本对语音自动翻译的厂商及其品牌,大概如下表所示。

厂 商

系统 / 软件名

概 要

日本情报通信研究机构(NICT)

VoiceTra

翻译系统

・2016年秋季免费公开了其翻译应用(APP)

・可以翻译英语、汉语等30几种语言。

富士通

富士通SSL

LiveTalk

自动语音翻译系统

・可以进行实时语音识别

・可自动翻译19种语言。

东芝

RECAIUS

语音翻译与同声翻译系统

・利用了人工智能的对话型语音翻译服务

・对应英、汉、韩、日四种语言。

微软

Microsoft Translator

翻译软件

・增加了日语文本与语音的双向翻译。

日本的厂家有一个共同的特征,就是其产品的慎密以及应用的多样化。厂家设想的应用场景以面向企业应用居多。也就是所谓的B2B应用。这样的商业模式比较适合大企业的盈利方式,但是因为系统比较复杂,业务模式未成型,所以,开发周期比较长。而中国企业看起来要灵活点,2017年4月26日,中国科技公司科大讯飞联合洛可可&洛客推出了全球首款中英互译神器“晓译翻译机”。其特点是面向大众消费者,锁定中英互译,软硬件结合做成一款手机一样的终端。这种面向消费者的B2C业务模式,删掉了多余的功能,简单而便宜。

率先在日本市场推出B2C模式语音自动翻译的是LINE。2017/6/15 LINE宣布在今年秋天推出一款安装人工智能的翻译终端,要赶在亚马逊等美国厂商之前将产品推入市场。这个终端可以给用户朗读当天的新闻,以及收到的文本信息。

究竟哪种方式更能获得市场的认可与欢迎,这需要时间来验证。

人工智能的应用,使得自动语言翻译出现了井喷式变化。按这个势头,相信不远的将来,或者不用等到2020东京奥运会,驾辕外语将成为一件容易的事。起码对于普罗大众,为满足旅行、购物、就诊等日常活动的需求,或许并不需要花大力气去啃语法、背单词地学外语了。

重建巴别塔后,不知道上帝会作何感想。

PHOTO

文・图/戴维