客观日本

日本电视广播大学与京都大学的语音识别字幕赋予技术更加进步 讲义的语音识别率达90%以上

2017年02月16日 化学材料

以充实听觉残疾人也能够听课的带字幕的讲义的播放和提供为目标的日本电视广播大学与京都大学的研究员们,改进讲义、讲演的自动语音识别系统,对电视广播大学的讲义也实现了90%以上的语音识别率。在2016年度启动的电视广播大学的“在线授课”中也已经有6个科目在通过互联网提供带字幕的讲课。系统的语音识别率超过87%时,比全部人工进行听语音配字幕作业能提高作业效率已经得到了确认。研究员们表示,期待这一字幕赋予系统今后在其他教育机关的讲义等方面也能得到普及。

京都大学研究生院信息学研究科教授河原达也、经济学研究科讲师秋田祐哉等研究人员开展着以自然的口语为对象的语音识别技术的开发,该技术已从2011年度起在日本众议院的会议记录系统中得到了采用。该系统是在1千小时以上的会议记录数据的基础上研发的,加上每年增加新数据,反复更新系统版本,刚开始只有89%的语音识别率现在已经提升到了90%以上。

但是,大学的讲义的特征是有许多没被以众议院的会议记录系统为代表的常规的语音识别系统所覆盖的专门用语。河原等人与电视广播大学教授广濑洋子等人一起开展了适合于电视广播大学讲义内容的语音识别・字幕赋予系统的开发。具体的是,在长约60分钟的电视广播大学讲义的语音・文本数据库的基础上,采用“深层学习(英: deep learning)”的方法解析语音和音素的复杂关系,并通过从教科书文本自动存储专业术语的用法等,实现了平均90%以上的识别率。

以30个讲义为对象采用该系统赋予字幕与完全由人工输入字幕比较,当该系统的识别率达到87%以上时,可缩短作业时间。当识别率达到93%时,能够缩短1/3以上的作业时间。

日本的电视广播大学的在线授课始于2016年度,现在所有的学习均以网上讲课及课题解答的形式进行,可通过智能手机和平板电脑进行视听。目前,除在线授课外,还实验性地开始了为广播播放的讲义准备静止图像、添加字幕后在网上提供。在名为“特别讲义 媒体与与谢野晶子”的讲义中,讲师的语音还用字幕显示在静止画面的下方。就如字幕“最有名的是同平塚雷鸟的『母性保護争論』”所示的情形吧。

photo

图片/特别讲义 媒体与与谢野晶子 ©放送大学

电视广播大学作为日本最大的在线教育机构,播放着电视、广播各一半合计约300个科目的教育课程。目前电视播放的讲义的约半数配有字幕,今后的目标是全讲义配字幕。通过电视、广播播放的讲义的约9成在互联网上也可以视听,通过广播播放的讲义中,包括“特别讲义 媒体与与谢野晶子”在内的4个科目可在网上视听带字幕的讲义。关于在线授课,明年度仍将通过互联网提供6个科目的带字幕的讲义。

从全球范围来看,开设大规模公开在线讲座(Massive Open Online Courses) 供免费在网上视听讲义的大学越来越多了。但是,现状是在开设大规模公开在线讲座,加上需要投资的用于在线学习的字幕方面,连支援残疾人先进国家的美国都还未能做到普及。另一方面,日本在2016年度开始实施的“残疾人歧视消除法”中,征求了赋予听觉残疾人手语及字幕等消除残疾人社会性障碍的解决方案。

河原达也除了在日本科学技术振兴机构(JST)战略性创造研究推进事业团队型研究CREST于 2009年度选定的“基于多模式场合认识的研讨会・会议多层次性支援环境”研究课题中担任过研究代表人之外,还在该推进事业选定个人型研究“SAKIGAKE”2001年度研究课题时被采纳了“讨论及会话中的口语信息的分析及模式化”研究课题。

文/客观日本编辑部

相关链接

京都大学 研究成果《开发基于讲演・讲义的语音赋予字幕系统 电视广播大学讲义的语音识别率超90%》

战略性创造研究推进事业CREST研究课题“基于多模式场合认识的研讨会・会议多层次性支援环境”
(研究代表人:河原达也)研究完了报告书

相关报道(日语)

Science Portal“人工智能(语音识别机器人)研究的目标及到达点”(京都大学教授河原达也)

Science Portal China“北京大学公布利用互联网的公开讲座”