客观日本

NTT开发利用生成式AI忠实再现语音技术

2024年01月19日

【共同社1月18日电】NTT公司17日发布消息称,利用生成式人工智能(AI),开发了语音合成技术,可以忠实地再现某人的声音和说话方式。预计不仅在互联网上的虚拟空间“元宇宙”上使用,还将用于重现因疾病等而失语人士的声音。面向商业化,NTT今后将用1~2年时间推进实证研究。

这项新技术通过把几分钟~10分钟左右的语音数据输入到机器中,来进行语音合成。据称,不仅能够高水平再现不同性别、不同年龄的声音特征,而且可以给同样的语句配上“平静”、“喜悦”和“悲伤”等感情变化后发声。NTT还开发了简易版技术,即使只有几秒钟的语音数据,也可以再现与本人相似的声音。

近年来,AI语音合成技术迅速提升,国内外的开发工作有了进展,但也有报告称出现了滥用语音实施诈骗和散布虚假信息等问题。NTT负责人表示“将在今后的研究中,综合考虑”对策。

据称,今后除了在网络空间使用外,还考虑搭载有分开居住的家人声音的AI等相关服务。NTT表示,将利用约40年前开始反复研究的语言处理技术,加速开发擅长应对日语的生成式AI。(完)