客观日本

追求更好的人机关系,不断开发多项AI技术的前沿应用

2023年10月26日 信息通信
title

五十岚 健夫 Igarashi Takeo
东京大学 研究生院信息理工学系研究科 教授
2017年度~2022年度 CREST研究代表

当下正处于人工智能(AI)和机器学习变革期,更易于使用的计算机系统的用户界面(UI)技术和人机交互技术变得越发重要。东京大学研究生院信息理工学系研究科五十岚健夫教授接连开发出了将我们脑中的所想快速转换为三维图形技术(3DCG)、动画生成技术、虚拟试衣技术以及防止AI进行误判的“共现偏差”消除技术等AI技术的前沿应用,不断追求实现人与机器之间更良好的关系。

用户自定义3D模型生成
震惊全球的图像创作者的交互技术

在屏幕上绘制的二维(2D)角色草图能够瞬间转化为具有毛绒玩具逼真感觉的三维(3D)计算机图形技术(CG)。这个系统的设计思路是东京大学研究生院信息理工学系研究科的五十岚健夫教授早在24年前就已经考虑了。1996年,当时还是东京大学博士生的五十岚教授作为实习生访问了美国布朗大学,当看到用多面体表示的3D模型创建手绘风格插图的CG技术时,受到了极大的震撼。

“我原本就对3DCG很感兴趣,一直在寻找一种将笔绘草图能够变得立体化的机制。当看到布朗大学的CG技术时,就激发了‘反其道而行之’的灵感”。当时,正是全球首部长篇3DCG动画电影《玩具总动员》上映的第二年,也是全世界开始关注3DCG的时期。五十岚教授将研究重点放在了基于二维草图的3D模型的研究课题上,并于1999年在全球计算机图形学盛会SIGGRAPH 99上发表了名为“Teddy”的基于2D草图的3D建模技术的论文(图1)。

title

图1 Teddy的3DCG创作示意图
根据画面上绘制的2D草图(左)来自动生成3D模型(右)。可以从任何角度绘制并实时编辑三维模型(着色使用了其他软件)。

该技术一经发布就引起了轰动,震惊了全世界的研究人员和图像创作者。在人们的普遍认知中,传统的3DCG是由具有专业技能的工程师和创作者来创作的,普通用户只能使用其创作结果。而Teddy将3DCG创作从专业人士交到了非专业人士的手中,创造了一个无需任何特殊培训即可轻松创建和编辑3D模型的世界。

基于这一成果,五十岚教授还成功开发出了“空间关键帧法”。这是一种只需在屏幕上进行少量操作,就能使由草绘创意实现的3D角色具有流畅动作从而生成实时动画的技术。这些技术带来了连五十岚教授本人都始料未及的巨大社会反响,其中部分技术已应用于创建3D模型的标准PC软件“Shade”中并实现了商业化。Microsoft的“Paint 3D”和Adobe的图像软件等类似产品也随之面世。

根据不同体型和姿势的具象化
费时3年开发出“虚拟试衣法”

然而,五十岚教授的研究目的并不仅限于提高三维模型和CG图形制作效率。“为了让计算机系统更容易让人使用,还需要考虑人和系统应该如何交互。用户应该如何将头脑中所想的图像传达给系统,系统输出的结果又应该如何让用户来使用?这是一直以来都在研究的课题”。

研究生期间,五十岚教授曾在美国施乐帕洛阿尔托研究中心、微软研究院、卡内基梅隆大学有过实习经历,也曾在日本电报电话公司(NTT)、理光等公司实习。然而民营企业需要为开发的技术申请专利,商品化也多局限于自己的公司。相比之下,大学的研究自由度更高,更有可能扩大技术的应用和实用化范围,于是五十岚教授选择了在大学开展研究工作。作为专业研究者在对UI和交互技术的研究过程中,AI、机器学习和人机关系也逐渐成为重要的研究课题。

2017年,五十岚教授入选了JST(日本科学技术振兴机构)的 CREST(战略性创造研究推进事业)“理解和控制数据驱动型智能信息系统的人机交互”项目。在CREST项目中,除了研究数据生成和训练过程等AI技术的共通课题外,还发表了利用训练后的结果来让系统内部可视化、通过用户的适当干预来获得期望的结果等若干应用技术。

下面将介绍其中三项重要的研究成果。第一项成果是可支持各种体型和姿势的先进“虚拟试衣法”。尽管可以在电脑屏幕上可以虚拟试穿服装的系统已经走进实际应用,但对于应用单纯的3DCG或常用深度学习模型的系统来说,还很难即时生成逼真的试穿效果图像。为此,五十岚教授带领的研究团队从开始准备一个可以自由改变体型和姿势的模特机器人开始这项研究。

研究团队为模特机器人穿上衣服,模仿不同体型的用户的各种姿势,拍摄了数万张照片。通过基于这些照片数据的深度学习算法,团队成功实现了不同体型和姿势下衣服的皱褶效果,以及在身体不同部位的衣服空间效果等详细图像生成。该系统除了应用于线上店铺的虚拟试衣外,还被用于在线会议视频中服装变换的试验中(图2)。

title

图2 虚拟试衣系统使用示意图。
各种衣服的试穿结果。根据从模特机器人获取的数据合成逼真的试衣图像。

AI和机器学习往往被认为是数据和算法的世界,但具体的内容生成也需要“匠人”因素和耐心来创建学习数据。五十岚教授在回顾开发过程中的艰辛时表示:“虽然程序可以在短时间内完成,但训练数据需要很长时间。拍摄图片仅需要2小时左右就可以完成,但训练却花费了2晚。一旦失败又要重新开始训练,再需要2晚。这是机器学习的常见问题,就虚拟试衣法而言,从构思到完成大约花了3年时间”。

看着车的“眼睛”过马路
降低自动驾驶的交通风险

UI和交互技术的研究不一定只是计算机端的技术。为了在人类和机器之间建立更好的互动,五十岚教授的团队探索了一种以人类可以理解的方式可视化AI决策的机制。这就是第二项成果——具有“眼睛”的自动驾驶汽车。这款自动驾驶汽车通过车头“眼睛”的角度来表示AI驾驶员正在注意的方向,实验中用它来测量看到汽车“眼睛”的行人过马路的状况。

过马路实验的结果表明,行人倾向于认为如果自动驾驶汽车的“眼睛”对着自己的方向,则表示车辆“正看着自己”,因此判断过马路是没有问题的。而如果眼睛对着其他方向,则表示“汽车没有在注意自己”,因此判断过马路是危险的。如此,通过用汽车“眼睛”所示方向来表示AI的注意方向,行人大多数情况下可以采取适当的风险规避行为,验证了此设计有助于降低交通风险。此外,研究还发现,实验者的风险规避行为中存在显著的性别差异(图3)。

title

图3 实验调查行人对具有“眼睛”的自动驾驶汽车的反应。
如果汽车的眼睛看的方向、也即AI注意的方向刚好为行人的方向,则判断为“安全”,否则判断为“危险”,由此调查了行人对是否横穿马路的判断。实验中,汽车和“眼睛”均为手动操作,扮演行人角色的用户在VR环境中进行实验(上)。图表显示了有“眼睛”和没有“眼睛”场合行人做出判断的差异。男性和女性实验者之间存在显著差异(下)。

五十岚教授总结道:“这是一项将自动驾驶汽车AI系统与汽车眼睛的运动联系,假设汽车眼睛的视线直接表现AI所处状态的研究”。不久的将来,自动驾驶汽车将在公共道路上行驶,如何将自动驾驶汽车的判断传达给行人,从而使行人能够正确地规避危险,将成为一个越来越重要的课题。和用户交互的研究是必不可少。

防止AI的错误训练结果
一键诱导正确标注位置

第三项成果是防止AI错误数据训练的技术。在机器学习领域,为了防止最终训练结果出现判断错误,有时需要在训练的过程中进行适当的人为干预。例如,要从漂浮在海上的船舶的图片中学习船舶的形状,学习对象必须放在船舶上,而不是图片中的“波浪”或“海岸”等元素。此外,为了从大量人脸图片中学习“口红”元素,就必须关注在嘴唇上。然而,在实际的学习数据中由于“比较注重眼妆的人通常会涂口红”,因此AI可能会错把眼部区域作为学习对象。

这样数据训练的结果就是,机器学习做出错误判断。这种问题被称为“共现偏差”,防止共现偏差的发生是机器学习面临的重大课题之一。为了消除共现偏差的影响,需要对原始数据进行适当的修改和重新收集,或者用户直接明确特定区域,并提供应该用于训练的部分。然而,重新收集数据集,或者让用户做像素等级的区域标注等都需要大量的人力和资金成本。

为了缩减所花费的时间和精力,五十岚教授的团队开发了一种只需对显示屏幕上的图片单击鼠标就能使AI识别特定区域的技术。以前面的船舶为例,如果左键单击船舶图像的部分,则人眼可见地船舶部分将会成为识别目标。反之,如果右键单击船舶周围水的部分,则会将水的部分从识别目标中移除。由此,可以显著减少机器学习的训练时间和成本,以及数据标注过程中的人力投入(图4)。

title

图4 消除AI共现偏差的一键标注技术示意图。
CelebA数据集中与“口红”相关的数据,一键标注前深度学习网络识别的区域示例(上)和微调后的区域示例(下)。减轻了对眼睛、脸颊等非唇部妆容的考虑。

通过人为调整来告诉AI需要关注部分的行为被称为“注意力引导”技术,该成果的关键在于极大地简化了人类引导AI应关注部分时的操作。五十岚教授解释道:“通过结合我们同时设计的主动学习算法,经验证注意力引导所需的时间减少了27%,学习准确性也有了显著提高”。

难关的是找出新想法
边动手边思考最重要

除了这些应用之外,为实现多种想法,五十岚教授还不断开展如通过让用户从AI提供的各种图片中进行选择来生成接近用户设想的图像生成技术,以及仅用一个滑块即可进行复杂多样的图像调整技术等研究。据其称,最困难的阶段是想出谁也没有想到的新想法。但是,一旦跨越了这一困难,就可以在活用和应用现有技术的同时直接进入应用程序的开发。

“为了提出新的想法,大量阅读论文,姑且动手尝试并不断思考是极为重要的”。五十岚教授推进科研的背景是UI和交互技术有潜力去帮助人类和计算机相互交流信息以创造更好的结果,这与CREST的目标“创建人与信息环境的共生交互技术的基础”密切相关。

正如美国OpenAI公司于2022年11月发布的大语言模型生成AI“ChatGPT”引发了全世界的关注所示,可以说目前正处于AI利用历史长河的变革期。五十岚教授在展望研究前景时表示:“尽管我们基于已经获得的成果来探索还能实现什么,但基本想法从未改变。那就是实现不需要专业知识,用户能按照自己的意图来控制计算机系统。未来我们将继续挑战这个课题”。(TEXT:土肥正弘、PFOTO:伊藤彰浩)

title

原文:JSTnews 2023年9月号
翻译:JST客观日本编辑部(协助:谢浩然(北陆先端科学技术大学院大学))

日语原文