雅虎CSO安宅谈数据科学家的技能定义和日本应采取的行动

ICT 2018年09月07日
日本语

数据科学一词大约出现于5年前,与日本一般社团法人数据科学家协会成立的时间刚好重合。这也很好理解,因为对数据科学家严重短缺的状况抱有危机感的安宅和人等一直在进行启蒙活动。那么,数据科学家协会的理事兼雅虎首席战略官(CSO)安宅是如何对数据科学家的技能进行定义的呢?日本又应该做些什么呢?

◆轻松了解数据科学

数据科学家协会成立于2013年5月,目的是对数据科学家需要具备的技能和知识进行定义、制定培训课程及建立评估制度等,可以说是行业的标准。大体来看,加盟该协会的主要是数据持有者和解决方案供应商等企业及团体。安宅与代表理事草野隆史等作为共同发起人之一,在协会中发挥核心作用,并以技能委员长的身份,整理了数据科学家所需的技能和任务等。

很少有人能清楚地解释什么是数据科学家。这时就可以用到该协会整理的内容了。该协会对数据科学家的定义是:“能以数据科学能力和数据工程能力为基础,从数据中创造价值,并针对业务课题给出解决方案的专家”。这里所说的“业务”是指对社会有用的一切有意义的活动,“专家”则指拥有经过系统培训的专业技能,能以此为基础向客户提供承诺的价值并得到认可,而且可获得等价报酬的人。作为活动的一部分,该协会公开了“任务、综合技能、定义、技能水平和技能检验表”。

下述①~⑤为设想的对象和效果。

1 让想成为数据科学家的人才明确应该掌握的技能。

2 让雇佣数据科学家的企业明确想得到的人才的技能并实现明文化,消除人才待遇不均。

3 求职者明确介绍自己的技能,同时可提前掌握所期待工作的水平。

4 中介公司对求职者和招聘内容要求的技能进行配对。

5 提供培训的教育机构和企业可以明确制定课程。

数据科学家协会公开的综合技能根据业务能力、数据科学能力和数据工程能力定义了4个阶段的技能水平,包括1)代表行业的水平(Senior Data Scientist)、2)栋梁水平(full Data Scientist)、3)能独立工作的水平(Associate Data Scientist)、4)见习水平(Assistant Data Scientist)。由于还是一个比较新的概念,为避免偏离主旨,进行了明确的定义。制作的技能检验表被日本独立行政法人情报处理推进机构(IPA)采纳为技能标准等,正在逐渐确立标准化。

◆凭借非凡的经历在行业掀起新风潮的风云人物

安宅的经历颇为有趣。其大学和研究生时代所学专业均为生物化学(分子生物学),主要进行大脑基因研究。毕业后进入美国知名咨询公司麦肯锡,做了4年半的咨询业务。然后从该公司辞职,入读美国耶鲁大学脑神经科学专业,取得博士学位后,直接以博士后的身份继续从事研究工作,后因“美国同时发生多起恐怖袭击”而回国。随后又回到麦肯锡公司工作了6年半,2008年受日本雅虎公司时任社长井上雅博的邀请进入雅虎,目前担任雅虎首席战略官(CSO),统管业务战略和数据战略。

生物学与数据科学是如何联系到一起的,针对我抛出的这个疑问,安宅回答说:“我记录和解析过每秒钟频率高达一万次的神经活动,因此要说有联系也有,要说没有其实也没有。像我这样科学、管理和数据都接触过的人比较少”。安宅在内阁府、经济产业省、JST以及日本经济团体联合会等均参与过数据科学和人工智能(AI)等的政策制定,此外还参与了很多相关项目,而且是滋贺大学数据科学教育研究咨询委员会的成员等,无论到哪里都能看到他的名字,是一位名副其实的“数据人(The Date Man)”。这可能就是有联系的证明。

安宅和人

安宅和人,拍摄于雅虎总部

◆进入“AI ready”社会

数据科学家被认为是利用大数据、物联网(IoT)和AI时不可或缺的职业,据悉其数量在日本国内严重短缺。在美国的顶级大学里,无论所学专业是什么,大部分学生毕业前都会学习数据解析相关的课程。否则据说他们甚至都无法应聘自己喜欢的企业。

安宅说:“在日本,至少要理科硕士毕业才能达到这个水平。这相当于在战场上对方拿着机关枪,而你只会空手道”。他热切地表示:“应该尽快(将数据科学)纳入中学的必修科目之一技术和家庭科等”。

基于这种想法,安宅在内阁府的人才培养会议上提出“AI ready化”。这个话题广泛涉及人才培养、信息处理基础及数据的获取和应用方式等,不过单从人才培养的角度简单来看,为了让受过高等教育的人都能利用数据科学,该建议认为应该将“理数和数据知识”作为基础教育内容。目前大数据并非在所有方面都实现了数据化,可以说正处于过渡期。据说有时获取数据需要花费1个多月的时间。即使已经实现数据化,进行数据清洗可能也需要半年以上的时间。有时甚至不清楚连接数据需要花多长时间。现在整个日本都处于这种状态,而不是“AI ready”的状态。要想改善这种状态,最好准备好能数据化的所有内容,使之能作为数据实时进行提取,而且可根据需要,轻松建立连接加以利用。安宅建议,应尽量实现以不依赖于供应商的形式建立大规模信息基础的状态。

安宅说:“日本社会和市民的数据素养过低,数据完全没得到充分利用。最好能提高大多数人的素养,在一定程度上实现AI的内部构筑。这种状态才是AI ready社会。企业出现了AI原生(Native)阶层和中高级(Middle/Senior)阶层的两极分化,到处都是“碍事者”。像我们这样的中高级阶层通过保障信誉、建立人脉和提供资金来弥补原生阶层的不足即可”,凭借这种无所顾忌的洒脱行事风格,安宅正引领着日本的数据科学领域向前发展。

◆需要具备什么知识才能成为数据科学家?

目前,来自网络和各种传感器的大量大数据与营销和咨询领域通常处理的调查类及财务类数据相比,在广度、深度、数据结构以及机器学习的基本方法和自然语言处理等基本方法方面存在本质区别,不过解析基础是相同的。因此,只要具备适当的知识,文科出身也能成为数据科学家。但如果不喜欢数字,不懂线形代数、微积分、概率统计等解析方法和数学模型的基础“语言”,并对这些完全没有好感,则无法向这个领域发展。而且,必须深入理解领域知识及相应领域特有的课题才能进行解析。另外,不能所有事都一个人做,要进行团队合作。

安宅说:“中美两国在计算机科学领域遥遥领先,其次是新加坡。先进事例及研究大部分来自英语国家和中文国家。即使只为了解当前的前沿技术,也需要具备外语能力。就连法国文学专业的学生,也要掌握形态分析和机器学习的知识再写毕业论文。从事服装商品设计和服务的人将普遍使用传感器,对来自传感器的数据进行处理然后建模。这样的时代即将到来。企业在这个时代不主动使用数据和AI的做法属于“自杀行为”。这就相当于一个人要从东京去大阪,但声称自己不乘坐新干线和飞机,而是步行前往一样”。可以肯定的是,数据科学并非像以前那样分文科理科等进行思考的领域。

文:《产学研合作月刊》编辑长 山口泰博
翻译编辑 JST 客观日本编辑部

相关阅读