科学研究 - 早稻田大学教授河原大辅：应快速构筑生成式AI性能的日语评估指标

生成式AI（人工智能）的引擎——大规模语言模型（LLM）正在接连问世。各公司竞相宣传其开发的LLM性能卓越，然而与英语相比，日语环境下用于客观评估AI性能的测试数据仍不够完备。早稻田大学的河原大辅教授（信息学）指出：“为了提高性能，建立日语的评估机制不可或缺。”

河原大辅教授。1999年毕业于京都大学研究生院。曾任信息通信研究机构和京都大学副教授等职，2020年任早稻田大学基干理工学部教授。专业为自然语言处理和智能信息学。

——评估AI性能的方法都有哪些？

“关于文本的AI性能评估，主流方法是2018年在美国出现的‘GLUE’测试组。该测试组涵盖判断句子内容是否积极或消极，以及简单地询问文章题目和知识问题等。我的研究室也与雅虎公司合作，制作了日语版问题与回答的测试数据。”

“然而，随着生成式AI的发展，这些测试方式很快就过时了。如果用人类来比喻的话，这些测试面向小学生已经够用了，但是应试者却突然变成了大学生水平。所以新的测试方式在美国等地开始接连出现。”

“其中之一是被称为‘MT Bench’的多方面评估方法。代表题例包括摘要、编码、数学、逻辑问题、角色扮演等，其8个领域分别公开了精心设计的问题。许多问题的答案不仅限于一个。该方法已被广泛用作客观衡量英语LLM能力的指标。”

——在答案不唯一的情况下，由谁来评分？如何评分？

“若依靠人工逐个评估，既费时又费钱。目前普遍的做法是，让被视为‘最优秀LLM’的美国OpenAI公司的‘GPT-4’进行自动评分。已有研究成果表明，这样得到的结果与人工评估存在一定相关性，并且不会偏袒与GPT-4自身情况接近的答案。”

“然而，使用AI评估AI时也存在偏差问题。会出现无关文本内容，对字数较多或率先看到的答案给予高度评价——这些也是教师评分时也容易出现的问题。还有一些问题，AI仅仅通过学习公开的测试数据就能够提高正确率。”

美国谷歌公司公开了高难度的多方位测试结果

——各类企业都在开发独特的LLM并宣传其优秀之处。

“美国谷歌和OpenAI等公司公布了比较多样的评估结果。然而，在日本国内企业中，有些评估案例被认为只展示了对自家公司有利的部分。”

“事实上，日语LLM的实力还远远不够。基于‘GLUE’等初级指标进行比较时，即使在日语测试中，OpenAI公司的GPT-4依然是最优秀的，而该公司的旧模型与日本企业的某些模型水平相当。如果使用更高级的测试指标，差距想必会进一步扩大。”

“与LLM的开发热潮相比，开发者制作日语评估数据的努力并不积极。尽管制作‘精心设计的问题与答案’的数据是一项持续而昂贵的工作，但它不仅对评估有用，对于生成式AI进行附加学习时也很重要。为了提高日语LLM的性能，数据的制作是不可或缺的。”

日文：伴正春、《日经产业新闻》、2024/2/26
中文：JST客观日本编辑部

早稻田大学教授河原大辅：应快速构筑生成式AI性能的日语评估指标