日本国立信息学研究所(NII)的大规模语言模型研发中心(LLMC)开发出了两款新一代国产LLM(大语言模型):约86亿参数量的“LLM-jp-4 8B模型”(以下简称“4 8B模型”)以及约320亿参数量的MoE模型“LLM-jp-4 32B-A3B模型”(以下简称“4 32B-A3B模型”),并于4月3日以开源许可方式对外公开。
图1 基于llm-jp-eval的代表性大语言模型分项评测(供图:NII)
此次发布的模型是在该中心主导的LLM研究开发社区“LLM-jp”的活动中,通过实施从零开始的完整训练而开发出来的LLM,最大可处理约65,000个token(词元)的输入与输出。
本次研发所用的算力资源为日本产业技术综合研究所提供的AI桥接云“ABCI3.0”。此外,“4 8B模型”采用Llama2架构,“4 32B-A3B模型”采用Qwen3MoE架构。
在训练语料库方面,研究团队遵循开源AI定义(OSAID)的标准,在收集、筛选并构建了第三方亦可获取的优质训练语料库的基础上,构建了与该社区此前开发并发布的“LLM-jp-3.1”系列相比规模扩大了约6倍的训练语料。
在预训练阶段,研究团队使用了由互联网公开数据、政府及国会文件等构成的大规模预训练语料库。该语料库总计约19.5万亿词元,其中包含约7000亿词元的日语语料、约17.8万亿词元的英语语料、约8500亿词元的其他语言(中文、韩文)语料,以及约2000亿词元的程序代码语料。
研究团队通过实验优化了各子语料库在训练中的使用权重,最终使用了合计约10.5万亿词元的数据进行了预训练。
在随后的中间训练阶段,团队使用了在预训练语料库基础上添加了包含指令预训练数据(Instruction Pre-training数据)在内的由大语言模型生成的合成数据,合计1.2万亿词元的训练语料库。也就是说,前后两个阶段合计使用的训练语料总量达到约12万亿词元。
在微调阶段,研究团队使用了22种英语与日语的指令微调数据。这些训练数据除具有开源许可证的数据外,还包含该社区开发的数据(计划陆续公开)。
在对开发的模型性能评估方面,研究团队采用了社区开发的评估框架“LLM-jp-judge”,并基于GPT-5.4进行了LLM-as-a-Judge评估。
结果显示,在衡量日语理解能力的“日语MT-Bench”评测中,“4 8B模型”得分7.54,“4 32B-A3B模型”得分7.82,超越了“GPT-4o”的7.29、“gpt-oss-20b”的7.33以及“Qwen3-8B”的7.14。
在衡量英语理解能力的“MT-Bench”评测中,“4 8B模型”得分7.79,“4 32B-A3B模型”得分7.88,与“GPT-4o”的7.69、“gpt-oss-20b”的7.85以及“Qwen3-8B”的7.69相比,达到同等以上水平。
此外,研究人员依托基于该社区开发的现有日英双语语言资源构建的涵盖42项评测任务的跨维度综合评测框架LLM-jp-eval v2.1.3进行了评估。
评估结果确认,此次发布的两款模型在日语性能方面均达到了与“gpt-oss-20b”和“Qwen3-8B”同等的水平。
该中心后续将利用此次开发的两款模型,持续推进旨在确保LLM透明性与可信赖性的研究开发工作。此外,团队正持续研发更大规模的模型,并计划于本年度内陆续发布。
原文:《科学新闻》
翻译:JST客观日本编辑部

