科学研究 - NII开源发布新一代国产LLM：基于约12万亿词元优质语料训练

日本国立信息学研究所（NII）的大规模语言模型研发中心（LLMC）开发出了两款新一代国产LLM（大语言模型）：约86亿参数量的“LLM-jp-4 8B模型”（以下简称“4 8B模型”）以及约320亿参数量的MoE模型“LLM-jp-4 32B-A3B模型”（以下简称“4 32B-A3B模型”），并于4月3日以开源许可方式对外公开。

图1 基于llm-jp-eval的代表性大语言模型分项评测（供图：NII）

此次发布的模型是在该中心主导的LLM研究开发社区“LLM-jp”的活动中，通过实施从零开始的完整训练而开发出来的LLM，最大可处理约65,000个token（词元）的输入与输出。

本次研发所用的算力资源为日本产业技术综合研究所提供的AI桥接云“ABCI3.0”。此外，“4 8B模型”采用Llama2架构，“4 32B-A3B模型”采用Qwen3MoE架构。

在训练语料库方面，研究团队遵循开源AI定义（OSAID）的标准，在收集、筛选并构建了第三方亦可获取的优质训练语料库的基础上，构建了与该社区此前开发并发布的“LLM-jp-3.1”系列相比规模扩大了约6倍的训练语料。

在预训练阶段，研究团队使用了由互联网公开数据、政府及国会文件等构成的大规模预训练语料库。该语料库总计约19.5万亿词元，其中包含约7000亿词元的日语语料、约17.8万亿词元的英语语料、约8500亿词元的其他语言（中文、韩文）语料，以及约2000亿词元的程序代码语料。

研究团队通过实验优化了各子语料库在训练中的使用权重，最终使用了合计约10.5万亿词元的数据进行了预训练。

在随后的中间训练阶段，团队使用了在预训练语料库基础上添加了包含指令预训练数据（Instruction Pre-training数据）在内的由大语言模型生成的合成数据，合计1.2万亿词元的训练语料库。也就是说，前后两个阶段合计使用的训练语料总量达到约12万亿词元。

在微调阶段，研究团队使用了22种英语与日语的指令微调数据。这些训练数据除具有开源许可证的数据外，还包含该社区开发的数据（计划陆续公开）。

在对开发的模型性能评估方面，研究团队采用了社区开发的评估框架“LLM-jp-judge”，并基于GPT-5.4进行了LLM-as-a-Judge评估。

结果显示，在衡量日语理解能力的“日语MT-Bench”评测中，“4 8B模型”得分7.54，“4 32B-A3B模型”得分7.82，超越了“GPT-4o”的7.29、“gpt-oss-20b”的7.33以及“Qwen3-8B”的7.14。

在衡量英语理解能力的“MT-Bench”评测中，“4 8B模型”得分7.79，“4 32B-A3B模型”得分7.88，与“GPT-4o”的7.69、“gpt-oss-20b”的7.85以及“Qwen3-8B”的7.69相比，达到同等以上水平。

此外，研究人员依托基于该社区开发的现有日英双语语言资源构建的涵盖42项评测任务的跨维度综合评测框架LLM-jp-eval v2.1.3进行了评估。

评估结果确认，此次发布的两款模型在日语性能方面均达到了与“gpt-oss-20b”和“Qwen3-8B”同等的水平。

该中心后续将利用此次开发的两款模型，持续推进旨在确保LLM透明性与可信赖性的研究开发工作。此外，团队正持续研发更大规模的模型，并计划于本年度内陆续发布。

原文：《科学新闻》
翻译：JST客观日本编辑部

NII开源发布新一代国产LLM：基于约12万亿词元优质语料训练

相关阅读

金泽大学,在保持取向轴对齐的同时控制金刚石中量子比特位置,有望推动量子器件的集成化

JST与G-Search签订“科学技术文献信息提供事业新服务”实施合同，助力AI时代的新型研究模式

东京大学与NTT成功开发出光量子计算机高性能化技术

名古屋大学开发AI工具，解析生物复杂行为

国际交流

专题报道

链接集