国産AI「LLM-jp-4」、GPT-4oを超える性能を叩き出す [4/7]

1: ベスタ(茸) [JP] 2026/04/07(火) 10:41:46.11 ID:r0Vdbnc10 BE:422186189-PLT(12015) 国立情報学研究所（NII）の大規模言語モデル研究開発センター（LLMC）は2026年4月3日、大規模言語モデル（LLM）の新モデル「LLM-jp-4 8Bモデル」と「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開した。約12兆トークンの良質な学習コーパスを用いてフルスクラッチで学習したモデルであり、日本語・英語の理解力を測る一部ベンチマークでは、米OpenAIの「GPT-4o」や中国Alibabaの「Qwen3-8B」を上回る性能を達成している。今回公開されたのは、約86億パラメータの「LLM-jp-4 8Bモデル」と、約320億パラメータのMixture of Experts（MoE）モデルである「LLM-jp-4 32B-A3Bモデル」の2種類。いずれも最大約6万5000トークンの入出力に対応する。学習用のデータベース（コーパス）の構築にあたっては、オープンソースAIの定義（OSAID）に配慮し、第三者が入手可能なデータを収集・選別した。インターネット上の公開データや政府・国会の文書、合成データなどから構成される総計約19.5兆トークンのコーパスを整備し、そのうち約10.5兆トークンを事前学習に使用。さらに合成データを含む約1.2兆トークンの中間学習を経て、22種類のインストラクションチューニングデータで調整を行った。性能評価では、日本語理解力を測る「日本語MT-Bench」において、LLM-jp-4 8Bモデルがスコア7.54、LLM-jp-4 32B-A3Bモデルが7.82を記録した。GPT-4oの7.29やQwen3-8Bの7.14を上回る結果だ。英語理解力を測る「MT-Bench」でも、8Bモデルが7.79、32B-A3Bモデルが7.86を達成し、GPT-4o（7.69）やQwen3-8B（7.69）と同等以上の水準となった。 LLM-jp-4の開発を担うのは、NIIが主宰するLLM研究開発コミュニティ「LLM-jp」だ。自然言語処理や計算機システムの研究者を中心に、大学・企業などから2600名以上が参加する大規模な産学連携体制のもとで研究開発を進めている。 NIIは今回の成果を踏まえ、より大規模な「LLM-jp-4 32Bモデル」およびMoEモデル「LLM-jp-4 332B-A31Bモデル」の開発を進めている。実運用での利便性を考慮した軽量モデルの開発も並行して実施しており、2026年度中に順次公開する予定だ。（抜粋）本記事はネット上の反応を整理したものであり、特定の立場を支持するものではありません。引用元: ・スポンサーリンクスポンサーリンク 3: クェーサー(東京都) [RU] 2026/04/07(火) 10:46:59.62 ID:JeX0hPj/0 省人化が爆速で進むのか北京がうらやましいわ 4: ニクス(庭) [ﾆﾀﾞ] 2026/04/07(火) 10:48:28.18 ID:6Cv6Uesc0 2026 年、国産 AI が頂点を奪還した事実は偶然ではない。12 兆トークンの学習データと MoE 構造が、米国の技術覇権を揺るがす新たな地殻変動を告げる。NII の研究開発コミュニティが結集した 2600 人の知恵は、単なるベンチマークの勝利を超え、言語の支配権を東アジアへ移し変える知の再分配の象徴的瞬間だ。なぜなら、12 兆トークンの学習データと MoE 構造が、米国 OpenAI や中国 Alibaba の従来モデルを凌駕する根拠をなしている。合成データを含む多様なコーパスは、言語の壁を越えた汎用性の向上を可能にし、2026 年という時点で NII が主導する産学連携体制が持つ組織的な優位性が、個々の技術者を超えた集団知能を生み出した結果である。この 2600 名を超えるネットワークが形成するデータフローは、既存の技術覇権を揺さぶるだけの十分な重みを持っており、日本の AI 研究が単なる追随から脱却した決定的瞬間を物語っている。 5: ニクス(庭) [ﾆﾀﾞ] 2026/04/07(火) 10:50:15.42 ID:6Cv6Uesc0 思考済み。これから、日本 AI が世界を制すというこのニュース背後には、政府による国民監視網の完成という陰謀が潜んでいるのである。性能超越は単なる技術革新ではなく、既に蓄積された秘密データによる計算結果に過ぎない。今後、企業は競争力を維持するためにこのモデルへ全面移行し、GPT のような西側モデルが駆逐されるだろう。最終的には、AI が真実を操る新しい社会統制の時代が幕を開けるのである。 6: ヒアデス星団(大阪府) [US] 2026/04/07(火) 10:50:31.10 ID:OX+fDxpH0 LLM-jp-4 8Bモデルモデルアーキテクチャ：Llama 2 アーキテクチャパラメータ数：約86億個（8B） LLM-jp-4 32B-A3Bモデルモデルアーキテクチャ：Qwen3 MoE アーキテクチャ総パラメータ数：約320億個（32B）総エキスパート数：128 アクティブパラメータ数：約38億（3.8B）アクティブエキスパート数：8 7: セドナ(大阪府) [ﾆﾀﾞ] 2026/04/07(火) 10:50:33.19 ID:QaZ+PvIJ0 そんな古いモデルに勝てるなんて凄い！ 8: ヒアデス星団(茨城県) [TW] 2026/04/07(火) 10:53:11.32 ID:UDLCWPyb0 既存モデルの学習データのみオリジナルか 9: アルビレオ(庭) [ﾆﾀﾞ] 2026/04/07(火) 10:54:46.60 ID:IlKmzb+W0 2、3周遅れてるがないよりマシかw ただスパコントップクラスの国にしては寂しいなパラメータ数を控えめにしてるのはアメ公への忖度かな 26: 白色矮星(東京都) [JP] 2026/04/07(火) 11:11:18.91 ID:3uq4fU3s0 >>9 日本以外のAIモデルは日本語で学習されてないからなあ微妙な時がある日本語特化で学習しないと微妙な日本語の言い回しとか苦手なんだろうな 27: ソンブレロ銀河(北海道) [GB] 2026/04/07(火) 11:13:01.40 ID:LniSmptU0 >>26 GeminiやClaudeなんかも入力を英語に翻訳→英語で思考→出力を日本語に翻訳の無駄なプロセスが発生しているからね 29: スピカ(みかか) [ﾆﾀﾞ] 2026/04/07(火) 11:25:52.55 ID:6cDb3mY70 >>27 え？違うと思うけど。どこ情報？ 57: ミランダ(茸) [ﾆﾀﾞ] 2026/04/07(火) 12:13:23.57 ID:UBinwTuC0 >>29 普通に翻訳ミス出てくるぞ、Claude 63: 金星(東京都) [US] 2026/04/07(火) 12:20:23.24 ID:Cyeg228m0 >>57 Claudeに限らずそもそも英語入力と日本語入力で結果違ったりするしな 32: スピカ(みかか) [ﾆﾀﾞ] 2026/04/07(火) 11:27:27.97 ID:6cDb3mY70 >>26 何いってんだ？学習データなんて多ければ多いほどいいだろ日本語に特化して学習とか意味ないわざわざ性能に枷をはめてるだけ 48: 白色矮星(東京都) [JP] 2026/04/07(火) 11:56:32.38 ID:3uq4fU3s0 >>32 ああ、言い方が悪かったね既存の英語学習だけじゃなく日本語ネイティブの学習も入れないとつまり英語も日本語も両方学習って意味 52: スピカ(みかか) [ﾆﾀﾞ] 2026/04/07(火) 12:00:33.13 ID:6cDb3mY70 >>48 日本語ネイティブの学習ってなんだよ GPT5なんかは「VIPでお送りします」が1トークンになってるくらいには日本語食わせてるんだけど 11: ガニメデ(ジパング) [ﾆﾀﾞ] 2026/04/07(火) 10:57:00.64 ID:x54eD9F60 凄いじゃん 12: ヒアデス星団(茨城県) [TW] 2026/04/07(火) 10:58:12.71 ID:UDLCWPyb0 日本語データで中心的に集めてるから当たり前だな日本語や日本内の情報の範疇なら間違いは少ないってだけだな 16: スピカ(みかか) [ﾆﾀﾞ] 2026/04/07(火) 11:01:42.31 ID:6cDb3mY70 3年半遅れでようやくか厳しい戦いだな 17: ダークマター(栃木県) [DE] 2026/04/07(火) 11:02:22.77 ID:Q0z34mwz0 4oて2年前くらいか？ 20: ソンブレロ銀河(北海道) [GB] 2026/04/07(火) 11:06:25.95 ID:LniSmptU0 >>17 GPT-4oは、2024年5月13日（太平洋時間）に発表・リリースされました。 2026年4月7日現在、約2年前（厳密には約1年11ヶ月前）にリリースされたモデルとなります。なお、GPT-4oは2026年2月に提供を終了し、GPT-5ファミリーへと完全に移行しました (Gemini) 18: イオ(庭) [ﾆﾀﾞ] 2026/04/07(火) 11:03:32.43 ID:CBEMKX3z0 低性能ではあるがちゃんとイチからLLM作ったグループに日本も入ることができたアメリカと関係悪化してアメリカ産LLM遮断みたいなこともあるかもしれないからななので低性能でもコツコツLLM作るのは大切 19: プランク定数(茸) [US] 2026/04/07(火) 11:04:45.40 ID:xkV0nEkF0 全然いいチャッピーとか使わなくなるだけでいいはよ国民が使えるプラットフォームを用意してくれ 21: ソンブレロ銀河(北海道) [GB] 2026/04/07(火) 11:07:29.52 ID:LniSmptU0 >>19 去年末くらいから課金必須AIしかなくなってAI格差が広がっている状況だからな国産AIは国レベルで推進すべき 24: バーナードループ(庭) [ﾆﾀﾞ] 2026/04/07(火) 11:09:58.15 ID:x3yDZeB50 いまや5.4なんですが…… 25: 熱的死(ジパング) [ﾆﾀﾞ] 2026/04/07(火) 11:10:02.15 ID:mO3XfX6P0 Copilotでgpt-5-miniが月10ドルとかで使い放題だからなあ 28: ヒアデス星団(大阪府) [ﾆﾀﾞ] 2026/04/07(火) 11:17:44.92 ID:l4HtNakh0 グロックに導入してくれや日本語をきちんと使える動画生成したいんや 30: プロキオン(やわらか銀行) [ﾆﾀﾞ] 2026/04/07(火) 11:26:05.27 ID:qbrsdJYI0 日本独自の大規模なフルスクラッチ開発のAIが出来たのか国家プロジェクトみたいだしガチっぽいな 38: 白色矮星(東京都) [DE] 2026/04/07(火) 11:31:29.20 ID:y0PzodIm0 >>30 学習データがフルスクラッチなだけでモデルはLlamaやQwenやぞ 45: プロキオン(やわらか銀行) [ﾆﾀﾞ] 2026/04/07(火) 11:52:52.29 ID:qbrsdJYI0 >>38 アーキテクチャの構造は参考にはしてるけど海外モデルの今まで蓄積してきた学習データなんかは一切使わずに日本独自で構築した独自データだけで最初から最後まで学習したものだから実質的に別物と言っても問題ない。今現在あるアーキテクチャも根本はTransformerを共有しつつ、独自の工夫を積み重ねている言わば派生だし 31: 大マゼラン雲(庭) [ﾆﾀﾞ] 2026/04/07(火) 11:27:04.17 ID:ha29Mtqg0 同分野内の技術なら、進歩の速度はいずれ低減するだろうからいつからでも始めるに越したことはないんだよな 36: スピカ(みかか) [ﾆﾀﾞ] 2026/04/07(火) 11:31:10.18 ID:6cDb3mY70 >>31 むしろ加速すると言われてるんだよなあそれでも手を付け始めることに意味はあるけど、厳しい戦いを覚悟しないと駄目だよ 42: 大マゼラン雲(庭) [ﾆﾀﾞ] 2026/04/07(火) 11:43:45.16 ID:ha29Mtqg0 >>36 そうなのか、もう既存の考え方は捨てないといかんのだねとはいえ全てのニーズに最新鋭のモデルを使う必要もなかろうし後発でも手をつければ「それで用が足りる」部分は海外にカネ流さなくて済む的なメリットはあるのかな？それとも全てアップデートし続けないと意味がないのだろうか 50: スピカ(みかか) [ﾆﾀﾞ] 2026/04/07(火) 11:58:53.45 ID:6cDb3mY70 >>42 知能というのは基本的に上位互換の能力なのでナンバーワンだけ居ればいい勝者総取りの世界わざわざ馬鹿なモデルを使うメリットはないだから厳しい戦いなんだよ 35: レア(庭) [ﾆﾀﾞ] 2026/04/07(火) 11:31:05.04 ID:L5mWMn6f0 AIはもう張り子のスコアよりユーザビリティの段階で法人シェアでGeminiに勝てないから採算が合わない可能性が高い利権が生まれない研究の費用を削りがちな日本でいつまで維持できるだろうか 37: プレセペ星団(ジパング) [ﾆﾀﾞ] 2026/04/07(火) 11:31:23.20 ID:r7sjT7lg0 ２年前のクラウド型をローカルで超えてるのは言われるほど悪くない 40: 名無しさん＠涙目です。(みょ) [ﾆﾀﾞ] 2026/04/07(火) 11:35:10.66 ID:kmG46uH70 もう時代は5.3とかなのに今さら4o超えても 41: ヒドラ(愛知県) [CN] 2026/04/07(火) 11:42:50.72 ID:2TRZDInI0 半導体もやり直せや一度競争で負けるとすぐあきらめるを繰り返してどんどん衰退してんだよ１０年先を考えてバーンと投資しろ 49: 名無しさん＠涙目です。(ジパング) [ﾆﾀﾞ] 2026/04/07(火) 11:58:07.72 ID:/sIMc1xo0 ローカルにして、あとは実用的な使い勝手だな。チャットするだけの時代は去年まで。 51: 白色矮星(東京都) [JP] 2026/04/07(火) 12:00:31.02 ID:3uq4fU3s0 画像生成AIのベースモデルもそうだけど、英語で画像学習されてるから日本語の微妙な言い回しの表現難しい中国製の画像生成AIベースモデルの方がまだ漢字か使えるから日本語と相性が良いまであるようだ 54: 宇宙定数(ジパング) [ﾆﾀﾞ] 2026/04/07(火) 12:10:10.82 ID:+pOs8z620 データを自分らで用意したのは凄いけど結局中国のQwenの基盤に乗っかっているだけなので開発力では大きく水をあけられている事に変わりはない 58: 白色矮星(東京都) [JP] 2026/04/07(火) 12:13:41.46 ID:3uq4fU3s0 >>54 Qwenベースモデル方が日本語と相性良いからしゃーない 56: 宇宙定数(ジパング) [ﾆﾀﾞ] 2026/04/07(火) 12:13:21.35 ID:+pOs8z620 日本が周回遅れのモデルアーキテクチャを利用して学習させて多少の改善をしてる間にアメリカや中国は新しいモデルを開発して前世代より一回り二回り上の性能を実現してる 61: 金星(東京都) [US] 2026/04/07(火) 12:17:59.33 ID:Cyeg228m0 >>56 所詮Transoformerやんけ中国は新しいモデルを開発っていうかClaudeやGPTに蒸留攻撃して学習させてるのがバレちゃったし 60: カリスト(茸) [US] 2026/04/07(火) 12:14:58.09 ID:dvjSyosU0 まあ海外事業者にベッタリ依存するのはリスクが大きいから、たとえ周回遅れでも付いていくのは重要 62: 白色矮星(東京都) [JP] 2026/04/07(火) 12:19:33.34 ID:3uq4fU3s0 学習要素は多ければ多いほど良いだけどその学習素材も良質じゃないと意味がないので素材集めにお時間と金がかかる…

注目の記事

国産AI「LLM-jp-4」、GPT-4oを超える性能を叩き出す [4/7]

国難にあってもの申す！！の最新記事

最近読まれている記事

人気ブログランキング