株式会社ELYZA(代表取締役:曽根岡侑也)は、Meta社の「Llama 3」をベースにした新たな日本語大規模言語モデル(LLM)「Llama-3-ELYZA-JP-70B」と「Llama-3-ELYZA-JP-8B」を開発・公開しました。70BモデルはGPT-4を超える性能を持ちます。新モデルの詳細について説明します。
ELYZAとは
株式会社ELYZAは、日本語の大規模言語モデル(LLM)の開発と社会実装を進める企業です。ELYZAは「未踏の領域で、あたりまえを創る」という理念のもと、企業との共同研究やクラウドサービスの開発を行っています。同社は、最新の技術を用いて日本語に特化したLLMを提供し、企業成長に貢献することを目指しています。
ELYZAが提供する大規模言語モデル群の総称を「ELYZA LLM for JP」と呼びます。このシリーズは、ChatGPTやGeminiのようなグローバルモデル以外の新たな選択肢として、主にセキュリティやカスタマイズ性を重視する企業、自社サービスや事業にLLMを組み込みたい企業に向けて、安全なAPIサービスや共同開発プロジェクトなどを伴い、様々な形態で提供されます。
新モデルの概要
ELYZAは最新の大規模言語モデル「ELYZA LLM for JP」シリーズとして、Meta社の「Llama 3」をベースにした以下の2つのモデルを開発・公開しました。
- Llama-3-ELYZA-JP-70B:700億パラメータを持つ高性能モデル。
- Llama-3-ELYZA-JP-8B:80億パラメータの軽量モデル。
これらのモデルは、日本語性能を大幅に向上させるための追加学習を行っており、さまざまな形態での利用が可能です。高性能モデルは高い処理能力を必要とする用途に適しており、軽量モデルはリソースの限られた環境やコストを抑えたい場合に適しており、企業のニーズに応じて最適なモデルを提供することができます。
Llama-3-ELYZA-JP-70B
「Llama-3-ELYZA-JP-70B」は、Meta社の「Llama-3-70B」をベースに追加の学習(日本語追加事前学習・指示学習)を実施して開発したモデルです。本モデルは、GPT-4やClaude 3 Sonnetなどの主要なグローバルモデルを上回る性能を持ち、日本語の性能を測定するための2つのベンチマーク(ELYZA Tasks 100とJapanese MT-Bench)で最高水準の性能を達成しています。
このモデルは、企業向けに安全なAPIサービスや共同開発プロジェクトを通じて順次提供され、チャット形式のデモサイトも用意されています。デモ版はこちらからアクセスできます。
Llama-3-ELYZA-JP-8B
「Llama-3-ELYZA-JP-8B」は、Meta社の「Llama-3-8B」をベースに事後学習(日本語追加事前学習・指示学習)を実施して開発したモデルです。このモデルは、80億パラメータの軽量モデルでありながら、日本語ベンチマークで優れた性能を示し、軽量モデルのGPT-3.5 TurboやClaude 3 Haikuなどと同等の性能を持っています。
このモデルは、LLAMA 3 COMMUNITY LICENSEに基づいて公開されており、利用規約を守れば研究や商業目的で使用することができます。高性能な軽量モデルとして、さまざまな用途で利用可能です。モデルはこちらで一般公開されています。
「ELYZA、新たな日本語LLMを開発・公開」について一言
ChatGPTやGeminiといったいわゆるグローバルモデルが圧倒的なシェアを確保しており、日本は大規模言語モデル開発の分野ではかなり出遅れています。日本語に特化したモデルを開発するELYZAがどこまで有用な存在となるのか今後試してみたいと思います。
今回の新モデルでは、大型、軽量それぞれ分けてのラインナップとなっています。用途によって、サイズ、省エネ、コストなど求められる仕様が異なってくるのであれば、少量多品種の言語モデルの市場を狙うというのも一つの戦略になってきます。