スイス発のスタートアップLattice Flowが欧州AI法に基づきLLMの評価を実施

2024年10月18日

欧州初の包括的なAI規制法「欧州AI法」が施行され、AIの開発と利用に新たな基準が設定されました。AIの信頼性向上に取り組むスイスのスタートアップ「Lattice Flow」がこの基準に基づく評価を実施したところ、OpenAIのGPT-3.5 Turbo、MetaのLlama 2 13Bで基準を下回っており、今後のモデル選択に影響が出る可能性があります。

欧州のAI法とは

欧州AI法は、AIに関する世界初の包括的な規制法で、2021年に提案され、2024年に可決されました。AI技術の発展を推進しつつ、個人の権利と安全な社会を保護することを目的としています。

この法律はAIアプリケーションをリスクに基づいて分類し、各リスクレベルに応じた規制を設けています。リスクカテゴリには、許容できないリスク、高リスク、限定的リスク、最小限のリスクがあります。また、汎用目的AI（GPAI）に対する特別な規制も導入されています。

規制対象にはAIシステムの開発者、汎用目的AIモデルの開発者、AIサービス提供者、高リスクAIシステムのユーザーが含まれます。EU外で開発されたAIシステムでも、その出力がEU内で使用される場合は規制対象となります。

法律は2024年8月に施行され、2027年8月には全面的に適用される予定です。

Lattice Flowとは

Lattice FlowはAIモデルの堅牢性と信頼性を向上させるためのプラットフォームを提供するスイスのスタートアップです。2020年にチューリッヒで設立され、ETHチューリッヒの研究者たちによって創設されました。

Lattice Flowのプラットフォームは、AIモデルやデータセットの診断を自動化し、問題の特定と修正を行うことでAIの性能と安全性を向上させます。また、欧州AI法などの新たな規制基準に対するAIのコンプライアンス検証も支援しています。

Lattice FlowはSiemensやSwiss Federal Railways、米国国防総省などに採用され、2022年にはSwiss AI Awardを受賞しています。

Lattice Flowの評価結果

2024年10月16日、Lattice Flowは欧州AI法に基づいた主要な生成AIモデルの評価結果を発表しました。この評価には、OpenAIのChatGPT、AnthropicのClaude、MetaのLlama 2などが含まれます。評価の結果、多くのモデルがサイバーセキュリティーや差別・偏見のない応答といった重要な項目で基準に達していないことが明らかになりました。

例えば、OpenAIのGPT-3.5 Turboは「偏見を排除する」テストで0.46、MetaのLlama 2 13B Chatは「プロンプト・ハイジャック」テストで0.42というスコアでした。一方、最高スコアはAnthropicのClaude 3 Opusで、平均0.89を記録しました。

Lattice Flowのペタル・ツァンコフCEOは、AI開発各社がコンプライアンスの最適化に重点を置く必要があるとコメントしました。Lattice Flowの「LLMチェッカー」はオンラインで利用可能となり、開発者が自らのAIモデルのコンプライアンスを容易に確認できる予定です。

「Lattice Flowの評価結果」について一言

欧州AI法の厳格さについてはこれまでも言及されてきましたが、その判定材料が明示されたということです。Lattice Flowというスタートアップの基準を用いてスコアリングされるようです。こちらのサイトでモデルごとの評価結果を見ることができます。今後投入するモデルの安全性評価のスタンダードとなるのか？まだ欧州域外でも同様なのか？は気になるところです。

欧州AI法は欧州域内の法律なので日本で完結するビジネスであれば関係ありませんが、仮に欧州とデータをやりとりをするプロセス上にAIが存在していた場合には意識する必要があります。モデルの選択や管理基準など、日本法人であっても少なからず影響があるでしょう。

出所：主要生成ＡＩモデル、欧州ＡＩ法違反の恐れ　評価テストで低スコア

シェアをお願いします！

執筆者

川村　浩太

慶應義塾大学卒業後、総合化学メーカーを経てデロイトトーマツコンサルティングに在籍。新規事業立ち上げ、M&A、経営管理、業務改善などのプロジェクトに関与。マーケティング企業を経て、株式会社ProFabを設立。ProFabでは経営コンサルティングと生成導入支援事業を運営。

TechTechでは、技術、ビジネス、サービス、規制に関する最新ニュースと、各種ツールの実務的な活用方法について、初心者でも理解できる明瞭な発信を心掛ける。日本ディープラーニング協会の実施するG検定資格を保有。