Anthropic社が、提供しているAIモデルClaudeシリーズに新たな機能を追加しました。それが「プロンプトキャッシュ」です。プロンプトキャッシュとは、頻繁に使用するプロンプトやコンテキストをキャッシュに保存し、次回以降のリクエストで再利用する手法であり、コスト削減や応答速度の向上が期待されます。
【無料配布中】「企業版AIの導入アプローチ」
ChatGPT、Copilot、ExabaseといったAI関連ツールが多くサービス提供される中で、企業におけるAI導入アプローチを俯瞰的に整理しています。どのようなタイプのツールがあり、結局何を使ったら良いのか、シンプルかつ感覚的に、かつ短時間で理解されたい方におすすめです。
Claudeによるプロンプトキャッシュの概要
Anthropic社は、AIモデル「Claude 3.5 Sonnet」および「Claude 3 Haiku」に、新機能「プロンプトキャッシュ」を追加しました。この機能は、開発者が頻繁に使用するプロンプトやコンテキストをキャッシュに保存し、次回以降のリクエストで再利用することで、コストを最大90%、応答速度を最大85%削減できるというものです。
そもそもキャッシュとは、コンピューターシステムにおいてデータや情報を一時的に保存し、再度アクセスする際に高速化を図るための技術です。ウェブブラウザやCPUのような基本的なテクノロジーから、企業システム全体に至るまで広く使われており、キャッシュはさまざまな場所で利用されています。
プロンプトキャッシュは、AIモデルに指示を出す際に頻繁に使用する情報や指示を保存し、次回以降のリクエストで再利用することで、AIの応答時間を短縮し、処理コストを削減する技術です。複雑なプロンプトや長い会話が求められるシナリオでも、高速で応答を得ることができます。
プロンプトキャッシュによる効果
本をインプットしてその内容に関してチャットする、多ショットプロンプト(より高い精度のやり取りを実現するためにプロンプトの中にユーザーが期待する問答の形式を数多く含める、マルチターン会話(ラリーの多いチャット会話)で実績が公開されており、レイテンシ(回答速度)は最大79%削減、API活用にかかるコストは最大90%削減といった効果が出ています。
そもそもAPIの価格は「入力(input)」と「output(出力)」から決まります。プロンプトキャッシュを利用する場合はこれに加えてプロンプトキャッシュの「write(書き込み)」「read(読み込み)」でも費用がかかるようですが、全体としての費用はプロンプトキャッシュなしの場合と比較して削減されるようです。
Anthropic APIのドキュメントを参照し、APIを呼び出す適切なコードを入力することで、プロンプトキャッシュを利用可能です。
「プロンプトキャッシュ」について一言
今回は開発者向けの情報です。端的にいうと、ClaudeシリーズのAPI利用料が下り、使いやすくなったということです。単純な入力、出力の処理効率を上げて価格を下げるケースが一般的ですが、キャッシュというデータ保持機能を用いる形でAPI利用全体のコスト削減に繋げている点が今回のニュースのユニークな点です。
そもそもChatGPTやGeminiを活用して自身のアプリを作ろうとした場合にはAPIを用いて技術の基盤を借りてくる必要があります。API価格の水準はどんどん下がっており、熾烈な価格競争が行われていますが、開発者サイドとしてコストを抑えることができるのでとても歓迎すべきことです。