Anthropic API には、待望の新機能であるヒント キャッシュが導入されており、クロード モデルの効率と経済性が大幅に向上します。この機能により、開発者は API 呼び出しの間に頻繁に使用されるコンテキスト情報をキャッシュできるため、冗長な計算が削減され、コストと遅延が削減されます。会話型エージェント、コーディング アシスタント、大規模なドキュメント処理など、大量のコンテキスト情報を処理する必要があるアプリケーション シナリオの場合、ヒント キャッシュによりパフォーマンスが大幅に向上します。このアップデートは現在、Claude3.5 Sonnet および Claude3 Haiku のパブリック ベータ版として公開されており、Claude3 Opus に拡張する予定です。
Anthropic API は最近プロンプト キャッシュを開始したため、開発者は API 呼び出しの間によく使用されるコンテキスト情報をキャッシュできるようになりました。ヒント キャッシュを使用すると、顧客はクロード モデルにより多くの背景知識と出力例を提供できると同時に、長いヒントのコストを大幅に削減し、料金を最大 90% 削減し、レイテンシーを最大 85% 削減できます。
この機能は現在、Claude3.5Sonnet および Claude3Haiku のパブリック ベータ版で利用可能であり、将来的には Claude3Opus もサポートされる予定です。
プロンプト キャッシュ機能は、特に複雑な命令やドキュメントのアップロードが含まれる場合、長時間の会話のコストと待ち時間を削減するための会話プロキシなど、複数のリクエストで多数のプロンプト コンテキストを繰り返し参照する必要があるシナリオで特に役立ちます。アシスタントのオートコンプリートとコードベースの Q&A は、プロンプト内にコードベースの要約バージョンを保持することで改善できます。また、プロンプト キャッシュを使用すると、複数のラウンドで応答時間を増やすことなく、完全な長形式のコンテンツを埋め込むことができます。ツールの呼び出しと反復 プロキシ検索とツールの使用シナリオが変更され、プロンプト キャッシュによってパフォーマンスも大幅に向上します。
ヒント キャッシュの料金は、キャッシュされた入力トークンの数と使用頻度によって異なります。キャッシュへの書き込みのコストは基本入力トークン価格より 25% 高くなりますが、キャッシュされたコンテンツの使用コストは大幅に低く、基本入力トークン価格のわずか 10% です。
Notion は Anthropic API の顧客として、プロンプト キャッシュ機能を人工知能アシスタント Notion AI に統合したと報告されています。 Notion はコストを削減し、速度を向上させることで内部運用を最適化し、より高度で高速なエクスペリエンスをユーザーに提供します。
プロンプト キャッシュ機能の開始は、クロード モデルのパフォーマンスを最適化し、ユーザー コストを削減するという Anthropic の取り組みを反映しており、開発者によりコスト効率の高い AI ソリューションを提供し、さまざまなアプリケーション シナリオにおけるクロード モデルの実用性をさらに向上させます。 Notion の成功事例も、この機能の実用的な価値を証明しています。