Anthropic は最近、Claude 3.5 Sonnet モデルに PDF ファイル処理機能が追加され、公開テスト段階に入ったことを発表しました。この機能を使用すると、PDF ドキュメント内のテキスト、画像、図表を分析でき、財務報告書、法的文書、文書翻訳などの幅広いアプリケーションに適用できます。この強力な AI ツールをよりよく理解し、使用できるように、Downcodes の編集者がこの新機能の機能、使用方法、注意事項を詳しく説明します。
Claude 3.5 Sonnet の PDF 処理プロセスは 3 つのステップに分かれています。まず、システムは文書からテキストコンテンツを抽出します。次に、文書の各ページが画像に変換され、より詳細な分析が行われます。このようにして、ユーザーはテキスト情報を取得するだけでなく、PDF ファイル内の視覚情報についても洞察することができます。
Claude の PDF 機能は、特定の情報を抽出してツール入力として使用するなど、他の機能と組み合わせて使用することもできることに注意してください。アップロードするファイルは 32MB 未満、ページ数は 100 ページを超えてはいけないことに注意してください。現在、システムは暗号化またはパスワードで保護されたドキュメントをサポートしていません。
PDF ファイルの処理コストは、ドキュメントの長さとコンテンツの密度によって異なります。通常、標準トークン料金を超える追加料金なしで、ドキュメントのページごとに 1,500 ~ 3,000 トークンが消費されます。ユーザーは、Claude Chat 機能のプレビューと API アクセスを通じてこの新機能を使用できます。API リクエストでは、特定のリクエスト ヘッダー「anthropic-beta: pdfs-2024-09-25」を使用する必要があります。 Anthropic は、将来的にこの機能を Amazon Bedrock および Google Vertex AI プラットフォームに拡張する予定です。
処理を改善するために、Anthropic では、ドキュメントのテキストが明確で読みやすく、ページ レイアウトが正しいことを確認することをユーザーに推奨しています。さらに、特定のコンテンツを参照する場合、ユーザーは PDF リーダーに表示されるページ番号を使用する必要があります。 APIを使用する場合は、PDFファイルをテキストの前に配置する必要があります。ドキュメントが制限より大きい場合、Anthropic はドキュメントを小さな部分に分割することをお勧めします。最後に、同じドキュメントを複数回分析する場合、ユーザーは処理効率を向上させるためにヒント キャッシュの使用を検討することもできます。
Claude 3.5 Sonnet の PDF 処理機能は、ユーザーに文書をより効率的かつ便利に処理する方法を提供しており、将来的にはより多くの分野で広く使用されると考えています。 Anthropic の継続的な改善と最適化にも期待する価値があります。