Anthropic anunció recientemente que su modelo Claude 3.5 Sonnet ha agregado capacidades de procesamiento de archivos PDF y ahora ha entrado en la fase de prueba pública. Esta función permite a los usuarios analizar texto, imágenes, gráficos y tablas en documentos PDF y es aplicable a una amplia gama de aplicaciones, incluidos informes financieros, documentos legales y traducción de documentos. El editor de Downcodes explicará en detalle las características, el uso y las precauciones de esta nueva función para ayudarlo a comprender y utilizar mejor esta poderosa herramienta de inteligencia artificial.
El proceso de procesamiento de PDF de Claude 3.5 Sonnet se divide en tres pasos. Primero, el sistema extrae el contenido textual del documento. Luego, cada página del documento se convierte en una imagen para un análisis más profundo. De esta manera, los usuarios no sólo pueden obtener información de texto, sino también obtener información visual en archivos PDF.
Vale la pena mencionar que la funcionalidad PDF de Claude también se puede utilizar junto con otras funciones, como extraer información específica y utilizarla como entrada de herramienta. Cabe señalar que el archivo cargado debe tener menos de 32 MB y el número de páginas no debe exceder las 100 páginas. Actualmente, el sistema no admite documentos cifrados o protegidos con contraseña.
El costo de procesar archivos PDF variará según la longitud y la densidad del contenido del documento. Normalmente, se consumen entre 1500 y 3000 tokens por página de documento sin cargo adicional por encima de la tarifa estándar del token. Los usuarios pueden utilizar esta nueva función a través de la vista previa de la función Claude Chat y el acceso a la API. Se debe utilizar el encabezado de solicitud específico "anthropic-beta: pdfs-2024-09-25" en la solicitud de API. Anthropic planea expandir esta funcionalidad a las plataformas Amazon Bedrock y Google Vertex AI en el futuro.
Para mejorar el procesamiento, Anthropic recomienda a los usuarios asegurarse de que los documentos tengan un texto claro y legible y que el diseño de la página sea correcto. Además, al hacer referencia a contenido específico, los usuarios deben utilizar los números de página que se muestran en el lector de PDF. Cuando se utiliza la API, el archivo PDF debe colocarse antes del texto. Si el documento supera el límite, Anthropic recomienda dividirlo en partes más pequeñas. Finalmente, al analizar el mismo documento varias veces, los usuarios también pueden considerar utilizar el almacenamiento en caché de sugerencias para mejorar la eficiencia del procesamiento.
La función de procesamiento de PDF de Claude 3.5 Sonnet proporciona a los usuarios una forma más eficiente y conveniente de procesar documentos y creo que se utilizará ampliamente en más campos en el futuro. ¡También vale la pena esperar las continuas mejoras y optimizaciones de Anthropic!