Inglés | Chino simplificado
PaddleOCR tiene como objetivo crear una biblioteca de herramientas de OCR rica, líder y práctica para ayudar a los desarrolladores a entrenar mejores modelos e implementarlos.
PaddleOCR está supervisado por PMC. Los problemas y las relaciones públicas se revisarán en la medida de lo posible. Para obtener una descripción completa de la comunidad PaddlePaddle, visite comunidad.
"Lanzamiento de PaddleOCR 2.9, herramienta de análisis inteligente de imágenes de texto de código abierto oficialmente", análisis de diseño de imágenes de texto para lograr predicciones de alta precisión en tiempo real y desarrollo de procesos completos de bajo código para acelerar aplicaciones industriales. Corrección integrada de imágenes de texto, detección de área de diseño, detección de texto normal, detección de texto de sello, reconocimiento de texto, reconocimiento de formularios y otras funciones. Se pueden llamar seis líneas de producción de modelos con un solo clic, lo que reduce significativamente los costos de desarrollo. Admite múltiples métodos de implementación, como inferencia de alto rendimiento, implementación basada en servicios e implementación del lado del cliente. La transmisión en vivo a las 19:00 el 24 de octubre (jueves) le brindará un análisis en profundidad de los aspectos más destacados de la última actualización. Enlace de registro
?2024.10.1 Agregue capacidades de desarrollo de proceso completo de código bajo en el campo OCR :
Enriquecimiento del modelo con llamada con un solo clic : integre 17 modelos relacionados con análisis inteligente de imágenes de texto, OCR general, análisis de diseño general, reconocimiento de tablas generales, reconocimiento de fórmulas y reconocimiento de texto de sellos en 6 líneas de producción de modelos, a través de una llamada clave API de Python minimalista. experimente rápidamente el efecto del modelo. Además, el mismo conjunto de API también admite un total de más de 200 modelos , como clasificación de imágenes, detección de objetivos, segmentación de imágenes y predicción de series de tiempo, formando más de 20 módulos de función única para facilitar a los desarrolladores el uso de combinaciones de modelos .
? Mejorar la eficiencia y reducir el umbral : proporciona dos métodos basados en comandos unificados y una interfaz gráfica para realizar un uso, combinación y personalización de modelos simples y eficientes. Admite múltiples métodos de implementación, como inferencia de alto rendimiento, implementación basada en servicios e implementación del lado del cliente . Además, puede cambiar sin problemas entre varios hardware convencionales, como NVIDIA GPU, Kunlun Core, Ascend, Cambrian y Haiguang, al desarrollar modelos.
PaddleX, una herramienta de desarrollo de código bajo, se basa en la tecnología avanzada de PaddleOCR para admitir capacidades de desarrollo de proceso completo de código bajo en el campo de OCR:
Admite extracción de información de escena de documentos v3PP-ChatOCRv3-doc, modelo de detección de área de diseño de alta precisión basado en RT-DETR y el modelo de detección de área de diseño de alta eficiencia de PicoDet, modelo de reconocimiento de estructura de tabla de alta precisión SLANet_Plus, modelo de corrección de imagen de texto UVDoc y fórmula modelo de reconocimiento LatexOCR, modelo de clasificación de orientación de imágenes de documentos basado en PP-LCNet
?2024.7 Agregue la solución campeona del desafío del modelo de algoritmo PaddleOCR :
Pregunta 1 del concurso: Solución líder de tareas de reconocimiento de extremo a extremo de OCR: algoritmo de reconocimiento de texto de escena-SVTRv2;
Pregunta 2 del concurso: La solución líder para la tarea general de reconocimiento de tablas: algoritmo de reconocimiento de tablas-SLANet-LCNetV2.
Admite una variedad de algoritmos de vanguardia relacionados con OCR y, sobre esta base, crea modelos característicos de grado industrial PP-OCR, PP-Structure y PP-ChatOCR, y conecta todo el proceso de producción de datos, entrenamiento de modelos, compresión y despliegue de predicción.
Para obtener la documentación completa, vaya a: documentos
Libro electrónico "Aprendizaje práctico de OCR"
Este proyecto se publica bajo la licencia Apache versión 2.0.