Procesamiento del lenguaje natural: ¡de cero a héroe!
Bienvenido a la teoría y la experiencia práctica de la PNL.
En este repositorio, he cubierto casi todo lo que necesita para comenzar en el mundo de la PNL, desde Tokenizers hasta Transformer Architecuture. Cuando termine esto, tendrá una comprensión sólida de los conceptos básicos de la PNL.
El motivo de este repositorio es brindarte la intuición básica y al final sabrás cómo evolucionaron las cosas a lo largo de los años y por qué son como son.
Imagen generada por ideograma
Tabla de contenido
1. Tokenización
2. Preprocesamiento
3. Bolsa de palabras y similitudes
4. TF-IDF y búsqueda de documentos
5. Clasificación de texto ingenua de Bayes
6. Modelado de temas LDA
7. Incrustaciones de palabras
8. Redes neuronales recurrentes (RNN) y modelado del lenguaje
9. Traducción automática y atención
10. Transformadores
¿Cómo uso este repositorio?
Teniendo en cuenta la potencia computacional necesaria para ML y DL, se recomienda utilizar Google Colab o Kaggle Kernels.
Puede hacer clic en para abrir el cuaderno en Colab.
Puede hacer clic en para abrir el cuaderno en Kaggle.
Para algunas de las computadoras portátiles, se utilizan conjuntos de datos de Kaggle y algunos de ellos están en Gigabytes.
Para una carga más rápida de esos conjuntos de datos, se recomienda abrirlos en Kaggle utilizando las etiquetas correspondientes.
Abrir Kaggle Kernel no adjunta directamente el conjunto de datos requerido para la computadora portátil.
Es necesario adjuntar el conjunto de datos cuyo enlace se ha proporcionado en los respectivos cuadernos, que irá encontrando a medida que avance en los mismos.
Comience con el Cuaderno Tokenization y avance secuencialmente.
Tómese su tiempo para comprender los conceptos y el código. Está diseñado específicamente para que sea fácil de entender y pueda realizarse a su propio ritmo.
Asegúrese de tener conocimientos básicos de programación en Python antes de comenzar.
Si encuentra algún problema o tiene preguntas, no dude en abrir un problema en el repositorio de GitHub.
¡No olvides destacar el repositorio si lo encuentras útil!
Contribuyendo
Eres más que bienvenido a contribuir a este repositorio. Puede comenzar abriendo una incidencia o enviando una solicitud de extracción. Si tiene alguna pregunta, no dude en comunicarse conmigo en X
Si tiene algún recurso que cree que sería útil para otros, no dude en abrir un problema o enviar una solicitud de extracción.
Licencia
Este proyecto tiene la licencia MIT; consulte el archivo de LICENCIA para obtener más detalles.