Processamento de linguagem natural: de zero a herói!
Bem-vindo à teoria e experiência prática da PNL.
Neste repositório, abordei quase tudo que você precisa para começar no mundo da PNL, desde Tokenizers até a Transformer Architecuture. Ao terminar, você terá uma compreensão sólida dos conceitos básicos da PNL.
O motivo deste repositório é fornecer a você a intuição central e, ao final, você saberá como as coisas evoluíram ao longo dos anos e por que são do jeito que são.
Imagem gerada por ideograma
Índice
1. Tokenização
2. Pré-processamento
3. Saco de palavras e semelhanças
4. TF-IDF e pesquisa de documentos
5. Classificação de texto Naive Bayes
6. Modelagem de Tópico LDA
7. Incorporações de palavras
8. Redes Neurais Recorrentes (RNNs) e Modelagem de Linguagem
9. Tradução automática e atenção
10. Transformadores
Como faço para usar este repositório?
Considerando o poder computacional necessário para ML e DL, é aconselhável usar Google Colab ou Kaggle Kernels.
Você pode clicar em para abrir o notebook no Colab.
Você pode clicar para abrir o bloco de notas no Kaggle.
Para alguns dos notebooks, são usados conjuntos de dados Kaggle, e alguns deles estão em Gigabytes.
Para um carregamento mais rápido desses conjuntos de dados, é aconselhável abri-los no Kaggle usando as tags correspondentes.
Abrir o Kaggle Kernel não anexa diretamente o conjunto de dados necessário para o notebook.
É necessário anexar o conjunto de dados cujo link foi fornecido nos respectivos cadernos, que você encontrará à medida que avança neles.
Comece com o Notebook Tokenization e avance sequencialmente.
Não tenha pressa para entender os conceitos e o código. Ele foi projetado especificamente para ser fácil de entender e ser feito no seu próprio ritmo.
Certifique-se de ter um conhecimento básico de programação Python antes de começar.
Se você encontrar algum problema ou tiver dúvidas, sinta-se à vontade para abrir um problema no repositório GitHub.
Não se esqueça de marcar o repositório com estrela se achar útil!
Contribuindo
Você é mais que bem-vindo para contribuir com este repositório. Você pode começar abrindo um problema ou enviando uma solicitação pull. Se você tiver alguma dúvida, sinta-se à vontade para entrar em contato comigo no X
Se você tiver algum recurso que considere útil para outras pessoas, sinta-se à vontade para abrir um problema ou enviar uma solicitação pull.
Licença
Este projeto está licenciado sob a licença MIT - consulte o arquivo LICENSE para obter detalhes.