Mecanismo de recuperação de meme
Descrição do Projeto
Tecnologias empregadas
- Processamento de imagem
- Aprendizado de máquina
- Processamento de linguagem natural
- Script de shell
Coleção
Os memes são coletados de subreddits populares usando um script scraper scrape/scraper.py
Padronização
- Os memes coletados são colocados na pasta
raw
e o script standard.py
é executado - Cada nome de arquivo é extraído e armazenado em um arquivo de texto próximo ao novo nome de arquivo hexadecimal gerado para a imagem
- As imagens padronizadas são armazenadas na pasta
processed
Extração de consulta
- A consulta inserida é dividida em palavras e os sinônimos de cada palavra são adicionados à lista de
related queries
usando a biblioteca nltk - Verificamos o banco de dados para combinar palavras com palavras em
related queries
- Isso amplia a área de pesquisa e minimiza cenários de saída zero
Relevância para consulta
- Os memes são ordenados em ordem de relevância para a consulta de pesquisa
- Isso é feito atribuindo uma pontuação a cada meme presente no banco de dados e depois classificando em ordem decrescente de pontuação.
Reconhecimento óptico de caracteres
- OCR é feito usando Tesseract para extrair texto dos memes, o que é uma parte essencial do projeto
- O texto extraído não é perfeitamente preciso, então a saída do ocr é alimentada no corretor ortográfico da biblioteca
autocorrect
Python - O corretor ortográfico torna a conversão mais precisa
Teste rápido
Para executar a GUI e testar as funcionalidades, basta digitar
Colete e corra
- Para coletar os memes dos subreddits
- O script bash prepara o banco de dados que permite que o Meme Engine funcione corretamente
- Para executar o tipo Meme Retrieval Engine (Meme Finder)
- Insira a consulta no campo de texto e clique em
Go
- Os memes são classificados com base na relevância
- Os memes selecionados podem ser navegados usando os botões
Next
e Previous
Adicione novos subreddits à lista
Requisitos
- cv2 (OpenCV)
- Pytesseract
- nltk
- PIL
- hashlib
- fechado
- correção automática
- pimongo
Melhorias Futuras
- Adicionando funcionalidade à barra de progresso
- Corrija a escala de tamanho dos memes para exibição na tela
- Adicionando recurso para liberar memes armazenados
- Armazenar modelos de memes populares e verificar semelhanças de imagens e associar palavras-chave especiais
Documentação
Documentação do MemeFinder