Mesin Pengambilan Meme
Deskripsi Proyek
Teknologi yang digunakan
- Pemrosesan Gambar
- Pembelajaran Mesin
- Pemrosesan Bahasa Alami
- Skrip Shell
Koleksi
Meme tersebut dikumpulkan dari subreddit populer menggunakan skrip scraper scrape/scraper.py
Standardisasi
- Meme yang dikumpulkan dimasukkan ke dalam folder
raw
dan skrip standard.py
dijalankan - Setiap nama file diekstraksi dan disimpan dalam file teks di sebelah nama file berbasis hex baru yang dihasilkan untuk gambar tersebut
- Gambar standar disimpan dalam folder
processed
Ekstraksi Kueri
- Kueri yang dimasukkan dibagi menjadi beberapa kata dan sinonim untuk setiap kata ditambahkan ke daftar
related queries
menggunakan perpustakaan nltk - Kami memindai database untuk mencocokkan kata dengan kata dalam
related queries
- Hal ini memperluas area pencarian dan meminimalkan skenario keluaran nol
Relevansi dengan kueri
- Meme diurutkan berdasarkan relevansinya dengan permintaan pencarian
- Hal ini dilakukan dengan memberikan skor pada setiap meme yang ada di database dan kemudian mengurutkannya berdasarkan skor
Pengenalan Karakter Optik
- OCR dilakukan menggunakan Tesseract untuk mengekstrak teks dari meme yang merupakan bagian penting dari proyek
- Teks yang diekstraksi tidak sepenuhnya akurat sehingga keluaran dari ocr dimasukkan ke pemeriksa ejaan perpustakaan
autocorrect
Python - Pemeriksa ejaan membuat konversi lebih akurat
Pengujian Cepat
Untuk menjalankan GUI dan menguji fungsinya, cukup ketik
Kumpulkan dan Jalankan
- Untuk mengumpulkan meme dari subreddits
- Skrip bash menyiapkan database yang memungkinkan Meme Engine berfungsi dengan baik
- Untuk menjalankan jenis Meme Retrieval Engine (Meme Finder).
- Masukkan kueri di bidang teks dan klik
Go
- Meme tersebut diurutkan berdasarkan relevansinya
- Meme yang dipilih dapat dijelajahi menggunakan tombol
Next
dan Previous
Tambahkan subreddit baru ke daftar
Persyaratan
- cv2 (OpenCV)
- pytesseract
- nltk
- PIL
- hashlib
- tutup
- koreksi otomatis
- pimongo
Perbaikan di Masa Depan
- Menambahkan fungsionalitas ke bilah kemajuan
- Perbaiki skala ukuran meme untuk ditampilkan di kanvas
- Menambahkan fitur untuk menyiram meme yang disimpan
- Menyimpan templat meme populer dan memeriksa kemiripan gambar serta mengaitkan kata kunci khusus
Dokumentasi
Dokumentasi MemeFinder