IUYS (Memahami Tangkapan Layar Anda Secara Cerdas)
Tentang
Terinspirasi oleh Sam Witteveen saat demonstrasi di pertemuan grup Machine Learning Singapura. Ini lebih merupakan ide "rekayasa perangkat lunak" (jika Anda mengizinkan saya) dan juga untuk meningkatkan keterampilan saya terkait dengan pengembangan aplikasi dan hal-hal terkait GenAI
Catatan: Proyek ini dikembangkan pada chip Apple Silicon!
Keterangan
IUYS adalah alat yang memahami gambar atau tangkapan layar Anda agar Anda dapat melakukan kueri dan menemukan hasil yang relevan ala gaya "Google Penelusuran"
Alat yang digunakan
Catatan: lancedb dalam penggunaan ini adalah database yang tertanam, setelah kita mematikan perkakasnya, semua konteks akan hilang. Kami mempertahankan konteks dengan membuat file dump dan memuatnya kembali saat alat diinisialisasi lagi
- pyee (broker acara)
- Pengawas (Pengamat file)
- lancedb (toko vektor)
- mlx-vlm (Kerangka model bahasa visual)
Mengalir
Aliran Penciptaan
Daftar Yang Harus Dilakukan
Umum
- Penanganan pengecualian
- Konversikan ke alat berbasis CLI
- Izinkan untuk digunakan oleh program lain sebagai sespan eksternal
- Pengujian
- Mengubah penyimpanan nilai kunci penyimpanan
Pengamat file
-
Menerima peristiwa pembuatan file dan mengirimkannya ke pekerja Antrean - Filter acara file hanya berdasarkan gambar
- Identifikasi file berdasarkan checksumnya untuk memutuskan apakah akan melakukan operasi VLM
- Penanganan pengecualian
- Pengujian
Pekerja Antrian
-
Terima acara pembuatan file dari File Watcher-
Filter acara apa pun yang tidak terkait -
Tugaskan acara ke antrian
- Optimasi?
- Penanganan pengecualian
- Pengujian
OKU
Toko vektor
-
Menerima kesimpulan OCU ke dalam embeddings dan menyimpannya ke dalam penyimpanan vektor - Jalur pengambilan
- Pengujian