IUYS (Comprensión inteligente de sus capturas de pantalla)
Acerca de
Inspirado por Sam Witteveen durante su demostración en la reunión del grupo Machine Learning Singapore. Esta es una visión más de "ingeniería de software" de la idea (si me lo permiten) y también para mejorar mis habilidades relacionadas con el desarrollo de aplicaciones y asuntos relacionados con GenAI.
Nota: ¡Este proyecto está desarrollado en un chip Apple Silicon!
Descripción
IUYS es una herramienta que comprende sus imágenes o capturas de pantalla para que pueda realizar consultas y encontrar resultados relevantes al estilo "Búsqueda de Google".
Herramientas utilizadas
Nota: en este uso, lancedb es una base de datos integrada; una vez que cerramos las herramientas, pierde todo el contexto. Mantenemos el contexto creando un archivo de volcado y cargándolo nuevamente cuando la herramienta se inicializa nuevamente.
- pyee (agente de eventos)
- Perro guardián (vigilante de archivos)
- lancedb (tienda de vectores)
- mlx-vlm (marco de modelo de lenguaje visual)
Flujos
Flujo de creación
Lista de tareas pendientes
General
- Manejo de excepciones
- Convertir a herramienta basada en CLI
- Permitir que otro programa lo utilice como sidecar externo.
- Pruebas
- Cambio de almacenamiento de valores clave
Vigilante de archivos
-
Recibir eventos de creación de archivos y emitirlos al trabajador de cola - Filtrar evento de archivo solo por imágenes
- Identifique el archivo por sus sumas de verificación para decidir si realizar operaciones VLM
- Manejo de excepciones
- Pruebas
Trabajador de cola
-
Recibir eventos de creación de archivos desde File Watcher-
Filtrar cualquier evento no relacionado -
Eventos de tarea a una cola
- ¿Mejoramiento?
- Manejo de excepciones
- Pruebas
OCU
Tienda de vectores
-
Reciba inferencias de OCU en incrustaciones y guárdelas en una tienda de vectores - Tubería de recuperación
- Pruebas