IUYS (compreendendo de forma inteligente suas capturas de tela)
Sobre
Inspirado por Sam Witteveen durante sua demonstração no encontro do grupo Machine Learning Singapore. Esta é uma abordagem mais de "engenharia de software" da ideia (se você me permitir) e também para melhorar minhas habilidades relacionadas ao desenvolvimento de aplicativos e assuntos relacionados ao GenAI
Nota: Este projeto é desenvolvido em um chip Apple Silicon!
Descrição
IUYS é uma ferramenta que entende suas imagens ou capturas de tela para que você possa realizar consultas e encontrar os resultados relevantes no estilo "Pesquisa Google"
Ferramentas usadas
Nota: lancedb neste uso é um banco de dados incorporado, uma vez desligado o conjunto de ferramentas ele perde todo o contexto. Mantemos o contexto criando um arquivo de despejo e carregando-o de volta quando a ferramenta for inicializada novamente
- pyee (corretor de eventos)
- Watchdog (observador de arquivos)
- lancedb (loja de vetores)
- mlx-vlm (estrutura de modelo de linguagem visual)
Fluxos
Fluxo de Criação
Lista de tarefas
Em geral
- Tratamento de exceções
- Converter para ferramenta baseada em CLI
- Permitir ser usado por outro programa como sidecar externo
- Teste
- Alteração do salvamento do armazenamento de valores-chave
Observador de arquivos
-
Receber eventos de criação de arquivo e emitir para o Queue Worker - Filtrar evento de arquivo apenas por imagens
- Identifique o arquivo por suas somas de verificação para decidir se deseja executar operações VLM
- Tratamento de exceções
- Teste
Trabalhador de fila
-
Receba eventos de criação de arquivo do File Watcher-
Filtre quaisquer eventos não relacionados -
Eventos de tarefa para uma fila
- Otimização?
- Tratamento de exceções
- Teste
OCU
Loja de vetores
-
Receba inferências da OCU em embeddings e armazene-as no armazenamento de vetores - Pipeline de recuperação
- Teste