Download Queryable - download de código-fonte Queryable

Queryable

Outro código-fonte

1.0.0

Baixar

Consultável

O código-fonte aberto do Queryable, um aplicativo iOS, aproveita o ~~CLIP da OpenAI~~ Modelo MobileCLIP da Apple para realizar pesquisas offline no álbum ‘Fotos’. Ao contrário do modelo de pesquisa baseado em categorias integrado ao aplicativo iOS Photos, Queryable permite que você use declarações em linguagem natural, como a brown dog sitting on a bench , para pesquisar seu álbum. Como está off-line, a privacidade do seu álbum não será comprometida por nenhuma empresa, incluindo a Apple ou o Google.

Blogue | Loja de aplicativos | Site | História | 故事

Como funciona?

Codifique todas as fotos do álbum usando o CLIP Image Encoder, calcule vetores de imagem e salve-os.
Para cada nova consulta de texto, calcule o vetor de texto correspondente usando o codificador de texto.
Compare a semelhança entre este vetor de texto e cada vetor de imagem.
Classifique e retorne os K resultados mais semelhantes.

O processo é o seguinte:

Para obter mais detalhes, consulte meu blog: Execute o CLIP no iPhone para pesquisar fotos.

Atualizações

[2024-09-01]: Agora suporta MobileCLIP da Apple.

Você pode baixar o TextEncoder_mobileCLIP_s2.mlmodelc e ImageEncoder_mobileCLIP_s2.mlmodelc exportados do Google Drive. Atualmente usamos o modelo s2 como modelo padrão, que equilibra eficiência e precisão.

PicQuery (Android)

A versão Android (Código) desenvolvida por @greyovo, que suporta inglês e chinês. Veja detalhes em #12.

Execute no Xcode

Baixe TextEncoder_mobileCLIP_s2.mlmodelc e ImageEncoder_mobileCLIP_s2.mlmodelc do Google Drive. Clone este repositório, coloque os modelos baixados abaixo do caminho CoreMLModels/ e execute o Xcode, deve funcionar.

Exportação de ML principal

Se quiser apenas executar Queryable, você pode pular esta etapa e usar diretamente o modelo exportado do Google Drive. Se você deseja implementar Queryable que suporte sua própria linguagem nativa ou fazer algum trabalho de quantização/aceleração de modelo, aqui estão algumas diretrizes.

O truque é separar o TextEncoder e ImageEncoder no nível da arquitetura e, em seguida, carregar os pesos do modelo individualmente. Consultável usa o ~~OpenAI ViT-B/32~~ Modelo MobileCLIP da Apple, e escrevi um notebook Jupyter para demonstrar como separar, carregar e exportar o modelo CLIP Core ML da OpenAI (se você quiser o script de exportação do MobileCLIP, verifique #issuecomment-2328024269). Os resultados de exportação do Core ML do ImageEncoder têm um certo nível de erro de precisão e podem ser necessários parâmetros de normalização mais apropriados.

Atualização (01/09/2024): O modelo padrão agora é o MobileCLIP da Apple. Modelo exportado: Google Drive
Atualização (22/09/2023): Obrigado a jxiong22 por fornecer os scripts para converter a versão HuggingFace de clip-vit-base-patch32 . Isto reduziu significativamente o erro de precisão no codificador de imagem. Para obter mais detalhes, consulte o nº 18.

Contribuições

Isenção de responsabilidade: não sou um engenheiro iOS profissional, perdoe meu pobre código Swift. Você pode se concentrar apenas no carregamento, cálculo, armazenamento e classificação do modelo.

Você pode aplicar Queryable ao seu próprio produto, mas não recomendo simplesmente modificar a aparência e listá-lo na App Store. Se você estiver interessado em otimizar certos aspectos(como #4, #5 , #6, #10, #11, ~~#12~~ ), sinta-se à vontade para enviar um PR (Pull Request).

Graças a Chris Buguet, o problema (nº 5) em que dispositivos anteriores ao iPhone 11 não funcionavam foi corrigido.
greyovo concluiu o desenvolvimento do aplicativo Android (#12): Google Play. O autor afirmou que o código será lançado no futuro.
yujinqiu desenvolveu a versão macOS chamada Searchable (não de código aberto), que suporta pesquisa em disco completo. Veja #4

Obrigado pela sua contribuição :)

Se você tiver alguma dúvida/sugestão, aqui estão alguns métodos de contato: Discord | Twitter | Reddit: r/consultável.