Descarga Queryable : descarga de código fuente Queryable

Queryable

Otro código fuente

1.0.0

Descargar

consultable

El código fuente abierto de Queryable, una aplicación para iOS, aprovecha la ~~CLIP de OpenAI~~ Modelo MobileCLIP de Apple para realizar búsquedas offline en el álbum 'Fotos'. A diferencia del modelo de búsqueda basado en categorías integrado en la aplicación Fotos de iOS, Queryable le permite utilizar declaraciones en lenguaje natural, como a brown dog sitting on a bench , para buscar en su álbum. Dado que no está conectado, ninguna empresa, incluidas Apple o Google, comprometerá la privacidad de su álbum.

Blog | Tienda de aplicaciones | Sitio web | Historia | 故事

¿Cómo funciona?

Codifique todas las fotos del álbum usando CLIP Image Encoder, calcule vectores de imágenes y guárdelos.
Para cada nueva consulta de texto, calcule el vector de texto correspondiente utilizando el codificador de texto.
Compare la similitud entre este vector de texto y cada vector de imagen.
Clasifique y devuelva los K resultados más similares.

El proceso es el siguiente:

Para obtener más detalles, consulte mi blog: Ejecute CLIP en iPhone para buscar fotos.

Actualizaciones

[2024-09-01]: Ahora es compatible con MobileCLIP de Apple.

Puede descargar TextEncoder_mobileCLIP_s2.mlmodelc e ImageEncoder_mobileCLIP_s2.mlmodelc exportados desde Google Drive. Actualmente utilizamos el modelo s2 como modelo predeterminado, que equilibra eficiencia y precisión.

PicQuery(Android)

La versión de Android (Código) desarrollada por @greyovo, que admite inglés y chino. Ver detalles en el n.° 12.

Ejecutar en Xcode

Descargue TextEncoder_mobileCLIP_s2.mlmodelc e ImageEncoder_mobileCLIP_s2.mlmodelc de Google Drive. Clona este repositorio, coloca los modelos descargados debajo de CoreMLModels/ ruta y ejecuta Xcode, debería funcionar.

Exportación de aprendizaje automático principal

Si solo desea ejecutar Queryable, puede omitir este paso y usar directamente el modelo exportado desde Google Drive. Si desea implementar Queryable que sea compatible con su propio idioma nativo, o realizar algún trabajo de cuantificación/aceleración del modelo, aquí hay algunas pautas.

El truco consiste en separar TextEncoder e ImageEncoder a nivel de arquitectura y luego cargar los pesos del modelo individualmente. Consultable utiliza el ~~OpenAI ViT-B/32~~ El modelo MobileCLIP de Apple y escribí un cuaderno de Jupyter para demostrar cómo separar, cargar y exportar el modelo CLIP Core ML de OpenAI (si desea el script de exportación de MobileCLIP, consulte #issuecomment-2328024269). Los resultados de exportación del Core ML de ImageEncoder tienen un cierto nivel de error de precisión y es posible que se necesiten parámetros de normalización más apropiados.

Actualización (01/09/2024): El modelo predeterminado ahora es MobileCLIP de Apple. Modelo exportado: Google Drive
Actualización (22/09/2023): Gracias a jxiong22 por proporcionar los scripts para convertir la versión HuggingFace de clip-vit-base-patch32 . Esto ha reducido significativamente el error de precisión en el codificador de imágenes. Para obtener más detalles, consulte el n.º 18.

Contribuciones

Descargo de responsabilidad: no soy un ingeniero profesional de iOS, perdone mi pobre código Swift. Puede centrarse únicamente en la carga, el cálculo, el almacenamiento y la clasificación del modelo.

Puede aplicar Queryable a su propio producto, pero no recomiendo simplemente modificar la apariencia y publicarlo en la App Store. Si está interesado en optimizar ciertos aspectos(como el #4, #5 , #6, #10, #11, ~~#12~~ ), no dudes en enviar un PR (Pull Request).

Gracias a Chris Buguet, se solucionó el problema (n.º 5) por el cual los dispositivos inferiores al iPhone 11 no podían ejecutarse.
greyovo ha completado el desarrollo de la aplicación para Android (#12): Google Play. El autor afirmó que el código se publicará en el futuro.
yujinqiu ha desarrollado la versión de macOS denominada Searchable (no de código abierto), que admite la búsqueda en todo el disco. Ver #4

Gracias por tu aporte : )

Si tienes alguna pregunta/sugerencia, aquí tienes algunos métodos de contacto: Discord | Gorjeo | Reddit: r/Consultable.