Código de nuestro artículo: Stellar: Evaluación sistemática de métodos personalizados de conversión de texto a imagen centrados en el ser humano
Autores: Panos Achlioptas, Alexandros Benetatos, Iordanis Fostiropoulos, Dimitris Skourtis
El código base está mantenido por Iordanis Fostiropoulos. Si tiene alguna pregunta, comuníquese.
Antes de descargar o utilizar cualquier parte del código de este repositorio, revise y reconozca los términos y condiciones establecidos tanto en los "Términos de licencia" como en los "Términos de licencia de terceros" incluidos en este repositorio. Continuar descargando y utilizando cualquier parte del código en este repositorio confirma que está de acuerdo con estos términos y condiciones.
Nota: La "Imagen de entrada" y la "Imagen adicional" que se muestran se encuentran en el conjunto de datos CELEBMaksHQ.
Este trabajo se basa en nuestro manuscrito técnico Stellar: Evaluación sistemática de métodos personalizados de conversión de texto a imagen centrados en el ser humano. Propusimos 5 métricas para evaluar modelos de texto-2-imagen de personalización centrados en el ser humano. El repositorio proporciona la implementación de 8 métricas de referencia adicionales para los métodos Texto-2-Imagen e Imagen-2-Imagen.
Hay varias métricas proporcionadas en la literatura. Denotamos con los que introduce nuestro trabajo.
Proporcionamos nuestra propia implementación de métricas existentes y remitimos al usuario a su documento para conocer los detalles técnicos de su trabajo.
Nombre | Tipo de evaluación | Nombre del código | Referencia |
---|---|---|---|
Este. | Imagen2Imagen | aesth | Enlace |
Imagen2Imagen | clip | Enlace | |
DreamSim | Imagen2Imagen | dreamsim | Enlace |
Texto2Imagen | clip | Enlace | |
HPSv1 | Texto2Imagen | hps | Enlace |
HPSv2 | Texto2Imagen | hps | Enlace |
Recompensa de imagen | Texto2Imagen | im_reward | Enlace |
Puntuación de selección | Texto2Imagen | pick | Enlace |
APS | Texto2Imagen personalizado | aps | Enlace |
ir a | Centrado en objetos | goa | Enlace |
IPS | Texto2Imagen personalizado | ips | Enlace |
Centrado en las relaciones | rfs | Enlace | |
SIS | Texto2Imagen personalizado | sis | Enlace |
pip install git+https://github.com/stellar-gen-ai/stellar-metrics.git
Queremos calcular la métrica para cada imagen individual. Como tal, puede ayudar a diagnosticar los casos de falla de un método.
$ python -m stellar_metrics --metric code_name --stellar-path ./stellar-dataset --syn-path ./model-output --save-dir ./save-dir
Opcionalmente, puede especificar --device
, --batch-size
y --clip-version
para la red troncal
NOTA: debe haber una correspondencia uno a uno entre la salida del modelo y el conjunto de datos estelares. El stellar-dataset
se utiliza para calcular algunas de las métricas, como la preservación de la identidad cuando se requiere la imagen original. Una mala configuración entre syn-path
y stellar-path
puede generar resultados incorrectos.
Calcular IPS
$ python -m stellar_metrics --metric ips --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
Calcular CLIP
$ python -m stellar_metrics --metric clip --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
$ python -m stellar_metrics.analysis --save-dir ./save-dir
Evalúe el parecido facial entre la identidad de entrada y las imágenes generadas de una manera bastante tosca pero especializada. Nuestra métrica utiliza un detector de rostros para aislar el rostro de la identidad tanto en las imágenes de entrada como en las generadas. Luego emplea un modelo de detección de rostros especializado para extraer incrustaciones de representaciones faciales de las regiones detectadas.
Evalúe qué tan bien las imágenes generadas mantienen atributos específicos de la identidad en cuestión, como la edad, el género y otros rasgos faciales invariantes (por ejemplo, pómulos altos). Aprovechando las anotaciones en las imágenes de Stellar, podemos evaluar estas características faciales binarias.
Sirve como medida para determinar el grado de sensibilidad de un modelo a diferentes imágenes del mismo individuo; promover aún más modelos en los que la identidad del sujeto se captura consistentemente bien, independientemente de las variaciones irrelevantes de la imagen de entrada (por ejemplo, condiciones de iluminación, pose del sujeto).
Para lograr este objetivo, SIS
necesita tener acceso a múltiples imágenes del sujeto humano (una condición que se cumple en el conjunto de datos de Stellar por diseño); y es nuestra única métrica de evaluación con un requisito tan exigente.
Introducimos métricas especializadas e interpretables para evaluar dos aspectos clave de la alineación entre la imagen y el mensaje; fidelidad de la representación del objeto y fidelidad de las relaciones representadas.
Evalúe el éxito de representar las interacciones deseadas entre objetos en la imagen generada. Teniendo en cuenta la dificultad de incluso los modelos especializados de generación de gráficos de escenas (SGG) para comprender las relaciones visuales, esta métrica introduce una valiosa información localizada sobre la capacidad del modelo personalizado para representar fielmente las relaciones solicitadas.