Código para nosso artigo: Stellar: Avaliação Sistemática de Métodos de Texto para Imagem Personalizados Centrados no Ser Humano
Autores: Panos Achlioptas, Alexandros Benetatos, Iordanis Fostiropoulos, Dimitris Skourtis
A base de código é mantida por Iordanis Fostiropoulos. Para qualquer dúvida, entre em contato.
Antes de baixar ou usar qualquer parte do código deste repositório, revise e reconheça os termos e condições estabelecidos nos "Termos de Licença" e nos "Termos de Licença de Terceiros" incluídos neste repositório. Continuar a baixar e usar qualquer parte do código neste repositório confirma que você concorda com estes termos e condições.
Nota: "Imagem de entrada" e "Imagem adicional" mostradas são encontradas no conjunto de dados CELEBMaksHQ.
Este trabalho é baseado em nosso manuscrito técnico Stellar: Avaliação Sistemática de Métodos de Texto para Imagem Personalizados Centrados em Humanos. Propusemos 5 métricas para avaliar modelos de texto-2-imagem de personalização centrados no ser humano. O repositório fornece a implementação de 8 métricas de linha de base adicionais para os métodos Texto-2-Imagem e Imagem-2-Imagem.
Existem várias métricas fornecidas na literatura. Denotamos com aqueles que são introduzidos pelo nosso trabalho.
Fornecemos nossa própria implementação de métricas existentes e encaminhamos o usuário ao seu artigo para obter os detalhes técnicos de seu trabalho.
Nome | Tipo de avaliação | Nome de código | Referência |
---|---|---|---|
Este. | Imagem2Imagem | aesth | Link |
Imagem2Imagem | clip | Link | |
DreamSim | Imagem2Imagem | dreamsim | Link |
Texto2Imagem | clip | Link | |
HPSv1 | Texto2Imagem | hps | Link |
HPSv2 | Texto2Imagem | hps | Link |
Recompensa de imagem | Texto2Imagem | im_reward | Link |
EscolhaScore | Texto2Imagem | pick | Link |
APS | Texto2Image personalizado | aps | Link |
GoA | Centrado no objeto | goa | Link |
IPS | Texto2Image personalizado | ips | Link |
Centrado na relação | rfs | Link | |
SIS | Texto2Image personalizado | sis | Link |
pip install git+https://github.com/stellar-gen-ai/stellar-metrics.git
Queremos calcular a métrica para cada imagem individual. Como tal, pode ajudar a diagnosticar os casos de falha de um método.
$ python -m stellar_metrics --metric code_name --stellar-path ./stellar-dataset --syn-path ./model-output --save-dir ./save-dir
Opcionalmente, você pode especificar --device
, --batch-size
e --clip-version
para o backbone
NOTA: deve haver correspondência um-para-um entre a saída do modelo e o conjunto de dados estelar. O stellar-dataset
é usado para calcular algumas das métricas, como preservação de identidade onde a imagem original é necessária. A configuração incorreta entre syn-path
e stellar-path
pode levar a resultados incorretos.
Calcular IPS
$ python -m stellar_metrics --metric ips --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
Calcular CLIPE
$ python -m stellar_metrics --metric clip --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
$ python -m stellar_metrics.analysis --save-dir ./save-dir
Avalie a semelhança facial entre a identidade de entrada e as imagens geradas de uma forma bastante grosseira, mas especializada. Nossa métrica usa um detector facial para isolar o rosto da identidade nas imagens de entrada e geradas. Em seguida, ele emprega um modelo especializado de detecção de rosto para extrair incorporações de representação facial das regiões detectadas.
Avalie até que ponto as imagens geradas mantêm atributos específicos e refinados da identidade em questão, como idade, sexo e outras características faciais invariáveis (por exemplo, maçãs do rosto salientes). Aproveitando as anotações nas imagens Stellar, podemos avaliar essas características faciais binárias.
Serve como medida para determinar o grau de sensibilidade de um modelo a diferentes imagens do mesmo indivíduo; promover ainda mais modelos onde a identidade do sujeito é consistentemente bem capturada, independentemente das variações irrelevantes da imagem de entrada (por exemplo, condições de iluminação, pose do sujeito).
Para atingir este objetivo, SIS
necessita de acesso a múltiplas imagens do sujeito humano (uma condição satisfeita no conjunto de dados do Stellar por design); e é a nossa única métrica de avaliação com um requisito tão mais exigente.
Introduzimos métricas especializadas e interpretáveis para avaliar dois aspectos principais do alinhamento entre imagem e prompt; fidelidade da representação do objeto e fidelidade das relações representadas.
Avalie o sucesso da representação das interações de objetos prompt desejadas na imagem gerada. Considerando a dificuldade até mesmo de modelos especializados de geração de gráfico de cena (SGG) para compreender as relações visuais, esta métrica introduz uma visão localizada valiosa sobre a capacidade do modelo personalizado de representar fielmente as relações solicitadas.