Code für unseren Artikel: Stellar: Systematische Bewertung menschzentrierter personalisierter Text-zu-Bild-Methoden
Autoren: Panos Achlioptas, Alexandros Benetatos, Iordanis Fostiropoulos, Dimitris Skourtis
Die Codebasis wird von Iordanis Fostiropoulos gepflegt. Bei Fragen wenden Sie sich bitte an uns.
Bevor Sie einen Teil des Codes in diesem Repository herunterladen oder verwenden, lesen Sie bitte die in diesem Repository enthaltenen „Lizenzbedingungen“ und „Drittanbieter-Lizenzbedingungen“ aufgeführten Bedingungen und Konditionen durch und bestätigen Sie diese. Wenn Sie mit dem Herunterladen und Verwenden eines Teils des Codes in diesem Repository fortfahren, bestätigen Sie, dass Sie mit diesen Geschäftsbedingungen einverstanden sind.
Hinweis: Die angezeigten „Eingabebilder“ und „Zusätzlichen Bilder“ befinden sich im CELEBMaksHQ-Datensatz.
Diese Arbeit basiert auf unserem technischen Manuskript Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods. Wir haben 5 Metriken zur Bewertung menschenzentrierter Text-2-Bild-Personalisierungsmodelle vorgeschlagen. Das Repository bietet die Implementierung von 8 zusätzlichen Basismetriken für die Methoden Text-2-Bild und Bild-2-Bild.
Aus der Literatur werden mehrere Metriken bereitgestellt. Wir bezeichnen mit diejenigen, die durch unsere Arbeit eingeführt werden.
Wir stellen unsere eigene Implementierung bestehender Metriken bereit und verweisen den Benutzer für die technischen Details seiner Arbeit auf sein Papier.
Name | Bewertungstyp | Codename | Referenz |
---|---|---|---|
Aesth. | Bild2Bild | aesth | Link |
Bild2Bild | clip | Link | |
DreamSim | Bild2Bild | dreamsim | Link |
Text2Image | clip | Link | |
HPSv1 | Text2Image | hps | Link |
HPSv2 | Text2Image | hps | Link |
ImageReward | Text2Image | im_reward | Link |
PickScore | Text2Image | pick | Link |
APS | Personalisiertes Text2Image | aps | Link |
GoA | Objektzentriert | goa | Link |
IPS | Personalisiertes Text2Image | ips | Link |
Beziehungszentriert | rfs | Link | |
SIS | Personalisiertes Text2Image | sis | Link |
pip install git+https://github.com/stellar-gen-ai/stellar-metrics.git
Wir wollen die Metrik für jedes einzelne Bild berechnen. Als solches kann es dabei helfen, die Fehlerfälle einer Methode zu diagnostizieren.
$ python -m stellar_metrics --metric code_name --stellar-path ./stellar-dataset --syn-path ./model-output --save-dir ./save-dir
Optional können Sie --device
, --batch-size
und --clip-version
für den Backbone angeben
HINWEIS: Zwischen der Modellausgabe und dem Sterndatensatz muss eine Eins-zu-eins-Entsprechung bestehen. Der stellar-dataset
wird zur Berechnung einiger Metriken verwendet, beispielsweise zur Identitätserhaltung, wenn das Originalbild erforderlich ist. Eine Fehlkonfiguration zwischen syn-path
und stellar-path
kann zu falschen Ergebnissen führen.
IPS berechnen
$ python -m stellar_metrics --metric ips --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
CLIP berechnen
$ python -m stellar_metrics --metric clip --stellar-path ./tests/assets/mock_stellar_dataset --syn-path ./tests/assets/stellar_net --save-dir ./save-dir
$ python -m stellar_metrics.analysis --save-dir ./save-dir
Bewerten Sie die Gesichtsähnlichkeit zwischen der Eingabeidentität und den generierten Bildern auf eher grobe, aber spezielle Weise. Unsere Metrik verwendet einen Gesichtsdetektor, um das Gesicht der Identität sowohl in der Eingabe als auch in den generierten Bildern zu isolieren. Anschließend wird ein spezielles Gesichtserkennungsmodell verwendet, um Einbettungen der Gesichtsdarstellung aus den erkannten Regionen zu extrahieren.
Bewerten Sie, wie gut die generierten Bilder bestimmte feinkörnige Attribute der betreffenden Identität beibehalten, wie z. B. Alter, Geschlecht und andere unveränderliche Gesichtsmerkmale (z. B. hohe Wangenknochen). Mithilfe der Anmerkungen in Stellar-Bildern können wir diese binären Gesichtsmerkmale bewerten.
Dient als Maß zur Bestimmung des Ausmaßes der Empfindlichkeit eines Modells gegenüber verschiedenen Bildern desselben Individuums. Weitere Förderung von Modellen, bei denen die Identität des Motivs unabhängig von irrelevanten Variationen des Eingabebildes (z. B. Lichtverhältnisse, Pose des Motivs) durchgängig gut erfasst wird.
Um dieses Ziel zu erreichen, muss SIS
Zugriff auf mehrere Bilder des menschlichen Subjekts haben (eine Bedingung, die im Datensatz von Stellar von Natur aus erfüllt ist). und ist unsere einzige Bewertungsmetrik mit solch anspruchsvolleren Anforderungen.
Wir führen spezielle und interpretierbare Metriken ein, um zwei Schlüsselaspekte der Ausrichtung zwischen Bild und Eingabeaufforderung zu bewerten; Objektdarstellungstreue und die Treue der dargestellten Beziehungen.
Bewerten Sie den Erfolg der Darstellung der gewünschten prompten Objektinteraktionen auf dem generierten Bild. Angesichts der Schwierigkeit selbst spezialisierter Scene Graph Generation (SGG)-Modelle, visuelle Beziehungen zu verstehen, liefert diese Metrik einen wertvollen lokalen Einblick in die Fähigkeit des personalisierten Modells, die veranlassten Beziehungen getreu darzustellen.