Mit der rasanten Entwicklung der generativen KI-Technologie ist die objektive Bewertung ihrer Leistung zu einem dringend zu lösenden Problem geworden. Insbesondere bei Vincent-Diagrammmodellen weisen herkömmliche Bewertungsmethoden Subjektivität und Einschränkungen auf, was es schwierig macht, die tatsächliche Wirkung des Modells genau wiederzugeben. Der Herausgeber von Downcodes wird Ihnen das neue, gemeinsam von der Carnegie Mellon University und Meta-Forschern ins Leben gerufene Programm zur Auswertung vinzentinischer Graphen – VQAScore – sowie einen neuen Bewertungsbenchmark – GenAI-Bench – vorstellen und erläutern, wie diese die Auswertungsstandards im Bereich der vinzentinischen Graphen verändern werden .
Herkömmliche Bewertungsmethoden stützen sich entweder auf das menschliche Auge, das zu subjektiv ist, oder sie verwenden einige einfache Indikatoren, wie z. B. CLIPScore, aber diese Indikatoren können die Details in komplexen Textaufforderungen, wie z. B. die Beziehung zwischen Objekten und logischem Denken usw., oft nicht erfassen. Dies führt zu ungenauen Auswertungsergebnissen vieler vinzentinischer Graphenmodelle und es treten sogar einige lustige Situationen auf. Die erzeugten Bilder sind eindeutig falsch, aber die Punktzahlen sind ziemlich hoch.
Um dieses Problem zu lösen, haben sich Forscher der Carnegie Mellon University und von Meta kürzlich zusammengetan, um ein neues Programm zur Auswertung vinzentinischer Graphen – VQAScore – auf den Markt zu bringen. Die Kernidee dieser Lösung besteht darin, das Vincent-Graph-Modell mithilfe des VQA-Modells (Visual Question Answering) zu bewerten.
Konkret wandelt VQAScore zunächst die Textaufforderung in eine einfache Frage um, z. B. „Ist auf diesem Bild eine Katze, die eine Maus jagt?“ und übergibt dann das generierte Bild und diese Frage an das VQA-Modell. Das VQA-Modell beurteilt anhand des Bildinhalts, ob die Antwort auf die Frage „Ja“ oder „Nein“ lautet, und VQAScore bewertet das Vincent-Diagrammmodell anhand der Wahrscheinlichkeit, mit der das VQA-Modell „Ja“ beurteilt.
Diese Methode scheint einfach, aber die Wirkung ist überraschend gut. Die Forscher verwendeten VQAScore, um acht verschiedene Vincent-Graph-Bewertungsbenchmarks zu testen. Die Ergebnisse zeigten, dass die Genauigkeit und Zuverlässigkeit von VQAScore die herkömmlichen Bewertungsmethoden weit übertraf und sogar mit denen vergleichbar war, die sehr große Modelle wie GPT-4V verwendeten.
Noch leistungsfähiger ist, dass mit VQAScore nicht nur Vincent-Bilder, sondern auch Vincent-Videos und Vincent-3D-Modelle ausgewertet werden können. Dies liegt daran, dass der Kern von VQAScore das VQA-Modell ist und das VQA-Modell selbst verschiedene Arten von visuellen Inhalten verarbeiten kann.
Um den Fortschritt auf dem Gebiet der vinzentinischen Graphen weiter voranzutreiben, haben die Forscher außerdem einen neuen Benchmark zur Bewertung vinzentinischer Graphen erstellt – GenAI-Bench. Dieser Benchmark enthält 1.600 komplexe Textaufforderungen, die verschiedene Fähigkeiten zum visuellen Denken abdecken, wie z. B. Vergleichen, Zählen, logisches Denken usw. Die Forscher sammelten außerdem mehr als 15.000 manuelle Anmerkungen, um die Wirksamkeit verschiedener Vincent-Diagrammmodelle zu bewerten.
Im Allgemeinen hat das Aufkommen von VQAScore und GenAI-Bench dem Bereich der Vincent-Graphen neue Dynamik verliehen. VQAScore bietet eine genauere und zuverlässigere Bewertungsmethode, die Forschern dabei helfen kann, die Vor- und Nachteile verschiedener Modelle besser zu bewerten. GenAI-Bench bietet einen umfassenderen und anspruchsvolleren Bewertungsbenchmark, der die Entwicklung von Vincent-Graphmodellen in eine intelligentere und humanere Richtung fördern kann.
Natürlich weist VQAScore auch einige Einschränkungen auf. Derzeit basiert VQAScore hauptsächlich auf Open-Source-VQA-Modellen, und die Leistung dieser Modelle ist nicht so gut wie bei Closed-Source-Modellen wie GPT-4V. Da sich das VQA-Modell in Zukunft weiter verbessert, wird auch die Leistung von VQAScore weiter verbessert.
Projektadresse: https://linzhiqiu.github.io/papers/vqascore/
Das Aufkommen von VQAScore und GenAI-Bench bietet eine neue Möglichkeit zur objektiven Bewertung vinzentinischer Graphenmodelle und fördert die technologische Entwicklung und Anwendungsinnovation in diesem Bereich. Es wird davon ausgegangen, dass in Zukunft immer fortschrittlichere Bewertungsmethoden entstehen werden, um die Leistung und den Anwendungswert des Vincent-Diagrammmodells weiter zu verbessern. Wir freuen uns auf weitere Fortschritte auf diesem Gebiet!