Das Zhiyuan Research Institute startet einen Dienst, der Vincents Videomodell-Kampfbewertung umfasst: FlagEval große Modellarena

Autor：Eve Cole Aktualisierungszeit：2024-12-11 14:16:01

Das Beijing Zhiyuan Artificial Intelligence Research Institute (BAAI) hat am 4. September 2024 die große Modellarena FlagEval ins Leben gerufen. Dies ist der weltweit erste Modellkampfbewertungsdienst, der Vincents Videos einbezieht. Der Dienst ist öffentlich zugänglich und deckt rund 40 große Modelle im In- und Ausland ab. Er unterstützt die individuelle Online- oder Offline-Bewertung von vier Hauptaufgaben: Sprachfrage und -antwort, multimodales Bild- und Textverständnis, textbasierte Bilder und Text -basierte Videos und führt auf innovative Weise das subjektive Ranglisten-Bewertungssystem ein und strebt danach, die Modellleistung genauer zu bewerten. FlagEval bietet nicht nur die Bewertung einer Vielzahl voreingestellter Fragen wie einfaches Verständnis, Wissensanwendung, Codierungsfähigkeit, Argumentationsfähigkeit usw., sondern verwendet auch einen anonymen Mechanismus, um die Fairness und Objektivität des Bewertungsprozesses sicherzustellen. Benutzer können über das Web oder mobile Endgerät an der Bewertung teilnehmen und die Wertungsergebnisse und Arena-Ranglisten in Echtzeit anzeigen.

Am 4. September 2024 kündigte das Beijing Zhiyuan Artificial Intelligence Research Institute (BAAI) den Start des weltweit ersten Modellschlachtbewertungsdienstes an, einschließlich der großen Video-FlagEval-Modellarena von Vincent.

Dieser Dienst steht Benutzern offen, deckt etwa 40 große Modelle im In- und Ausland ab und unterstützt die individuelle Online- oder Offline-Bewertung von vier Hauptaufgaben, darunter Sprachfragen und -antworten, multimodales Bild- und Textverständnis, vinzentinische Bilder und vinzentinische Videos. Die Einführung der FlagEval-Großmodellarena ermöglicht nicht nur die Bewertung einer Vielzahl voreingestellter Fragen wie einfaches Verständnis, Wissensanwendung, Codierungsfähigkeit, Argumentationsfähigkeit usw., sondern führt auch erstmals ein subjektives Tendenzleiter-Bewertungssystem für mehr ein Unterschiede in der Modellleistung genau aufzeigen.

Der Dienst verwendet einen anonymen Bewertungsmechanismus, um die Fairness des Bewertungsprozesses sicherzustellen. Benutzer können über die Webseite oder das erste inländische mobile Zugangsportal an der Bewertung teilnehmen und eine effiziente Modellkampfbewertung erleben. Die Bewertungsergebnisse der großen Modellarena von FlagEval werden sofort bekannt gegeben, um eine Arenaliste zu erstellen, die die Kampffähigkeiten jedes Modells zeigt.

Das Zhiyuan Research Institute gab bekannt, dass es die vollständigen Link-Daten der Modellkampfbewertung als Open Source veröffentlichen werde, um die Entwicklung einer Ökologie zur Bewertung großer Modelle zu fördern. Der Start der groß angelegten Modellarena von FlagEval erweitert Zhiyuans technisches Layout sowie die Forschung und Entwicklung von Werkzeugen und Methoden im Bereich der Modellbewertung weiter und stellt neue Test- und Bewertungswerkzeuge für Forschung und Anwendung im Bereich der künstlichen Intelligenz bereit.

Erlebnisadresse: https://flageval.baai.ac.cn/#/home

Die Open-Source-FlagEval-Arena-Daten für große Modelle des Zhiyuan Research Institute zielen darauf ab, die gesunde Entwicklung des Ökosystems für die Bewertung großer Modelle zu fördern und den weiteren Fortschritt auf dem Gebiet der künstlichen Intelligenz nachhaltig zu unterstützen. Besuchen Sie die Erlebnisadresse, nehmen Sie an der Bewertung teil und fördern Sie gemeinsam die Entwicklung der KI-Technologie!