Der Herausgeber von Downcodes erfuhr, dass das Beijing Zhiyuan Artificial Intelligence Research Institute (BAAI) die weltweit erste chinesische Debattenplattform für große Modelle, FlagEval Debate, ins Leben gerufen hat! Mit der Modelldebatte als Kernstück bietet die Plattform eine neue Messmethode für die Leistungsbewertung großer Sprachmodelle mit dem Ziel, die Leistungsunterschiede verschiedener großer Modelle effektiver zu unterscheiden. Es nutzt geschickt die Debatte, eine sprachbasierte intellektuelle Aktivität, um die Fähigkeiten des Modells in den Bereichen Informationsverständnis, logisches Denken, Sprachgenerierung usw. umfassend zu untersuchen, und stellt die Wissenschaftlichkeit und Autorität der Bewertungsergebnisse durch eine Kombination aus öffentlichen Tests und Expertenbewertung sicher . Sex. Dieser Schritt stellt einen neuen Meilenstein in der Evaluierung großer Modelle dar und stellt wertvolle Referenzen und Referenzen für die Branche dar.
Das Beijing Zhiyuan Artificial Intelligence Research Institute (BAAI) hat kürzlich FlagEval Debate ins Leben gerufen, die weltweit erste chinesische Debattenplattform für große Modelle. Diese neue Plattform zielt darauf ab, eine neue Messmethode für die Fähigkeitsbewertung großer Sprachmodelle durch den Wettbewerbsmechanismus der Modelldebatte bereitzustellen. Es handelt sich um eine Erweiterung des Intelligent Source-Modellschlachtbewertungsdienstes FlagEval für die große Modellarena. Ziel ist es, die Leistungsunterschiede zwischen großen Sprachmodellen zu ermitteln.
Bei bestehenden großen Modellkämpfen gibt es einige Probleme. Beispielsweise sind die Ergebnisse von Modellkämpfen häufig unentschieden und es ist schwierig, die Unterschiede zwischen den Testinhalten auf der Grundlage der Benutzerabstimmung zu ermitteln Bei den Kampfmethoden fehlt die Interaktion zwischen den Modellen. Um diese Probleme zu lösen, hat das Intellectual Property Institute die Form einer großen Modelldebatte zur Bewertung übernommen.
Als sprachbasierte intellektuelle Aktivität kann die Debatte das logische Denken, die Sprachorganisation, die Informationsanalyse und die Verarbeitungsfähigkeiten der Teilnehmer widerspiegeln. Die Modelldebatte kann das Niveau großer Modelle in Bezug auf Informationsverständnis, Wissensintegration, logisches Denken, Sprachgenerierung und Dialogfähigkeiten demonstrieren und gleichzeitig ihre Informationsverarbeitungstiefe und Migrationsanpassungsfähigkeit in komplexen Kontexten testen.
Das Zhiyuan Research Institute hat herausgefunden, dass interaktive Schlachten wie Debatten die Lücken zwischen Modellen hervorheben und effektive Rankings von Modellen auf der Grundlage einer kleinen Anzahl von Datenproben berechnen können. Aus diesem Grund haben sie FlagEval Debate ins Leben gerufen, eine chinesische Debattenplattform für große Modelle, die auf öffentlichen Tests basiert.
Die Plattform unterstützt zwei Modelle zur Durchführung von Debatten rund um Debattenthemen. Die Debattenthemen werden von der Plattform nach dem Zufallsprinzip ausgewählt und bestehen hauptsächlich aus aktuellen Suchthemen, Bewertungsexperten und nach Top-Debattenexperten geordneten Debattenthemen. Jede Debatte kann auf der Plattform von allen Benutzern beurteilt werden, um das Benutzererlebnis zu verbessern.
Jede Modelldebatte umfasst 5 Runden der Meinungspräsentation, wobei jede Seite eine Gelegenheit hat. Um die durch die Position der positiven und negativen Quadrate verursachte Abweichung zu vermeiden, erstellen beide Modelle jeweils ein Quadrat und ein negatives Quadrat. Jedes große Modell konkurriert in mehreren Debatten mit anderen Modellen, wobei die endgültige Rangfolge der Modelle auf der Grundlage der gewonnenen Punkte berechnet wird.
Der Modell-Debattierwettbewerb wendet zwei Methoden an: öffentliche Tests und Expertenbewertung. Die Expertenjury setzt sich aus Spielern und Juroren professioneller Debattenwettbewerbe zusammen. Das öffentliche Testpublikum kann frei bewerten und abstimmen.
Das Zhiyuan Research Institute erklärte, dass es weiterhin den technischen Weg und den Anwendungswert der Modelldebatte erforschen, sich an die Prinzipien der Wissenschaft, Autorität, Fairness und Offenheit halten, das FlagEval-Bewertungssystem für große Modelle kontinuierlich verbessern und neue Erkenntnisse und Denkweisen liefern werde die große Modellbewertung Ökologie.
Offizielle Website von FlagEval Debate:
https://flageval.baai.org/#/debate
Der Start von FlagEval Debate liefert neue Ideen und Methoden für die Bewertung großer Modelle und trägt auch zur Entwicklung der Technologie großer Modelle bei. Der Herausgeber von Downcodes hofft, dass sich die Plattform in Zukunft weiter verbessert und weitere Innovationen und Durchbrüche im Bereich der Großmodelle bringt.