Ein großes Muggel-Sprachmodell-Chinesisch-Testset
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
Seit der Veröffentlichung von ChatGPT rufen wir oft aus, wenn wir es verwenden: „Ah, es kann das tatsächlich beantworten!“ Gleichzeitig freuen wir uns, dass immer mehr große Modellteams und Produkte wie aus dem Boden geschossen sind.
Als frühe Investoren müssen wir häufig neu veröffentlichte Konversations-KI-Produkte ausprobieren und bewerten. Die häufigste Methode besteht darin, sie anhand einiger Eingabeaufforderungen intuitiv mit den Ausgabeergebnissen des legendären ChatGPT zu vergleichen. Dabei haben wir nach und nach einige Probleme erfasst, mit denen große Sprachmodelle derzeit nicht gut umgehen können, sowie viele interessante Eingabeaufforderungen.
Welche Eingabeaufforderungen verwenden wir also zum Testen? OpenAI hat auf seiner offiziellen Website 48 grundlegende Funktionen von ChatGPT demonstriert. Im Bereich NLP verfügt es auch über weit verbreitete Testsätze wie SuperGLUE, MMLU und Google BIG-bench. Da in großen Modellen mit zunehmender Parameter- und Datenskala neue Fähigkeiten entstehen, nehmen gleichzeitig auch die mit diesen neuen Fähigkeiten verbundenen Testsätze zu.
Durch die Praxis haben wir jedoch festgestellt, dass der aktuelle NLP-Aufgabentestsatz die folgenden Probleme aufweist:
Daher haben einige von uns VC-Muggles als starke Nutzer von Konversations-KI basierend auf ihren eigenen Bedürfnissen „Z-Bench“ zusammengefasst und eingeführt – ein Tool für nicht-technisches Personal, um Konversationsprodukte mit großem Modell (ChatGPT-ähnliche Produkte) qualitativ zu testen ). Testset.
„Z-Bench v1.0“ bietet insgesamt 300 Eingabeaufforderungen aus drei Perspektiven: grundlegende Fähigkeiten, erweiterte Fähigkeiten und vertikale Fähigkeiten. Unser Ausgangspunkt ist es, so viele Arten von NLP-Aufgaben wie möglich abzudecken. Unser Ziel ist es nicht, einen akademisch strengen und vollständigen Testsatz bereitzustellen, sondern die vorhandenen akademischen Testsätze, einige interessante Fälle, die täglich gesammelt werden, und die von der akademischen Gemeinschaft nach dem Aufkommen großer Modelle entdeckten Emergenz- und Offenbarungsfähigkeiten zu kombinieren Modell-Eignungsprüfungsset, geeignet für den Einsatz durch nicht-technische Fachkräfte. Allerdings werden wir zwangsläufig einige Szenen verpassen, oder es wird aus professioneller Sicht viele dilettantische Inhalte geben. Wir werden sie auch in Zukunft auf der Grundlage des gesammelten Feedbacks ergänzen, verbessern und zeitnah veröffentlichen.
© 2023 ZhenFund