Der Herausgeber von Downcodes hat erfahren, dass das Shanghai AI Lab-Team die LLaMA-Version o1 als Open Source bereitgestellt hat. Das sind aufregende Neuigkeiten! Dieses Projekt zielt darauf ab, OpenAIs o1, ein mathematisches Rätsellösungsartefakt, zu reproduzieren, und hat erhebliche Fortschritte gemacht. Das Team nutzte gekonnt fortschrittliche Technologien wie Monte-Carlo-Baumsuche und Reinforcement Learning, um im AIME2024-Benchmark-Test viele Closed-Source-Lösungen zu übertreffen und so starke technische Stärke und Open-Source-Geist unter Beweis zu stellen. Das Open-Source-Projekt enthält vorab trainierte Datensätze, Modelle und Trainingscode und stellt Entwicklern wertvolle Lernressourcen zur Verfügung.
Lange vor der Veröffentlichung der o1-Serie von OpenAI begann das Team des Shanghai AI Lab, den Einsatz der Monte-Carlo-Baumsuche zu erforschen, um die mathematischen Fähigkeiten großer Modelle zu verbessern. Nach der Veröffentlichung von o1 verbesserte das Team den Algorithmus weiter, konzentrierte sich dabei auf Probleme der Mathematischen Olympiade und entwickelte ihn als Open-Source-Version des OpenAI Strawberry Project.
Um die Leistung des LLaMA-Modells bei Problemen der Mathematischen Olympiade zu verbessern, hat das Team eine paarweise Optimierungsstrategie eingeführt, die nicht direkt die absolute Punktzahl der Antwort angibt, sondern die relativen Vorzüge der beiden Antworten vergleicht. Mit diesem Ansatz erreichten sie deutliche Verbesserungen gegenüber dem härtesten AIME2024-Benchmark. Von den 30 Testfragen beantwortete das optimierte Modell 8 Fragen richtig, während das ursprüngliche LLaMA-3.1-8B-Instruct-Modell nur 2 Fragen richtig beantwortete. Diese Leistung übertrifft andere kommerzielle Closed-Source-Lösungen außer o1-preview und o1-mini.
Ende Oktober gab das Team bekannt, dass es bei der Reproduktion von OpenAI o1 auf Basis der AlphaGo Zero-Architektur erhebliche Fortschritte gemacht hat und es dem Modell erfolgreich ermöglicht hat, erweiterte Denkfähigkeiten zu erwerben, indem es während des Lernprozesses ohne manuelle Anmerkungen mit dem Suchbaum interagiert. In weniger als einer Woche war das Projekt Open Source.
Derzeit umfasst der Open-Source-Inhalt der LLaMA-Version o1: Pre-Training-Datensätze, Pre-Training-Modelle und Trainingscode für Reinforcement Learning. Darunter enthält der Datensatz „OpenLongCoT-Pretrain“ mehr als 100.000 lange Denkkettendaten. Jedes Datenelement enthält einen vollständigen mathematischen Problembegründungsprozess, einschließlich Denkinhalt, Bewertungsergebnisse, Problembeschreibung, grafische Koordinaten, Berechnungsprozess und Schlussfolgerung Ableitung vollständiger Argumentationslinks sowie Kritik und Überprüfungsinhalte jedes Argumentationsschritts bieten Bewertung und Anleitung für den Argumentationsprozess. Nach fortgesetztem Vortraining an diesem Datensatz kann das Modell den langen Gedankenkettenprozess wie o1 lesen und ausgeben.
Obwohl das Projekt LLaMA-O1 heißt, basiert das derzeit offiziell bereitgestellte Pre-Training-Modell auf Googles Gemma2. Basierend auf dem vorab trainierten Modell können Entwickler weiterhin ein Reinforcement-Learning-Training durchführen. Der Trainingsprozess umfasst: die Verwendung einer Monte-Carlo-Baumsuche zur Generierung von Erfahrungen im Prioritäts-Erfahrungs-Wiedergabepuffer; Einige Schlüsseltechnologien werden auch im Trainingscode verwendet, darunter die Verwendung von LoRA zur effizienten Feinabstimmung von Parametern, die Verwendung des PPO-Algorithmus als Strategieoptimierungsmethode, die Implementierung des GAE-Algorithmus zur Berechnung der Vorteilsfunktion und die Verwendung der Prioritätserfahrungswiedergabe zur Verbesserung des Trainings Effizienz.
Es ist erwähnenswert, dass der LLaMA-O1-Code unter einem GitHub-Konto namens SimpleBerry veröffentlicht wurde. Das Konto hat keine spezielle Einführung und scheint relativ mysteriös zu sein. Aus anderen Berichten und offiziellen Website-Informationen im Zusammenhang mit SimpleBerry geht nur hervor, dass es sich um ein Forschungslabor handelt, es werden jedoch keine weiteren Informationen über die Forschungsrichtung offengelegt.
Neben LLaMA-O1 ist O1-Journey vom Team der Shanghai Jiao Tong University ein weiteres o1-Replikatprojekt mit öffentlichen Fortschritten. Das Team veröffentlichte Anfang Oktober seinen ersten Fortschrittsbericht und stellte das innovative Journey-Learning-Paradigma und das erste Modell vor, das Suche und Lernen erfolgreich in das mathematische Denken integriert. Das Kernentwicklungsteam von O1-Journey besteht hauptsächlich aus Junior- und Senior-Studenten der Shanghai Jiao Tong University sowie Erstsemester-Doktoranden des GAIR Laboratory (Generative Artificial Intelligence Research Laboratory) der Shanghai Jiao Tong University Dazu gehören Liu Pengfei und Yao Ban, außerordentliche Professoren der Shanghai Jiao Tong University und Sloan Award-Gewinner Li Yuanzhi usw.
Papieradresse: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
Die offene Quelle des LLaMA-Projekts Version o1 hat dem Bereich der mathematischen KI-Problemlösung neue Dynamik verliehen und Entwicklern außerdem wertvolle Lern- und Forschungsressourcen zur Verfügung gestellt. Wir freuen uns auf weitere ähnliche Open-Source-Projekte in der Zukunft, um die kontinuierliche Weiterentwicklung des Bereichs der künstlichen Intelligenz voranzutreiben!