Das Team von LeCun und Xie Senin veröffentlichte das beeindruckende multimodale groß angelegte Sprachmodell Cambrian-1, eine innovative Arbeit, bei der die Vision an erster Stelle steht. Es ist nicht nur ein technologischer Durchbruch, sondern stellt auch eine neue Denkweise in der multimodalen Lernforschung dar. Sein Open-Source-Charakter bietet wertvolle Ressourcen für Forscher und Entwickler. Das Design von Cambrian-1 basiert auf fünf Kernelementen: Lernen der visuellen Darstellung, Konnektordesign, Daten zur Feinabstimmung der Anweisungen, Strategie zur Feinabstimmung der Anweisungen und Benchmark-Tests. Es schneidet bei visuellen Sprachaufgaben gut ab und ist sogar mit einigen Top-proprietären Modellen vergleichbar . Allerdings wies das Forschungsteam auch offen auf die Defizite des Modells bei den Dialogfähigkeiten hin und reagierte aktiv mit der Verbesserung der Trainingsmethoden.
In der Welt der KI haben wir gerade ein auffälliges neues Mitglied begrüßt – Cambrian-1, ein multimodales großes Sprachmodell (MLLM), das gemeinsam von Branchenriesen wie LeCun und Xie Saining entwickelt wurde. Die Entstehung dieses Modells ist nicht nur ein Technologiesprung, sondern auch eine tiefgreifende Reflexion der multimodalen Lernforschung.
Bei der Designphilosophie von Cambrian-1 steht die Vision an erster Stelle, was in der heutigen sprachzentrierten KI-Forschung besonders wertvoll ist. Es erinnert uns daran, dass Sprache nicht die einzige Möglichkeit für den Menschen ist, sich Wissen anzueignen, und dass Sinneserfahrungen wie Sehen, Hören und Tasten ebenso wichtig sind. Die Open Source von Cambrian-1 bietet eine wertvolle Ressource für alle Forscher und Entwickler, die sich für multimodales Lernen interessieren.
Die Konstruktion dieses Modells dreht sich um fünf Kernelemente: Lernen der visuellen Darstellung, Konnektordesign, Daten zur Befehlsfeinabstimmung, Strategie zur Befehlsfeinabstimmung und Benchmark-Tests. Jedes Element ist eine eingehende Untersuchung des MLLM-Designraums und spiegelt die einzigartigen Einblicke des Forschungsteams in bestehende Probleme wider.
Es ist erwähnenswert, dass die Leistung von Cambrian-1 bei visuellen Sprachaufgaben beeindruckend ist. Es übertrifft nicht nur andere Open-Source-Modelle, sondern erreicht in einigen Benchmarks sogar die besten proprietären Modelle der Branche. Hinter dieser Leistung steht das innovative Denken des Forschungsteams zur Feinabstimmung von Anweisungen und zum Steckverbinderdesign.
Der Forschungsweg von Cambrian-1 verlief jedoch nicht reibungslos. Die Forscher fanden heraus, dass selbst gut ausgebildete MLLMs möglicherweise Defizite in der Konversationsfähigkeit haben, ein Phänomen, das als „Anrufbeantworter-Phänomen“ bekannt ist. Um dieses Problem zu lösen, fügten sie dem Training Systemaufforderungen hinzu, um das Modell zu intensiveren Gesprächen zu ermutigen.
Der Erfolg von Cambrian-1 ist untrennbar mit dem starken Forschungsteam dahinter verbunden. Unter ihnen ist Shengbang Tong einer der Autoren des Papiers, und sein Beitrag kann nicht ignoriert werden. Derzeit promoviert er an der New York University unter der Leitung von Professor Yann LeCun und Professor Xie Saining. Seine Forschungsinteressen umfassen Weltmodelle, unüberwachtes/selbstüberwachtes Lernen, generative Modelle und multimodale Modelle.
Die offene Quelle von Cambrian-1 bringt frischen Wind in die KI-Community. Es stellt nicht nur ein leistungsstarkes Werkzeug für multimodales Lernen dar, sondern regt Menschen auch dazu an, intensiv über multimodale Lernforschung nachzudenken. Da sich immer mehr Forscher und Entwickler der Erforschung von Cambrian-1 anschließen, haben wir Grund zu der Annahme, dass es zu einer wichtigen Kraft bei der Förderung der Entwicklung der KI-Technologie werden wird.
Projektadresse: https://github.com/cambrian-mllm/cambrian
Papier: https://arxiv.org/abs/2406.16860
Das Aufkommen von Cambrian-1 hat dem Bereich der multimodalen KI neue Möglichkeiten eröffnet, und sein Open-Source-Charakter fördert auch eine umfassendere Zusammenarbeit und Innovation. Wir freuen uns darauf, dass Cambrian-1 seine leistungsstarken Fähigkeiten in Zukunft in weiteren Bereichen unter Beweis stellen und die weitere Weiterentwicklung der KI-Technologie vorantreiben kann.