Das Umarmungsgesicht veröffentlichte das atemberaubende leichte visuelle Sprachmodell SMOLVLM, das klein ist und auf kleinen Geräten wie Mobiltelefonen ausgeführt wird. Die Leistung überschreitet jedoch das 300-fache größere iDEFICS80B-Modell. Dieser Durchbruch stellt den Fortschritt von AI-Anwendungen in Richtung einer breiteren und kostengünstigeren Bereitstellungszeit und spart Unternehmen viel Rechenkosten und Verbesserung der Verarbeitungseffizienz. Die Entstehung von SMOLVLM bietet kleinen Unternehmen und Startups eine beispiellose Chance, komplexe Computer -Vision -Anwendungen zu geringeren Kosten zu entwickeln.
Umarmendes Gesicht hat ein bemerkenswertes KI -Modell auf den Markt gebracht - smolvlm. Dieses visuelle Sprachmodell ist klein genug, um auf kleinen Geräten wie Mobiltelefonen auszuführen, und übertrifft die Vorgänger, die Unterstützung von großen Rechenzentren erfordern.
Die GPU-Speicheranforderung des SMOLVLM-256M-Modells beträgt weniger als 1 GB, aber seine Leistung überschreitet sein Vorgänger IDEFICS80B-Modell, das 300-mal größer ist als seine Größe und markiert einen erheblichen Fortschritt bei der praktischen KI-Bereitstellung.
Laut Andres Malafiotti, einem Forschungsingenieur für maschinelles Lernen bei Hugging Face, bringt das SMOLVLM -Modell auch erhebliche Rechenkostenreduzierungen für Unternehmen, während es auf den Markt eingeführt wird. "Das zuvor veröffentlichte IDEFICS80B war das erste Open-Source-Videosprachmodell im August 2023, während der Start von SMOLVLM eine 300-fache Verringerung der Größe und der Leistungsverbesserung erreichte."
Der Start des SMOLVLM -Modells fällt mit einem kritischen Moment zusammen, in dem Unternehmen bei der Implementierung von KI -Systemen hohe Rechenkosten ausgesetzt sind. Das neue Modell enthält zwei Parameterskalen, 256 m und 500 m, sodass Bilder und visuelle Inhalte mit bisher undenkbarem Geschwindigkeit verarbeitet werden können. Die Mindestversion kann bis zu 16 Instanzen pro Sekunde verarbeiten und benötigt nur 15 GB Speicher, was sie für Unternehmen, die große Mengen an visuellen Daten verarbeiten müssen, besonders geeignet sind. Für mittelständische Unternehmen, die 1 Million Bilder pro Monat verarbeiten, bedeutet dies erhebliche jährliche Rechenkosteneinsparungen.
Darüber hinaus hat IBM auch eine Partnerschaft mit Hugging Face erreicht, um das 256 -m -Modell in seine Dokumentverarbeitungssoftware Docling zu integrieren. Obwohl IBM reichlich Computerressourcen verfügt, macht die Verwendung kleinerer Modelle die Verarbeitung von Millionen von Dateien zu geringeren Kosten effizient.
Das umarmende Face -Team reduzierte die Modellgröße erfolgreich, ohne die Leistung durch technologische Innovationen in der visuellen Verarbeitung und in den Sprachkomponenten zu verlieren. Sie ersetzten den ursprünglichen 400 -m -Parameter -visuellen Encoder durch eine 93 -m -Parameterversion und implementierten eine aggressivere Token -Komprimierungstechnologie. Diese Innovationen ermöglichen es Kleinunternehmen und Startups, komplexe Computer Vision -Produkte in kurzer Zeit zu starten, und die Infrastrukturkosten werden erheblich reduziert.
Das Trainingsdatensatz von SMOLVLM enthält 170 Millionen Schulungsbeispiele, von denen fast die Hälfte für die Verarbeitung von Dokumenten und die Bildanmerkungen verwendet wird. Diese Entwicklungen senken nicht nur die Kosten, sondern bringen auch neue Anwendungsmöglichkeiten für Unternehmen ein und erhöhen ihre Fähigkeiten bei der visuellen Suche auf ein beispielloses Niveau.
Dieser Fortschritt durch das Umarmen stellt die traditionelle Wahrnehmung der Beziehung zwischen Modellgröße und Fähigkeit in Frage. SMOLVLM beweist, dass kleine und effiziente Architekturen in Zukunft auch eine hervorragende Leistung erzielen können.
Modell: https://huggingface.co/blog/smolervlm
Punkte:
Das von dem Umarmenden Gesicht gestartete SMOLVLM -Modell kann auf Mobiltelefonen ausgeführt werden und hat eine Leistung von mehr als 300 -mal größer als das iDEFICS80B -Modell.
Das SMOLVLM -Modell hilft Unternehmen dabei, die Rechenkosten erheblich zu senken, wobei die Verarbeitungsgeschwindigkeiten von 16 Instanzen pro Sekunde.
Die technologischen Innovationen dieses Modells ermöglichen es Kleinunternehmen und Startups, komplexe Computer Vision -Produkte in kurzer Zeit auf den Markt zu bringen.
Die Entstehung von SMOLVLM zeigt, dass KI -Anwendungen populärer werden und kleine Unternehmen und einzelne Entwickler leicht leistungsstarke KI -Technologien nutzen können, um die Innovation und Entwicklung künstlicher Intelligenz in weiteren Bereichen zu fördern. Seine leichten und leistungsstarken Eigenschaften werden zweifellos unser Verständnis künstlicher Intelligenzmodelle verändern und auf einen neuen Weg für die zukünftige Entwicklungsrichtung der KI-Technologie hinweisen.