Ein Forschungsteam der National University of Singapore hat ein neues Bildgenerierungs-Framework namens OminiControl entwickelt, das die Flexibilität und Effizienz der Bildgenerierung durch einen ausgeklügelten Mechanismus zur Parameterwiederverwendung erheblich verbessert. OminiControl nutzt das vorab trainierte Diffusionstransformator-Modell (DiT) in Kombination mit Bildbedingungen, um leistungsstarke Themenintegration und räumliche Ausrichtungsfunktionen zu erreichen. Selbst mit nur wenigen zusätzlichen Parametern können beeindruckende Ergebnisse erzielt werden. Es ist in der Lage, eine Vielzahl von Bildkonditionierungsaufgaben zu bewältigen, wie z. B. die subjektbasierte Generierung und räumliche Ausrichtung unter Verwendung von Informationen wie Kanten, Tiefenkarten usw., was große Vorteile bei subjektgesteuerten Bildgenerierungsaufgaben zeigt.
Im heutigen digitalen Zeitalter schreitet die Bilderzeugungstechnologie erstaunlich schnell voran. Kürzlich hat ein Forschungsteam der National University of Singapore ein neues Framework – OminiControl – vorgeschlagen, das darauf abzielt, die Flexibilität und Effizienz der Bilderzeugung zu verbessern. Dieses Framework bietet beispiellose Steuerungsmöglichkeiten durch die Kombination von Bildbedingungen und die vollständige Nutzung des bereits trainierten Diffusion Transformer (DiT)-Modells.
Einfach ausgedrückt: Solange Sie ein Materialbild bereitstellen, können Sie OminiControl verwenden, um das Thema im Materialbild in das generierte Bild zu integrieren. Beispielsweise hat der Redakteur das Materialbild auf der linken Seite hochgeladen und das Aufforderungswort „Der Chip-Mann wird neben dem Tisch in einer Arztpraxis platziert, mit einem Stethoskop auf dem Tisch“ eingegeben. Der erzeugte Effekt ist wie folgt relativ allgemein :
Der Kern von OminiControl liegt in seinem „Parameter-Wiederverwendungsmechanismus“. Dieser Mechanismus ermöglicht es dem DiT-Modell, Bildbedingungen mit weniger zusätzlichen Parametern effektiv zu verarbeiten. Das bedeutet, dass OminiControl im Vergleich zu bestehenden Methoden nur 0,1 % bis 0,1 % mehr Parameter benötigt, um leistungsstarke Funktionen zu erreichen. Darüber hinaus ist es in der Lage, mehrere Bildaufbereitungsaufgaben einheitlich zu bewältigen, wie z. B. die themenbezogene Generierung und die Anwendung räumlicher Ausrichtungsbedingungen wie Kanten, Tiefenkarten usw. Diese Flexibilität ist besonders nützlich für themengesteuerte Generierungsaufgaben.
Das Forschungsteam betonte außerdem, dass OminiControl diese Fähigkeiten durch das Training generierter Bilder erreicht, was besonders wichtig für die themengesteuerte Generierung ist. Nach umfassender Evaluierung übertrifft OminiControl bestehende UNet-Modelle und DiT-Anpassungsmodelle sowohl bei der themengesteuerten Generierung als auch bei räumlich ausgerichteten bedingten Generierungsaufgaben deutlich. Dieses Forschungsergebnis eröffnet neue Möglichkeiten im kreativen Bereich.
Um eine breitere Forschung zu unterstützen, veröffentlichte das Team außerdem einen Trainingsdatensatz namens Subjects200K, der mehr als 200.000 identitätskonsistente Bilder enthält und eine effiziente Datensynthese-Pipeline bietet. Dieser Datensatz stellt Forschern eine wertvolle Ressource zur Verfügung, die ihnen dabei hilft, die Aufgabe der Konsensgenerierung zum Thema weiter zu untersuchen.
Die Einführung von Omini verbessert nicht nur die Effizienz und Wirkung der Bilderzeugung, sondern bietet auch mehr Möglichkeiten für künstlerisches Schaffen. Da die Technologie immer weiter voranschreitet, wird die Bilderzeugung in Zukunft intelligenter und personalisierter sein.
Online-Erlebnis: https://huggingface.co/spaces/Yuanshi/OminiControl
github:https://github.com/Yuanshi9815/OminiControl
Papier: https://arxiv.org/html/2411.15098v2
Highlight:
OminiControl verwendet einen Mechanismus zur Wiederverwendung von Parametern, um die Steuerung der Bilderzeugung leistungsfähiger und effizienter zu gestalten.
Das Framework kann mehrere Bildzustandsaufgaben gleichzeitig verarbeiten, z. B. Kanten, Tiefenkarten usw., um sich an unterschiedliche kreative Anforderungen anzupassen.
Das Team veröffentlichte Subjects200K, einen Datensatz mit mehr als 200.000 Bildern, um weitere Forschung und Erkundung zu erleichtern.
Die Einführung von OminiControl markiert einen neuen Meilenstein in der Bilderzeugungstechnologie. Sein effizienter Mechanismus zur Wiederverwendung von Parametern und leistungsstarke Multitasking-Funktionen stellen Künstlern und Forschern leistungsstarke Werkzeuge zur Verfügung und kündigen außerdem das unbegrenzte Potenzial zukünftiger Bilderzeugungstechnologie an. Besuchen Sie gerne den bereitgestellten Link, um weitere Details zu erfahren und OminiControl kennenzulernen.