Mit der Schaffung eines völlig neuen Feldes namens „Generative KI“ hat die Forschung – ob Ihnen der Begriff gefällt oder nicht – nicht nachgelassen, insbesondere die Industrie, die den größten Boom bei der Implementierung von KI-Technologien aller Zeiten erlebt hat. Künstliche Intelligenz und unser Verständnis des menschlichen Gehirns und seiner Verbindung zur KI entwickeln sich ständig weiter und zeigen vielversprechende Anwendungen, die in naher Zukunft unsere Lebensqualität verbessern werden. Dennoch sollten wir vorsichtig sein, welche Technologie wir anwenden.
„Die Wissenschaft kann uns nicht sagen, was wir tun sollen, sondern nur, was wir tun können.“
- Jean-Paul Sartre, Sein und Nichts
Hier ist eine kuratierte Liste der neuesten Durchbrüche in den Bereichen KI und Datenwissenschaft nach Veröffentlichungsdatum mit einer klaren Videoerklärung, einem Link zu einem ausführlicheren Artikel und Code (falls zutreffend). Viel Spaß beim Lesen!
Die vollständige Referenz zu jedem Artikel ist am Ende dieses Repositorys aufgeführt. Markieren Sie dieses Repository, um auf dem Laufenden zu bleiben und für das nächste Jahr auf dem Laufenden zu bleiben! ️
Betreuer: louisfb01, auch aktiv auf YouTube und als Podcaster, wenn Sie mehr über KI sehen/hören möchten!
Abonnieren Sie meinen Newsletter – jede Woche die neuesten Updates zum Thema KI erklärt.
Fühlen Sie sich frei, mir alle interessanten Artikel, die ich möglicherweise übersehen habe, per Nachricht zu senden, um sie diesem Repository hinzuzufügen.
Markieren Sie mich auf Twitter @Whats_AI oder LinkedIn @Louis (What's AI) Bouchard, wenn Sie die Liste teilen! Und chatten Sie mit uns in unserer Learn AI Together Discord-Community!
? Wenn Sie meine Arbeit unterstützen möchten , können Sie dieses Repository sponsern oder mich auf Patreon unterstützen.
Letztes Jahr erlebten wir den Aufstand der generativen KI sowohl für Bilder als auch für Text, zuletzt mit ChatGPT. Jetzt, in der ersten Woche des Jahres 2023, haben Forscher bereits ein neues System für Audiodaten namens VALL-E entwickelt.
VALL-E ist in der Lage, die Stimme einer Person mit einer Aufnahme von nur 3 Sekunden mit höherer Ähnlichkeit und natürlicherer Sprache als je zuvor zu imitieren. ChatGPT ist in der Lage, einen menschlichen Schriftsteller zu imitieren; VALL-E macht dasselbe für die Stimme.
Wir wissen, dass KI Bilder erzeugen kann; Jetzt bearbeiten wir sie!
Dieses neue Modell namens InstructPix2Pix macht genau das; Es bearbeitet ein Bild gemäß einer textbasierten Anweisung des Benutzers. Schauen Sie sich nur diese erstaunlichen Ergebnisse an … und das kommt nicht von OpenAI oder Google mit einem unendlichen Budget.
Es handelt sich um eine aktuelle Veröffentlichung von Tim Brooks und Mitarbeitern der University of California, darunter Prof. Alexei A. Efros, eine bekannte Persönlichkeit in der Computer-Vision-Branche. Wie Sie sehen, sind die Ergebnisse einfach unglaublich.
Wir haben kürzlich über ein Modell namens VALL-E berichtet, das die Stimme einer Person imitieren kann. Lassen Sie uns mit dieser neuen KI namens MusicLM einen Schritt weiter in die kreative Richtung springen. Mit MusicLM können Sie Musik aus einer Textbeschreibung generieren.
Warten wir nicht länger und tauchen Sie direkt in die Ergebnisse ein... was Sie hören werden, wird Sie umhauen!
Runway hat ein System namens GEN-1 entwickelt, das in Sekundenschnelle ein Video aufnehmen und ihm einen völlig anderen Stil verleihen kann. Das Modell ist noch in Arbeit und weist Mängel auf, schafft aber dennoch eine ziemlich coole Stilübertragung von einer Bild- oder Textaufforderung in ein Video, was vor ein paar Jahren oder sogar Monaten noch unmöglich gewesen wäre. Noch cooler ist die Funktionsweise...
PaLM-E, die neueste Veröffentlichung von Google, wird als verkörpertes multimodales Sprachmodell bezeichnet. Was bedeutet das? Das bedeutet, dass es sich um ein Modell handelt, das verschiedene Arten von Daten verstehen kann, wie z. B. Texte und Bilder aus den erwähnten ViT- und PaLM-Modellen, und in der Lage ist, diese Erkenntnisse in Aktionen einer Roboterhand umzuwandeln!
Segmentierung – das ist in der Fotowelt so etwas wie das Detektivspiel. Mit dieser Superkraft können Sie alles und jedes in einem Bild, von Objekten bis hin zu Personen, mit pixelgenauer Präzision identifizieren. Es verändert die Spielregeln für alle Arten von Anwendungen, etwa für autonome Fahrzeuge, die wissen müssen, was um sie herum passiert, sei es ein Auto oder ein Fußgänger.
Du kennst dich mittlerweile sicherlich auch mit Aufforderungen aus. Aber haben Sie schon einmal von promptable Segmentation gehört? Es ist das neueste Kind im Block und es ist wirklich cool. Mit diesem neuen Trick im Ärmel können Sie Ihr KI-Modell dazu veranlassen, alles zu segmentieren, was Sie wollen – und ich meine alles! Dank Metas unglaublichem neuen SAM (Segment Anything Model) sind Ihren Möglichkeiten keine Grenzen gesetzt.
Wenn Sie neugierig sind, wie die schnelle Segmentierung und das SAM-Modell ihre Wirkung entfalten, sollten Sie sich mein Video nicht entgehen lassen. Darin erfahren Sie alles darüber, wie diese erstaunliche neue Technologie die Bildsegmentierung verändert. Lehnen Sie sich also zurück, entspannen Sie sich und lassen Sie sich von mir auf eine Reise in die Welt der promptable-Segmentierung mit SAM entführen. Vertrauen Sie mir, Sie werden es nicht bereuen!
Stellen Sie sich vor, atemberaubende Instagram-Bilder zu erstellen, ohne das Haus zu verlassen oder Fotos zu machen! Perfusion, das neue KI-Modell von NVIDIA, verbessert die Text-zu-Bild-Generierung mit verbesserter Kontrolle und Genauigkeit für konzeptbasierte visuelle Darstellungen.
Perfusion stellt eine erhebliche Verbesserung gegenüber bestehenden KI-Techniken dar und überwindet Einschränkungen bei der Generierung von Bildern, die dem ursprünglichen Inhalt treu bleiben. Dieses Modell kann diese „Konzepte“ in einer Vielzahl neuer Szenarien genau erstellen.
Perfusion baut auf Stable Diffusion mit zusätzlichen Mechanismen auf, um mehrere „Konzepte“ in neuen Bildern gleichzeitig zu erfassen und zu generieren. Dies führt zu einer unschlagbaren quantitativen und qualitativen Leistung und eröffnet spannende Möglichkeiten in verschiedenen Branchen.
? Perfusion ist zwar nicht perfekt, stellt aber einen bedeutenden Fortschritt für Text-zu-Bild-Modelle dar. Zu den Herausforderungen gehören die Aufrechterhaltung der Identität eines Objekts und eine gewisse Übergeneralisierung sowie der Bedarf an zeitnaher technischer Arbeit.
NVIDIAs Perfusion bereitet die Bühne für eine aufregende Zukunft KI-generierter Bilder, die auf unsere Wünsche zugeschnitten sind.
Drag Your Gan priorisiert das präzise Ziehen von Objekten gegenüber der Bilderzeugung oder Textbearbeitung. Die KI passt das gesamte Bild realistisch an und verändert die Position, Pose, Form, Ausdrücke und andere Rahmenelemente des Objekts.
?? Bearbeiten Sie die Gesichtsausdrücke von Hunden, lassen Sie sie sitzen, passen Sie menschliche Posen an oder verändern Sie Landschaften nahtlos. Drag Your Gan bietet eine innovative und interaktive Möglichkeit, mit der Bildbearbeitung zu experimentieren.
Wie funktioniert es? Drag Your Gan nutzt StyleGAN2, eine hochmoderne GAN-Architektur von NVIDIA. Durch die Arbeit im Feature-Space (latenter Code) lernt die KI durch eine Reihe von Schritten und Verlustberechnungen, wie Bilder richtig bearbeitet werden.
Auch wenn die Ergebnisse fantastisch sind, wie Sie unten sehen werden, ist es wichtig zu beachten, dass Drag Your Gan einige Einschränkungen hat, einschließlich der Möglichkeit, vorerst nur generierte Bilder zu bearbeiten. Bilder sind Teil der Distribution. Weitere Einschränkungen bestehen darin, dass die Auswahl der Punkte auf Pixelfarben und -kontrast basiert, sodass Sie nichts wirklich ziehen können. Wenn Sie einen Teil eines roten Autos nehmen und es bewegen, während es auf dem roten Auto bleibt, versteht es möglicherweise nicht, dass Sie es überhaupt bewegen.
Sie können es kaum erwarten, es auszuprobieren? Die Autoren erwähnen, dass der Code im Juni verfügbar sein soll. Schauen Sie sich das Video (oder den Artikel) an, um mehr über diesen neuen Bildbearbeitungsstil mit DragYourGan zu erfahren!
Weitere KI-Inhalte in Form von Interviews mit Experten auf diesem Gebiet finden Sie im What's AI-Podcast! Ein eingeladener KI-Experte und ich werden spezifische Themen, Teilbereiche und Rollen im Zusammenhang mit KI behandeln, um das Wissen der Menschen zu lehren und zu teilen, die hart daran gearbeitet haben, es zu sammeln.
Neuralangelo ist NVIDIAs neuester Durchbruch in der Bild-zu-3D-KI. Dieser neue Ansatz baut auf Instant NeRF auf, verbessert die Oberflächenqualität und liefert in Sekundenschnelle äußerst realistische 3D-Szenen aus einfachen Bildern.
Neuralangelo zielt darauf ab, die Einschränkungen seines Vorgängers Instant NeRF zu überwinden, wie etwa das Fehlen detaillierter Strukturen und ein etwas cartoonartiges Erscheinungsbild der KI-generierten 3D-Modelle.
Das Geheimnis hinter Neuralangelos Verbesserungen liegt in zwei wesentlichen Unterschieden: der Verwendung numerischer Gradienten zur Berechnung von Ableitungen höherer Ordnung und der Anwendung einer Grob-zu-Fein-Optimierung der Hash-Gitter zur Steuerung des Detaillierungsgrades, auf die wir im Video näher eingehen.
Dieser Optimierungsprozess führt zu einer reibungsloseren Eingabe für die 3D-Modellrekonstruktion, ermöglicht die Zusammenführung von mehr Informationen und schafft ein perfektes Gleichgewicht zwischen Konsistenz und feinkörnigen Details für ein realistisches Ergebnis.
Die Qualität der 3D-Modelle von Neuralangelo ist wirklich erstaunlich, aber die KI steht bei stark reflektierenden Szenen vor Herausforderungen. Nichtsdestotrotz sind die potenziellen praktischen Anwendungen umfangreich und aufregend!
In der Folge dieser Woche habe ich beschlossen, eine neue Forschung namens TryOnDiffusion zu untersuchen, die auf der CVPR 2023-Konferenz vorgestellt wurde. Dieser innovative Ansatz stellt einen bedeutenden Fortschritt in Bezug auf realistische virtuelle Anprobeerlebnisse dar. Durch das Training von KI-Modellen, um Eingabebilder zu verstehen, Kleidung von der Person zu unterscheiden und Informationen intelligent zu kombinieren, liefert TryOnDiffusion beeindruckende Ergebnisse, die uns dem ultimativen Ziel einer perfekten virtuellen Anprobe näher bringen.
Wenn Sie sich für die Schnittstelle zwischen KI und Mode interessieren, kommen Sie zu uns, wenn wir das Innenleben von TryOnDiffusion und seine möglichen Auswirkungen auf die Zukunft des Online-Shoppings entschlüsseln. Egal, ob Sie ein KI-Enthusiast, ein Modeliebhaber oder einfach nur neugierig auf die neuesten technologischen Fortschritte sind, das Video bietet wertvolle Einblicke in die hochmoderne Welt des virtuellen Anprobierens von Kleidung.
Wir werden in die Welt der Verbreitungsmodelle, UNets und Aufmerksamkeit eintauchen, in der all diese unglaublich leistungsstarken Mechanismen ihre Kräfte bündeln, um den Bereich Mode und Online-Handel zu unterstützen. Natürlich hat diese Arbeit ihre Grenzen, aber (wie Sie sehen werden) sind die Ergebnisse einfach umwerfend und sehr vielversprechend.
Lassen Sie uns über die KI-Modelle sprechen, die Ihr Gesicht nehmen und es in einen lustigen Cartoon verwandeln, Gesichtsattribute bearbeiten können, z. B. Ihre Haarfarbe, oder einfach Ihr Bild hochskalieren, um es HD-fähiger zu machen. Wenn Sie meine Artikel verfolgt haben, wissen Sie, dass die meisten dieser Anwendungen auf einem einzigen Modell und seinen mehreren Versionen namens StyleGAN basieren, die ich bereits mehrfach behandelt habe. StyleGAN ist eine von NVIDIA entwickelte GAN-basierte Architektur, die eine Eingabe entgegennehmen und in eine andere umwandeln kann, die einem bestimmten vorgegebenen Stil folgt, auf den sie trainiert wurde. Es ist außerdem Open Source, was bedeutet, dass jeder es nutzen und darauf aufbauen kann, und warum es in allen Forschungsarbeiten verwendet wird.
Das Problem bei StyleGAN besteht darin, dass es auf zugeschnittene und ausgerichtete Gesichter mit einer festen Bildauflösung aus den Daten beschränkt ist, auf denen es trainiert wurde. Das bedeutet, dass Sie für Bilder der realen Welt andere Ansätze benötigen, um das Gesicht zu finden, es auszuschneiden und neu auszurichten, und es muss außerdem die gleiche Bildauflösung haben. Das stellt ein großes Problem dar, da man in der Regel qualitativ hochwertige Bilder haben möchte, die Einarbeitung damit aber unglaublich langwierig wäre.
Normalerweise verwenden wir also die StyleGAN-Architektur, um den Stil unseres Bildes zu übertragen, und verwenden dann ein anderes Netzwerk, um das Bild auf eine höhere Auflösung hochzuskalieren. Obwohl dieser Ansatz gut funktioniert, ist er definitiv nicht ideal. Sie benötigen zwei Modelle anstelle von einem, wodurch mehr Verzerrungen und potenzielle Fehler entstehen, beide Modelle trainiert werden müssen und die Generalisierbarkeitsfähigkeiten eingeschränkt sind. Zu unserem Glück arbeiten einige großartige Forscher an diesem Problem mit begrenzten Eingabebildern und haben kürzlich auf der ICCV 2023 einen neuen Ansatz namens StyleGANEX veröffentlicht, der einige sehr clevere kleine Änderungen beinhaltet ...
Markieren Sie mich auf Twitter @Whats_AI oder LinkedIn @Louis (What's AI) Bouchard, wenn Sie die Liste teilen!
Wir haben die bemerkenswerten Fähigkeiten großer Sprachmodelle (LLMs) gesehen, aber es gab eine Lücke – ein fehlendes Stück in ihrem Verständnis der Welt um uns herum. Sie haben sich mit Text, Code und Bildern hervorgetan, hatten aber Mühe, sich wirklich mit unserer Realität auseinanderzusetzen. Das heißt, bis jetzt. Hier ist ein bahnbrechender Fortschritt in der KI-Landschaft: 3D-LLM.
3D-LLM ist ein neuartiges Modell, das die Lücke zwischen Sprache und dem 3D-Bereich, in dem wir leben, schließt. Obwohl es nicht die gesamte Welt abdeckt, ist es ein monumentaler Schritt beim Verständnis der entscheidenden Dimensionen und Texte, die unser Leben prägen. Wie Sie im Video entdecken werden, nimmt 3D-LLM die Welt nicht nur wahr, sondern interagiert auch mit ihr. Sie können Fragen zur Umgebung stellen, Objekte suchen oder durch Räume navigieren und Zeuge der vernünftigen Argumentation werden – eine Erinnerung an die beeindruckenden Leistungen, die wir mit ChatGPT erlebt haben.
Noch interessanter ist, dass die Autoren die Fähigkeit von ChatGPT genutzt haben, Daten mithilfe von drei verschiedenen Methoden zu sammeln, die Sie kennenlernen werden, und ein umfassendes Repository mit Aufgaben und Beispielen für jede Szene erstellt haben, die zum Trainieren des Modells verwendet wurde ...
Diese Arbeit stellt einen neuartigen Rahmen für die Orchestrierung großer Sprachmodelle vor, um kohärent zu funktionieren und gleichzeitig das Risiko von Halluzinationen zu verringern. Dieser Ansatz kombiniert die Leistungsfähigkeit von KI-Agenten mit der Klarheit standardisierter Betriebsabläufe und stellt so sicher, dass die Agenten effektiv zusammenarbeiten und an den Zielen der Benutzer ausgerichtet bleiben.
Abonnieren Sie meinen wöchentlichen Newsletter und bleiben Sie über neue Veröffentlichungen im Bereich KI für 2023 auf dem Laufenden!
Liu et al. nutzte GPT-4, um ein allgemeines Sprachvisionsmodell namens LLaVA zu erstellen, das erste allgemeine Modell, das visuelle und sprachbasierte Anweisungen versteht und befolgt. Ja, sie haben GPT-4 nicht als Basismodell verwendet, sondern zum Trainieren ihres Modells! Wie wir im Video sehen werden, wurde GPT-4 verwendet, um einen großen und qualitativ hochwertigen Datensatz zu generieren, um ein neues Modell zu trainieren, das Bilder versteht. Oh, und natürlich versteht es nicht nur Bilder, sondern auch Texte (da ist die Multimodalität), was bedeutet, dass es eine Vielzahl von Fragen dazu beantworten kann! Erfahren Sie mehr im vollständigen Artikel oder im Video...
Wir haben so viele neue Ansätze zur Textgenerierung gesehen, die dann immer besser werden. Dann haben wir weitere erstaunliche erste Arbeiten zur Generierung von Videos und sogar 3D-Modellen aus Text gesehen. Stellen Sie sich die Komplexität einer solchen Aufgabe vor, wenn Sie nur einen Satz haben und etwas generieren müssen, das mit all seinen Details wie ein Objekt in der realen Welt aussehen könnte. Nun, hier ist ein neuer Schritt, der nicht nur ein erster Schritt ist; Es ist ein großer Fortschritt in der 3D-Modellgenerierung aus reinem Text: MVDream!
Distil-Whisper ist ein Audiotranskriptionsmodell, das sechsmal schneller als das ursprüngliche Whisper-Modell ist, 49 % kleiner ist und 99 % der Genauigkeit beibehält. Und das Beste daran ist, dass es vollständig Open Source ist und Sie es sofort verwenden können.
In diesem Video befassen wir uns mit Stable Video Diffusion (SVD) und untersuchen, wie diese innovative Technologie von Stability AI die KI-gesteuerte Videoerstellung revolutioniert. Verstehen Sie die Grundprinzipien von Diffusionsmodellen und ihre Anwendungen in der Text-zu-Video- und Multi-View-Synthese, ideal für KI- und digitale Medienbegeisterte, die die Zukunft der Videogenerierung begreifen möchten.
Wenn Sie mehr Artikel lesen und einen umfassenderen Überblick haben möchten, finden Sie hier ein weiteres großartiges Repository zum Thema 2022: 2022: Ein Jahr voller erstaunlicher KI-Artikel – Ein Rückblick. Abonnieren Sie auch meinen wöchentlichen Newsletter, um auf dem Laufenden zu bleiben -Termin mit Neuerscheinungen im Bereich KI für 2023!
Markieren Sie mich auf Twitter @Whats_AI oder LinkedIn @Louis (What's AI) Bouchard, wenn Sie die Liste teilen!
[1] Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J. und He, L., 2023. Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers, https://arxiv.org/abs/2301.02111
[2] Brooks et al., 2022: InstructPix2Pix, https://arxiv.org/abs/2211.09800
[3] Agostinelli et al., 2023: MusicLM, https://arxiv.org/abs/2301.11325
[4] Esser, P., Chiu, J., Atighehchian, P., Granskog, J. und Germanidis, A., 2023. Struktur- und inhaltsgesteuerte Videosynthese mit Diffusionsmodellen, https://arxiv.org/abs /2302.03011
[5] Driess, D., Xia, F., Sajjadi, MS, Lynch, C., Chowdhery, A., Ichter, B., Wahid, A., Tompson, J., Vuong, Q., Yu, T . und Huang, W., 2023. Palm-e: Ein verkörpertes multimodales Sprachmodell, https://arxiv.org/abs/2303.03378
[6] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, AC, Lo, WY und Dollár, P., 2023. Alles segmentieren, https://arxiv.org/abs/2304.02643
[7] Tewel, Y., Gal, R., Chechik, G. und Atzmon, Y., 2023. Key-Locked-Rank-One-Bearbeitung für die Text-zu-Bild-Personalisierung, https://arxiv.org/abs/2305.01644
[8] Pan, https://arxiv.org/abs/2305.10973
[9] Li, Z., Müller, T., Evans, A., Taylor, RH, Unberath, M., Liu, MY und Lin, CH, 2023. Neuralangelo: High-Fidelity Neural Surface Reconstruction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (S. 8456-8465), https://arxiv.org/abs/2306.03092
[10] Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M. und Kemelmacher-Shlizerman, I., 2023. TryOnDiffusion: A Geschichte von zwei UNets. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (S. 4606-4615), https://arxiv.org/abs/2306.08276
[11] Yang, S., Jiang, L., Liu, Z. und Loy, CC, 2023. StyleGANEX: StyleGAN-basierte Manipulation über beschnittene ausgerichtete Gesichter hinaus. arXiv-Vorabdruck arXiv:2303.06146.
[12] Hong, Y., Zhen, H., Chen, P., Zheng, S., Du, Y., Chen, Z. und Gan, C., 2023. 3d-llm: Die 3D-Welt ins Große einbringen Sprachmodelle. arXiv-Vorabdruck arXiv:2307.12981.
[13] Hong, S., Zheng, X., Chen, J., Cheng, Y., Zhang, C., Wang, Z., Yau, SKS, Lin, Z., Zhou, L., Ran, C . und Xiao, L., 2023. Metagpt: Metaprogrammierung für ein kollaboratives Framework mit mehreren Agenten. arXiv-Vorabdruck arXiv:2308.00352.
[14] Liu, H., Li, C., Wu, Q. und Lee, YJ, 2023. Visuelle Anleitungsoptimierung. arXiv-Vorabdruck arXiv:2304.08485.
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. und Yang, X., 2023. Mvdream: Multi-View-Diffusion für die 3D-Generierung. arXiv-Vorabdruck arXiv:2308.16512.
[16] Gandhi, S., von Platen, P. und Rush, AM, 2023. Distil-Whisper: Robuste Wissensdestillation durch groß angelegte Pseudoetikettierung. arXiv-Vorabdruck arXiv:2311.00430.
[17] Blattmann et al., 2023: Stabile Videodiffusion. https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf