awesome colab notebooks Download – awesome colab notebooks Quellcode herunterladen

Die Seite wird möglicherweise nicht richtig gerendert. Bitte öffnen Sie die Datei README.md direkt

Tolle Colab-Notizbuchsammlung für ML-Experimente

Im Trend

Repositories	Papiere
Facebookresearch/Co-Tracker iterativ/Datenkette callummcdougall/ARENA_3.0 ToTheBeginning/PuLID ZhengPeng7/BiRefNet Ultralytika/Ultralytika unslothai/unsloth facebookresearch/segment-anything-2 lllyasviel/IC-Light gemelo-ai/vocos bequemanonymous/ComfyUI TransformerLensOrg/TransformerLens HongwenZhang/PyMAF-X Roboflow/Überwachung KwaiVGI/LivePortrait piddnad/DDColor TencentARC/InstantMesh LAION-AI/ästhetischer Prädiktor Doubiiu/DynamiCrafter facebookresearch/home-robot KillianLucas/offener Dolmetscher jxnl/lehrer	LIDA Gaußsches Splatting Tune-A-Video Folgen Sie Ihrer Pose Text2Video-Null GLIP UniFormerV2 SadTalker OWL-ViT VideoReTalking LDM Traumfelder Detic GraphCast DragGAN VRT Spline-Bewegungsmodell für dünne Platten PyMAF-X FateZero py-irt VQ-Diffusion WIRTSCHAFT

Repositories

Papiere

Facebookresearch/Co-Tracker
iterativ/Datenkette
callummcdougall/ARENA_3.0
ToTheBeginning/PuLID
ZhengPeng7/BiRefNet
Ultralytika/Ultralytika
unslothai/unsloth
facebookresearch/segment-anything-2
lllyasviel/IC-Light
gemelo-ai/vocos
bequemanonymous/ComfyUI
TransformerLensOrg/TransformerLens
HongwenZhang/PyMAF-X
Roboflow/Überwachung
KwaiVGI/LivePortrait
piddnad/DDColor
TencentARC/InstantMesh
LAION-AI/ästhetischer Prädiktor
Doubiiu/DynamiCrafter
facebookresearch/home-robot
KillianLucas/offener Dolmetscher
jxnl/lehrer

LIDA
Gaußsches Splatting
Tune-A-Video
Folgen Sie Ihrer Pose
Text2Video-Null
GLIP
UniFormerV2
SadTalker
OWL-ViT
VideoReTalking
LDM
Traumfelder
Detic
GraphCast
DragGAN
VRT
Spline-Bewegungsmodell für dünne Platten
PyMAF-X
FateZero
py-irt
VQ-Diffusion
WIRTSCHAFT

Forschung

Name	Beschreibung	Autoren	Links	aktualisieren
CoTracker	Architektur, die mehrere Punkte in einem gesamten Video gemeinsam verfolgt	Nikita Karaev Ignacio Rocco Benjamin Graham Natalia Neverova andere Andrea Vedaldi Christian Rupprecht	, Projekt	16.10.2024
PIFu	Pixelausgerichtete implizite Funktion für die hochauflösende Digitalisierung bekleideter Menschen	Ryota Natsume Shunsuke Saito Zeng Huang Angjoo Kanazawa Hao Li		08.10.2024
DifFace	Methode, die in der Lage ist, unsichtbare und komplexe Verschlechterungen eleganter und ohne komplizierte Verlustdesigns zu bewältigen	Zongsheng Yue Chen Change Loy	, , ,	05.10.2024
Alles segmentieren 2	Grundlagenmodell zur Lösung einer sofortigen visuellen Segmentierung in Bildern und Videos	Nikhila Ravi Valentin Gabeur Yuan-Ting Hu Ronghang Hu andere Chaitanya Ryali Tengyu Ma Haitham Khedr Roman Rädle Chloe Rolland Laura Gustafson Eric Mintun Junting-Pfanne [Kalyan Vasudev](lwala](https://scholar.google.co.in/citations?user=m34oaWEAAAAJ) Nicolas Carion [Chao-Yuan](u](https://chaoyuan.org/) Ross Girshick Piotr Dollár Christoph Feichtenhofer	Demo , , Projekt , , ,	01.10.2024
Open-Unmix	Eine Referenzimplementierung für ein tiefes neuronales Netzwerk zur Musikquellentrennung, anwendbar für Forscher, Audioingenieure und Künstler	Fabian-Robert Stöter Antoine Liutkus	Daten Projekt	25.09.2024
Tiefe malerische Harmonisierung	Der Algorithmus liefert deutlich bessere Ergebnisse als Foto-Compositing oder globale Stilisierungstechniken und ermöglicht kreative malerische Bearbeitungen, die sonst nur schwer zu erreichen wären	Fujun Luan Sylvain Paris Eli Shechtman Kavita Bala	, , ,	23.09.2024
audio2photoreal	Framework zur Generierung vollständiger fotorealistischer Avatare, die entsprechend der Gesprächsdynamik einer dyadischen Interaktion gestikulieren	Evonne Ng Javier Romero Timur Bagautdinov Shaojie Bai andere Trevor Darrell Angjoo Kanazawa Alexander Richard	Projekt	13.09.2024
Alles schnell segmentieren	Das CNN-Segment-Anything-Modell wurde mit nur 2 % des von SAM-Autoren veröffentlichten SA-1B-Datensatzes trainiert	Xu Zhao Wenchao Ding Yongqi An Yinglong Du andere Tao Yu Min Li Ming Tang Jinqiao Wang	, , ,	10.09.2024
Neuralangelo	Framework für die hochauflösende 3D-Oberflächenrekonstruktion aus RGB-Videoaufnahmen	Zhaoshuo Li Thomas Müller Alex Evans Russell Taylor andere Mathias Unberath Ming-Yu Liu Chen-Hsuan Lin	Blogbeitrag Projekt , ,	02.09.2024
BiRefNet	Bilateraler Referenzrahmen für hochauflösende dichotome Bildsegmentierung	Peng Zheng Dehong Gao Deng-Ping-Fan Li Liu andere Jorma Laaksonen Wanli Ouyang Nicu Sebe	, , , , Projekt , ,	23.08.2024
DREHEN	Lernen, die menschliche 3D-Pose und -Form durch Modellanpassung in der Schleife zu rekonstruieren	Nikos Kolotouros Georgios Pavlakos Michael Schwarz Kostas Daniilidis	, Projekt	21.08.2024
YOlov10	Ziel ist es, die Leistungs-Effizienz-Grenze von YOLOs sowohl in der Nachbearbeitung als auch in der Modellarchitektur weiter voranzutreiben	Ao Wang Hui Chen Kai Chen Zijia Lin andere Jungong Han Guiguang Ding	Blogbeitrag Demo , , , , , , , , , , , , ,	20.08.2024
SpecVQGAN	Zähmung der visuell gesteuerten Klangerzeugung durch Verkleinerung eines Trainingsdatensatzes auf einen Satz repräsentativer Vektoren	Wladimir Jaschin Esa Rahtu	, , , , , , , , Projekt , ,	12.07.2024
LivePortrait	Videogesteuertes Porträtanimations-Framework mit Schwerpunkt auf besserer Verallgemeinerung, Steuerbarkeit und Effizienz für den praktischen Einsatz	Jianzhu Guo Dingyun Zhang Xiaoqiang Liu Zhizhou Zhong andere Yuan Zhang Pengfei Wan Di Zhang	, , , , Projekt , , , , ,	10.07.2024
TAPIR	Verfolgen Sie jeden Punkt mit Initialisierung pro Frame und zeitlicher Verfeinerung	Carl Dörsch Yi Yang Mel Vecerik Dilara Gokay andere Ankush Gupta Yusuf Aytar Joao Carreira Andrew Zisserman	, Blogbeitrag, Blogbeitrag ,	05.07.2024
Wav2Lip	Ein Lip-Sync-Experte ist alles, was Sie für die Sprach- und Lippenerzeugung in freier Wildbahn benötigen	Prajwal Renukanand Rudrabha Mukhopadhyay Vinay Namboodiri Lebenslauf Jawahar	Daten Demo Projekt	27.06.2024
DeepLabCut	Effiziente Methode zur markerlosen Posenschätzung basierend auf Transferlernen mit tiefen neuronalen Netzen, die mit minimalen Trainingsdaten hervorragende Ergebnisse erzielt	Alexander Mathis Pranav Mamidanna Kevin Cury Taiga Abe andere Venkatesh Murthy Mackenzie Mathis Matthias Bethge	, , , , , Forum , Webseite , ,	05.06.2024
PoolFormer	MetaFormer ist genau das, was Sie zum Sehen brauchen	Weihao Yu Mi Luo Pan Zhou Chenyang Si andere Yichen Zhou Xinchao Wang Jiashi Feng Shuicheng Yan	, ,	01.06.2024
StoryDiffusion	Methode der Selbstaufmerksamkeitsberechnung, die als konsistente Selbstaufmerksamkeit bezeichnet wird und die die Konsistenz zwischen den generierten Bildern erheblich erhöht und gängige vorab trainierte diffusionsbasierte Text-zu-Bild-Modelle im Zero-Shot-Verfahren erweitert	Yupeng Zhou Daquan Zhou Ming-Ming Cheng Jiashi Feng Qibin Hou	Projekt ,	04.05.2024
PuLID	Pure- und Lightning-ID-Anpassung, eine optimierungsfreie ID-Anpassungsmethode für die Text-zu-Bild-Generierung	Zinan Guo Yanze Wu Zhuowei Chen Lang Chen Qian He	, ,	03.05.2024
FILM	Ein Frame-Interpolationsalgorithmus, der mehrere Zwischenframes aus zwei Eingabebildern mit großen Zwischenbewegungen synthetisiert	Fitsum Reda Janne Kontkanen Eric Tabellion Deqing Sun andere Caroline Pantofaru Brian Curless	Daten, Daten, Daten Projekt , ,	03.05.2024
VoiceCraft	Token-füllendes neuronales Codec-Sprachmodell, das modernste Leistung sowohl bei der Sprachbearbeitung als auch bei der Zero-Shot-Text-to-Speech-Umwandlung in Hörbüchern, Internetvideos und Podcasts erreicht	Puyuan Peng Po-Yao Huang Shang-Wen Li Abdelrahman Mohamed David Harwath	Projekt , ,	21.04.2024
ZeST	Verfahren zur schussfreien Materialübertragung auf ein Objekt im Eingabebild anhand eines Materialexemplarbildes	Ta-Ying Cheng Prafull Sharma Andrew Markham Niki Trigoni Varun Jampani	, Projekt	16.04.2024
InstantMesh	Feed-Forward-Framework für die sofortige 3D-Netzgenerierung aus einem einzigen Bild, mit modernster Generierungsqualität und erheblicher Trainingsskalierbarkeit	Jiale Xu Weihao Cheng Yiming Gao Xintao Wang andere Shenghua Gao Ying Shan	, ,	16.04.2024
AlphaFold	Hochpräzise Vorhersage der Proteinstruktur	John Jumper Richard Evans Alexander Pritzel Tim Green andere Michael Figurov Olaf Ronneberger Kathryn Tunyasuvunakool Russ Bates Augustin Žídek Anna Potapenko Alex Bridgland Clemens Meyer Simon Kohl Andrew Ballard Bernardino Romera-Paredes Stanislaw Nikolow Rishub Jain	Blogbeitrag, Blogbeitrag , Papier ,	15.04.2024
Würstchen	Architektur für die Text-zu-Bild-Synthese, die wettbewerbsfähige Leistung mit beispielloser Kosteneffizienz für groß angelegte Text-zu-Bild-Diffusionsmodelle kombiniert	Pablo Pernias Dominic Rampas Mats Richter Christopher Pal Marc Aubreville		06.04.2024
AQLM	Extreme Komprimierung großer Sprachmodelle durch additive Quantisierung	Vage Egiazarian Andrei Panferov Denis Kuznedelev Elias Frantar andere Artem Babenko Dan Alistarh	, , ,	08.03.2024
YOLOv9	Lernen Sie mithilfe programmierbarer Verlaufsinformationen, was Sie lernen möchten	Chien-Yao Wang I-Hau Yeh Hongkong-Yuan Mark Liao	, Blogbeitrag , , , , ,	05.03.2024
Multi-LoRA-Komposition	LoRA Switch und LoRA Composite, Ansätze, die darauf abzielen, traditionelle Techniken in Bezug auf Genauigkeit und Bildqualität, insbesondere bei komplexen Kompositionen, zu übertreffen	Ming Zhong Yelong Shen Shuohang Wang Yadong Lu andere Yizhu Jiao Siru Ouyang Donghan Yu Jiawei Han Weizhu Chen	Webseite	03.03.2024
AMARETTO	Multiskalige und multimodale Inferenz regulatorischer Netzwerke zur Identifizierung von Zellkreisen und ihren Treibern, die innerhalb und zwischen biologischen Systemen menschlicher Krankheiten gemeinsam und unterschiedlich sind	Nathalie Pochet Olivier Gevaert Mohsen Nabian Jayendra Shinde andere Céline Everaert Thorin Tabor	Bioleiter Projekt	28.02.2024
LIDA	Tool zum Generieren grammatikunabhängiger Visualisierungen und Infografiken	Victor Dibia	, Projekt , ,	06.02.2024
ViT	Vision Transformer und MLP-Mixer-Architekturen	Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikow Dirk Weißenborn andere Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly Jakob Uszkoreit Neil Houlsby	, , , , , , Blogbeitrag , , , , ,	06.02.2024
3D Ken Burns	Eine Referenzimplementierung des 3D-Ken-Burns-Effekts aus einem einzelnen Bild mit PyTorch – bei einem einzelnen Eingabebild wird dieses Standbild mit einem virtuellen Kamerascan und Zoom unter Berücksichtigung der Bewegungsparallaxe animiert	Manuel Romero		24.01.2024
VALL-E X	Sprachübergreifendes neuronales Codec-Sprachmodell für die sprachübergreifende Sprachsynthese	Ziqiang Zhang Lange Zhou Chengyi Wang Sanyuan Chen andere Yu Wu Shujie Liu Zhuo Chen Yanqing Liu Huaming Wang Jinyu Li Lei He Sheng Zhao Furu Wei	, , Demo Projekt	19.01.2024
PhotoMaker	Effiziente Methode zur personalisierten Text-zu-Bild-Generierung, die hauptsächlich eine beliebige Anzahl eingegebener ID-Bilder in eine Stapel-ID-Einbettung codiert, um ID-Informationen beizubehalten	Zhen Li Mingdeng Cao Xintao Wang Zhonggang Qi andere Ming-Ming Cheng Ying Shan	, , , , , Projekt ,	18.01.2024
DDColor	End-to-End-Methode mit zwei Decodern zur Bildkolorierung	Xiaoyang Kang Tao Yang Wenqi Ouyang Peiran Ren andere Lingzhi Li Xuansong Xie	,	15.01.2024
PASD	Pixelbewusstes stabiles Diffusionsnetzwerk zur Erzielung eines robusten Real-ISR sowie einer personalisierten Stilisierung	Tao Yang Peiran Ren Xuansong Xie Lei Zhang	,	12.01.2024
HandRefiner	Verfeinerung missgebildeter Hände in generierten Bildern durch diffusionsbasiertes bedingtes Inpainting	Wenquan Lu Yufei Xu Jing Zhang Chaoyue Wang Dacheng Tao	, ,	08.01.2024
GraphCast	Erlernen geschickter mittelfristiger globaler Wettervorhersagen	Rémi Lam Alvaro Sanchez-Gonzalez Matthew Willson Peter Wirnsberger andere Meire Fortunato Ferran Alet Suman Ravuri Timo Ewalds Zach Eaton-Rosen Weihua Hu Alexander Merose Stephan Hoyer Georg Holland Oriol Vinyals Jacklynn Stott Alexander Pritzel Shakir Mohamed Peter Battaglia	Daten , , , , , , , ,	04.01.2024
ESM	Modellierung im evolutionären Maßstab: Vortrainierte Sprachmodelle für Proteine	Zeming Lin Roshan Rao Brian Hie Zhongkai Zhu andere Allan dos Santos Costa Maryam Fazel-Zarandi Tom Sercu Salvatore Candido Alexander Rives Joshua Meier Robert Verkuil Jason Liu Chloe Hsu Adam Lerer	ESM-Atlas FSDP ICML Daten Papier, Papier, Papier, Papier veröffentlicht ,	28.12.2023
LLaVA	Large Language and Vision Assistant, ein durchgängig trainiertes großes multimodales Modell, das einen Vision-Encoder und LLM für allgemeines visuelles und Sprachverständnis verbindet	Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee Yuheng Li	, , , , Demo , , , , , , Projekt , , , , ,	22.12.2023
Hintergrundmattierung V2	Hochauflösende Hintergrundersetzungstechnik in Echtzeit, die mit 30 Bildern pro Sekunde in 4K-Auflösung und 60 Bildern pro Sekunde für HD auf einer modernen GPU arbeitet	Shanchuan Lin Andrej Rjabtsew Soumyadip Sengupta Brian Curless andere Steve Seitz Ira Kemelmacher-Shlizerman	, Projekt ,	22.12.2023
Gaußsches Splatting	Hochmoderne visuelle Qualität bei gleichzeitiger Beibehaltung konkurrenzfähiger Trainingszeiten und – was noch wichtiger ist – ermöglichen eine hochwertige Echtzeit-Synthese (≥ 100 fps) neuartiger Ansichten mit einer Auflösung von 1080p	Bernhard Kerbl Georgios Kopanas Thomas Leimkühler George Drettakis	Projekt , , , , , ,	19.12.2023
SMPler-X	Skalierung von EHPS in Richtung des ersten generalistischen Basismodells mit bis zu ViT-Huge als Rückgrat und Training mit bis zu 4,5 Millionen Instanzen aus verschiedenen Datenquellen	Zhonggang Cai Wanqi Yin Der kränkliche Zeng Chen Wei andere Qingping Sun Yanjun Wang Hui En Pang Haiyi Mei Mingyuan Zhang Lei Zhang Chen Change Loy Lei Yang Ziwei Liu	, , Projekt ,	18.12.2023
DeepCache	Trainingsfreies Paradigma, das die Verbreitung von Modellen aus der Perspektive der Modellarchitektur beschleunigt	Xinyin Ma Gongfan Fang Xinchao Wang	Projekt	18.12.2023
MagicAnimate	Diffusionsbasiertes Framework, das darauf abzielt, die zeitliche Konsistenz zu verbessern, das Referenzbild originalgetreu zu bewahren und die Animationstreue zu verbessern	Zhongcong Xu Jianfeng Zhang Jun Hao Liew Hanshu Yan andere Jiawei Liu Chenxu Zhang Jiashi Feng Mike Shou	, , Projekt Webseite , ,	18.12.2023
DiffBIR	Auf dem Weg zur Wiederherstellung blinder Bilder mit generativer Diffusion Prior	Xinqi Lin Jingwen He Ziyan Chen Zhaoyang Lyu andere Ben Fei Bo Dai Wanli Ouyang Yu Qiao Chao Dong	Projekt ,	18.12.2023
AudioLDM	Text-zu-Audio-System, das auf einem latenten Raum aufbaut, um die kontinuierlichen Audiodarstellungen aus kontrastiven Sprach-Audio-Vortrainingslatenten zu lernen	Haohe Liu Zehua Chen Yi Yuan Xinhao Mei andere Xubo Liu Danilo Mandic Wenwu Wang Mark Plumbley	, , Projekt	02.12.2023
TabPFN	Neuronales Netzwerk, das gelernt hat, tabellarische Datenvorhersagen durchzuführen	Noah Hollmann Samuel Müller Katharina Eggensperger Frank Hütter	, , , , , Blogbeitrag	29.11.2023
Konzeptschieberegler	Plug-and-Play-Low-Rank-Adapter, die auf vorab trainierten Modellen angewendet werden	Rohit Gandikota Joanna Materzyńska Tingrui Zhou Antonio Torralba David Bau	, Projekt	26.11.2023
Qwen-VL	Satz groß angelegter Vision-Sprachmodelle, die darauf ausgelegt sind, sowohl Text als auch Bilder wahrzunehmen und zu verstehen	Jinze Bai Shuai Bai Shusheng Yang Shijie Wang andere Sinan Tan Peng Wang Junyang Lin Chang Zhou Jingren Zhou	, , Demo , , , , ,	24.11.2023
AnimeGANv3	Generatives gegnerisches Double-Tail-Netzwerk für schnelle Fotoanimationen	Gang Liu Xin Chen	Projekt , , , , ,	23.11.2023
Ithaka	Erstes tiefes neuronales Netzwerk zur Textrestaurierung, geografischen und chronologischen Zuordnung antiker griechischer Inschriften	Yannis Assael Thea Sommerschild Brendan Shillingford Mahyar Bordbar andere John Pavlopoulos Marita Chatzipanagiotou Ion Androutsopoulos Jonathan Prag Nando de Freitas	, Projekt	21.11.2023
PixArt-Σ	Schwach-zu-stark-Training des Diffusionstransformators für die 4K-Text-zu-Bild-Generierung	Junsong Chen Chongjian Ge Enze Xie Yue Wu andere Lewei Yao Xiaozhe Ren Zhongdao Wang Ping Luo Huchuan Lu Zhenguo Li	, , , Projekt	07.11.2023
Null123++	Bildbedingtes Diffusionsmodell zur Generierung 3D-konsistenter Mehransichtsbilder aus einer einzigen Eingabeansicht	Ruoxi Shi Hansheng Chen Zhuoyang Zhang Minghua Liu andere Chao Xu Xinyue Wei Linghao Chen Chong Zeng Hao Su	, ,	26.10.2023
UniFormerV2	Einheitlicher Transformator für effizientes räumlich-zeitliches Repräsentationslernen	Kunchang Li Yali Wang Yinan He Yizhuo Li andere Yi Wang Limin Wang Yu Qiao	, , , , , , ,	20.10.2023
Show-1	Hybridmodell, genannt Show-1, das pixelbasierte und latentbasierte VDMs für die Text-zu-Video-Generierung vereint	David Junhao Zhang Jay Zhangjie Wu Jiawei Liu Rui Zhao andere Lingmin Ran Yuchao Gu Difei Gao Mike Zheng Shou	, , , , , Projekt	15.10.2023
AudioSep	Grundlagenmodell für die Trennung von Audioquellen im offenen Bereich mit Abfragen in natürlicher Sprache	Xubo Liu Qiuqiang Kong Yan Zhao Haohe Liu andere Yi Yuan Yuzhuo Liu Rui Xia Yuxuan Wang Mark Plumbley Wenwu Wang	Projekt	12.10.2023
DA-CLIP	Degradationsbewusstes Vision-Sprachmodell zur besseren Übertragung vorab trainierter Vision-Sprachmodelle auf Low-Level-Vision-Aufgaben als universelles Framework für die Bildwiederherstellung	Ziwei Luo Fredrik Gustafsson Zheng Zhao Jens Sjölund Thomas Schön	Projekt	11.10.2023
SadTalker	Erzeugt 3D-Bewegungskoeffizienten des 3DMM aus Audio und moduliert implizit ein neuartiges 3D-fähiges Gesichtsrendering für die Erzeugung sprechender Köpfe	Wenxuan Zhang Xiaodong Cun Xuan Wang Yong Zhang andere Xi Shen Yu Guo Ying Shan Fei Wang	, , , , , , , Projekt , , ,	10.10.2023
Musika	Musikgenerierungssystem, das mit einer einzigen Consumer-GPU an Hunderten von Stunden Musik trainiert werden kann und eine viel schnellere Generierung von Musik beliebiger Länge auf einer Consumer-CPU als in Echtzeit ermöglicht	Marco Pasini Jan Schlüter	, Daten , Projekt ,	09.10.2023
YOLOv6	Einstufiges Objekterkennungs-Framework für industrielle Anwendungen	Kaiheng Weng Meng Cheng Yiduo Li Xiangxiang Chu Xiaolin Wei	, Blogbeitrag Daten , , , , , ,	08.10.2023
DreamGaussian	Algorithmus zum Konvertieren von 3D-Gaußschen in texturierte Netze und Anwenden einer Feinabstimmungsphase zur Verfeinerung der Details	Jiaxiang Tang Jiawei Ren Hang Zhou Ziwei Liu Gang Zeng	, , Projekt	04.10.2023
SYMBOL	Ausgehend von einer Reihe von Bildern schätzt die Methode aus jedem Bild eine detaillierte 3D-Oberfläche und kombiniert diese dann zu einem animierbaren Avatar	Yuliang Xiu Jinlong Yang Dimitrios Tzionas Michael Schwarz	, , , , , , , Projekt	31.08.2023
DINOv2	Erstellen Sie leistungsstarke visuelle Funktionen, die direkt mit einfachen Klassifikatoren wie linearen Schichten für eine Vielzahl von Computer-Vision-Aufgaben eingesetzt werden können. Diese visuellen Funktionen sind robust und funktionieren domänenübergreifend gut, ohne dass eine Feinabstimmung erforderlich ist	Maxime Oquab Timothée Darcet Théo Moutakanni Huy Vo andere Marc Szafraniec Wassil Chalidow Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby Mahmoud Assran Nicolas Ballas Wojciech Galuba Russell Howes Po-Yao Huang Shang-Wen Li Ishan Misra Michael Rabbat Vasu Sharma Gabriel Synnaeve Hu Xu Hervé Jegou Julien Mairal Patrick Labatut Armand Joulin Piotr Bojanowski	Blogbeitrag Demo , , ,	31.08.2023
OWL-ViT	Einfache Objekterkennung mit offenem Vokabular mit Vision Transformers	Matthias Minderer Alexey Gritsenko Austin Stone Maxim Neumann andere Dirk Weißenborn Alexey Dosovitskiy Aravindh Mahendran Anurag Arnab Mostafa Dehghani Zhuoran Shen Xiao Wang Xiaohua Zhai Thomas Kipf Neil Houlsby		21.08.2023
StilGAN3	Aliasfreie generative gegnerische Netzwerke	Tero Karras Miika Aittala Samuli Laine Erik Härkönen andere Janne Hellsten Jaakko Lehtinen Timo Aila	, , , , , , , , , Projekt	13.08.2023
FateZero	Textbasierte Zero-Shot-Bearbeitungsmethode für reale Videos ohne Schulung pro Eingabeaufforderung oder anwendungsspezifische Maske	Chenyang Qi Xiaodong Cun Yong Zhang Chenyang Lei andere Xintao Wang Ying Shan Qifeng Chen	, , Projekt Video	13.08.2023
Großes GAN	Groß angelegtes GAN-Training für die Synthese natürlicher Bilder mit hoher Wiedergabetreue	Andrew Brock Jeff Donahue Karen Simonyan		03.08.2023
Lama	Auflösungsrobustes Large Mask Inpainting mit Fourier-Faltungen	Roman Suworow Elizaveta Logacheva Anton Mashichin Anastasia Remizova andere Arsenii Ashukha Alexej Silvestrow Naejin Kong Harshith Goka Kiwoong Park Victor Lempitsky	, , , Projekt	02.08.2023
MakeItTalk	Eine Methode, die aus einem einzigen Gesichtsbild mit Audio als einziger Eingabe ausdrucksstarke Talking-Head-Videos generiert	Yang Zhou Xintong Han Eli Shechtman José Echevarria andere Evangelos Kalogerakis Dingzeyu Li	Daten Projekt	27.07.2023
HiDT	Ein generatives Bild-zu-Bild-Modell und ein neues Upsampling-Schema, das die Anwendung der Bildübersetzung mit hoher Auflösung ermöglicht	Denis Korschenkow Gleb Sterkin Sergey Nikolenko Victor Lempitsky	Projekt ,	24.07.2023
CutLER	Einfacher Ansatz zum Trainieren unbeaufsichtigter Objekterkennungs- und Segmentierungsmodelle	Xudong Wang Rohit Girdhar Stella Yu Ishan Misra	, Projekt	24.07.2023
Alles erkennen und Tag2Text markieren	Pre-Training-Framework für Vision-Sprache, das Bild-Tagging in Vision-Sprachmodelle einführt, um das Erlernen visuell-linguistischer Funktionen zu unterstützen	Xinyu Huang Youcai Zhang Jinyu Ma Zhaoyang Li andere Yanchun Xie Yuzhuo Qin Tong Luo Yaqian Li Yandong Guo Yandong Guo Lei Zhang	, , Projekt, Projekt	09.07.2023
Spline-Bewegungsmodell für dünne Platten	End-to-End-Framework für die unbeaufsichtigte Bewegungsübertragung	Jian Zhao Hui Zhang	, , , supp	07.07.2023
DragGAN	Ziehen Sie Ihr GAN: Interaktive punktbasierte Manipulation auf dem generativen Bildverteiler	Xingang-Pfanne Ayush Tewari Thomas Leimkühler Lingjie Liu andere Abhimitra Meka Christian Theobalt	Projekt	03.07.2023
MobileSAM	Auf dem Weg zu leichtgewichtigem SAM für mobile Anwendungen	Chaoning Zhang Dongshen Han Yu Qiao Jung Uk Kim andere Sung-Ho Bae Seungkyu Lee Choong Seon Hong	, , , , , , ,	30.06.2023
Erdung DINO	Verbindung von DINO mit geerdetem Vortraining zur Erkennung offener Objekte	Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li andere Hao Zhang Jie Yang Chunyuan Li Jianwei Yang Hang Su Jun Zhu Lei Zhang	, , , , , , , , , , , ,	28.06.2023
T5X	Modulares, zusammensetzbares, forschungsfreundliches Framework für leistungsstarkes, konfigurierbares Self-Service-Training, Bewertung und Inferenz von Sequenzmodellen auf vielen Skalen	Adam Roberts Hyung Won Chung Anselm Lewskaja Gaurav Mishra andere James Bradbury Daniel Andor Sharan Narang Brian Lester Colin Gaffney Afroz Mohiuddin Curtis Hawthorne Aitor Lewkowycz Alex Salcianu Marc van Zee Jacob Austin Sebastian Goodman Livio Baldini Soares Haitang Hu Sasha Tsvyashchenko Aakanksha Chowdhery Jasmijn Bastings Jannis Bulian Xavier Garcia Jianmo Ni Kathleen Kenealy Jonathan Clark Dan Garrette James Lee-Thorp Colin Raffel Noam Shazeer Marvin Ritter Maarten Bosma Alexandre Passos Jeremy Maitin-Shepard Noah Fiedel Brennan Saeta Ryan Sepassi Alexander Spiridonow Joshua Newlan Andrea Gesmundo	, , , ,	27.06.2023
CodeTalker	Setzen Sie sprachgesteuerte Gesichtsanimationen als Codeabfrageaufgabe in einen endlichen Proxy-Raum des erlernten Codebuchs um, was die Lebendigkeit der erzeugten Bewegungen effektiv fördert, indem die Unsicherheit bei der modalübergreifenden Zuordnung verringert wird	[Jinbo Xing](Jinbo Xing) Menghan Xia Yuechen Zhang Xiaodong Cun andere Jue Wang Tien-Tsin Wong	, , , , , , , , , , , , , , , Projekt	16.06.2023
Bewegungsmodell erster Ordnung für Bildanimation	Gesichtsbewegungen vom Video auf das Bild übertragen	Aliaksandr Siarohin	Projekt	04.06.2023
Paralleles WaveGAN	Hochmoderne nicht-autoregressive Modelle zum Erstellen Ihres eigenen großartigen Vocoders	Tomoki Hayashi	, , Demo ,	01.06.2023
WIRTSCHAFT	Entwickelt für die „Digitalisierung des Menschen aus einem Farbbild“, das die besten Eigenschaften impliziter und expliziter Darstellungen kombiniert, um aus Bildern in freier Wildbahn hochauflösende 3D-bekleidete Menschen abzuleiten, selbst mit lockerer Kleidung oder in herausfordernden Posen	Yuliang Xiu Jinlong Yang Xu Cao Dimitrios Tzionas Michael Schwarz	, , , , , , , , ,	31.05.2023
MMS	Das Massively Multilingual Speech-Projekt erweitert die Sprachtechnologie von etwa 100 Sprachen auf über 1000, indem es ein einziges mehrsprachiges Spracherkennungsmodell erstellt, das über 1100 Sprachen unterstützt, Spracherkennungsmodelle, die über 4000 Sprachen identifizieren können, vorab trainierte Modelle, die über 1400 Sprachen unterstützen, und Text-zu- Sprachmodelle für über 1100 Sprachen	Vineel Pratap Andros Tjandra Bowen Shi Paden Tomasello andere Arun Babu Sayani Kundu Ali Elkahky Zhaoheng Ni Apoorv Vyas Maryam Fazel-Zarandi Alexei Baevski Yossi Adi Xiaohui Zhang Wei-Ning Hsu Alexis Conneau Michael Auli	, , ,	26.05.2023
Fabelhaft	Flow AIS Bootstrap verwendet AIS, um Proben in Regionen zu generieren, in denen die Strömung eine schlechte Annäherung an das Ziel darstellt, und erleichtert so die Entdeckung neuer Modi	Laurence Midgley Vincent Stimper Gregor NC Simm Bernhard Schölkopf José Miguel Hernández-Lobato	,	29.04.2023
CodeFormer	Transformatorbasiertes Vorhersagenetzwerk zur Modellierung der globalen Zusammensetzung und des Kontexts von Gesichtern mit geringer Qualität für die Codevorhersage, was die Entdeckung natürlicher Gesichter ermöglicht, die den Zielgesichtern sehr nahe kommen, selbst wenn die Eingaben stark beeinträchtigt sind	Shangchen Zhou Kelvin Chan Chongyi Li Chen Change Loy	, , Projekt , , ,	21.04.2023
Text2Video-Null	Text-zu-Bild-Diffusionsmodelle sind Zero-Shot-Videogeneratoren	Levon Khachatryan Andranik Movsisyan Vahram Tadevosyan Roberto Henschel andere Zhangyang Wang Shant Navasardyan Humphrey Shi	, , , , , Projekt Video ,	11.04.2023
Segmentieren Sie alles	Das Segment Anything Model erzeugt hochwertige Objektmasken aus Eingabeaufforderungen wie Punkten oder Kästchen und kann zum Generieren von Masken für alle Objekte in einem Bild verwendet werden	Alexander Kirillow Eric Mintun Nikhila Ravi Hanzi Mao andere Chloé Rolland Laura Gustafson Tete Xiao Spencer Whitehead Alex Berg Wan-Yen Lo Piotr Dollár Ross Girshick	Daten , Webseite , ,	10.04.2023
Folgen Sie Ihrer Pose	Zweistufiges Trainingsschema, das Bildposenpaare und Posenfreie Videodatensätze sowie das vorab trainierte Text-zu-Bild-Modell nutzen kann, um die Posen-steuerbaren Charaktervideos zu erhalten	Yue Ma Yingqing He Xiaodong Cun Xintao Wang andere Siran Chen Ying Shan Xiu Li Qifeng Chen	, , , Projekt Video	07.04.2023
EVA3D	Hochwertiges, bedingungsloses menschliches generatives 3D-Modell, das für das Training nur 2D-Bildsammlungen erfordert	Fangzhou Hong Zhaoxi Chen Yushi Lan Liang Pan Ziwei Liu	Projekt ,	06.04.2023
Stabile Traumfusion	Verwendung eines vorab trainierten 2D-Text-zu-Bild-Diffusionsmodells zur Durchführung einer Text-zu-3D-Synthese	Jiaxiang Tang Ben Poole Ajay Jain Jon Barron Ben Mildenhall	, Projekt , , ,	04.04.2023
PIFuHD	Mehrstufige, pixelausgerichtete implizite Funktion für die hochauflösende 3D-Digitalisierung des Menschen	Shunsuke Saito Tomas Simon Jason Saragih Hanbyul Joo	,	26.03.2023
VideoReTalking	System zum Bearbeiten der Gesichter eines realen Talking-Head-Videos entsprechend dem Eingangsaudio, um ein hochwertiges und lippensynchrones Ausgangsvideo auch mit einer anderen Emotion zu erzeugen	Kun Cheng Xiaodong Cun Yong Zhang Menghan Xia andere Fei Yin Mingrui Zhu Xuan Wang Jue Wang Nannan Wang	, , , , Projekt , ,	19.03.2023
Visueller ChatGPT	Verbindet ChatGPT und eine Reihe von Visual Foundation-Modellen, um das Senden und Empfangen von Bildern während des Chats zu ermöglichen	Chenfei Wu Shengming Yin Weizhen Qi Xiaodong Wang andere Zecheng Tang Nan Duan	, , , ,	15.03.2023
Tune-A-Video	One-Shot-Tuning von Bilddiffusionsmodellen für die Text-zu-Video-Generierung	Jay Zhangjie Wu Yixiao Ge Xintao Wang Stan Weixian Lei andere Yuchao Gu Yufei Shi Wynne Hsu Ying Shan Xiaohu Qie Mike Zheng Shou	, , , Projekt ,	23.02.2023
GPEN	GAN Prior Embedded Network für die Wiederherstellung blinder Gesichter in freier Wildbahn	Tao Yang Peiran Ren Xuansong Xie Lei Zhang	Demo ,	15.02.2023
PyMAF-X	Кegressionsbasierter Ansatz zur Wiederherstellung parametrischer Ganzkörpermodelle aus monokularen Bildern	Hongwen Zhang Yating Tian Yuxiang Zhang Mengcheng Li andere Liang An Zhenan Sun Yebin Liu	, , , , Projekt	14.02.2023
Disco-Verbreitung	Eine frankensteinische Zusammenstellung von Notizbüchern, Modellen und Techniken zur Erstellung von KI-Kunst und Animationen	Max Ingham Adam Letts Daniel Russell Chigozie Nri	, ,	11.02.2023
GrooVAE	Einige Anwendungen des maschinellen Lernens zum Erzeugen und Bearbeiten von Beats und Schlagzeugspielen	Jon Gillick Adam Roberts Jesse Engel	Blogbeitrag Daten Web-App	02.02.2023
Mehrspurige MusikVAE	Die Modelle in diesem Notebook sind in der Lage, einzelne Takte von bis zu 8 Spuren zu kodieren und zu dekodieren, optional abhängig von einem zugrunde liegenden Akkord	Ian Simon Adam Roberts Colin Raffel Jesse Engel andere Curtis Hawthorne Douglas Eck	Blogbeitrag	02.02.2023
MusicVAE	Ein hierarchisches latentes Vektormodell zum Erlernen der Langzeitstruktur in der Musik	Adam Roberts Jesse Engel Colin Raffel Curtis Hawthorne Douglas Eck	Blogbeitrag Projekt	02.02.2023
Malen lernen	Malen lernen mit modellbasiertem Deep Reinforcement Learning	Manuel Romero		01.02.2023
Instant-NGP	Sofortige neuronale Grafikprimitive mit einer Hash-Kodierung mit mehreren Auflösungen	Thomas Müller Alex Evans Christoph Schied Alexander Keller	Blogbeitrag , , , , Projekt Tutorial , , ,	18.01.2023
Fourier-Feature-Netzwerke	Fourier-Funktionen ermöglichen es Netzwerken, Hochfrequenzfunktionen in niederdimensionalen Domänen zu lernen	Matthew Tancik Pratul Srinivasan Ben Mildenhall Sara Fridovich-Keil andere Nithin Raghavan Utkarsh Singhal Ravi Ramamoorthi Jon Barron Ren Ng	, Projekt	17.01.2023
AlphaPose	Regionale Ganzkörper-Posenschätzung und -verfolgung für mehrere Personen in Echtzeit	Hao-Shu Fang Jiefeng Li Hongyang Tang Chao Xu andere Haoyi Zhu Yuliang Xiu Yong-Lu Li Cewu Lu	, Projekt , , ,	07.01.2023
HybrIK	Hybride analytisch-neuronale inverse Kinematiklösung für die 3D-Posen- und Formschätzung des Menschen	Jiefeng Li Chao Xu Zhicun Chen Siyuan Bian andere Lixin Yang Cewu Lu	Projekt supp	01.01.2023
Scoring-Jakobianische Verkettung	Wenden Sie die Kettenregel auf die erlernten Farbverläufe an und propagieren Sie die Punktzahl eines Diffusionsmodells durch den Jacobi-Wert eines differenzierbaren Renderers, den wir als Voxel-Strahlungsfeld instanziieren	Haochen Wang Xiaodan Du Jiahao Li Raymond Yeh Greg Shakhnarovich	, Projekt ,	05.12.2022
Demucs	Hybridspektrogramm und Wellenformquellentrennung	Alexandre Défossez	, , , , , ,	21.11.2022
StyleCLIP	Textgesteuerte Manipulation von StyleGAN Imager	Oder Pataschnik Zongze Wu Eli Shechtman Daniel Cohen-Or Dani Lischinski	, , , ,	30.10.2022
MotionDiffuse	Das erste Diffusionsmodell-basierte Framework zur textgesteuerten Bewegungsgenerierung, das gegenüber bestehenden Methoden mehrere gewünschte Eigenschaften aufweist	Mingyuan Zhang Zhonggang Cai Liang Pan Fangzhou Hong andere Xinying Guo Lei Yang Ziwei Liu	Projekt	13.10.2022
VToonify	Nutzt die Ebenen mittlerer und hoher Auflösung von StyleGAN, um hochwertige künstlerische Porträts basierend auf den von einem Encoder extrahierten mehrskaligen Inhaltsfunktionen zu rendern, um die Bilddetails besser zu bewahren	Shuai Yang Liming Jiang Ziwei Liu Chen Change Loy	, , , , Projekt	07.10.2022
PyMAF	Feedbackschleife zur Pyramidennetzausrichtung im Regressionsnetzwerk für die Wiederherstellung eines gut ausgerichteten Körpernetzes und deren Erweiterung für die Wiederherstellung ausdrucksstarker Ganzkörpermodelle	Hongwen Zhang Yating Tian Yuxiang Zhang Mengcheng Li andere Liang An Zhenan Sun Yebin Liu	, , , , Projekt ,	06.10.2022
AlphaTensor	Entdecken Sie schnellere Matrixmultiplikationsalgorithmen mit Reinforcement Learning	Alhussein Fawzi Matej Balog Aja Huang Thomas Hubert andere Bernardino Romera-Paredes Mohammadamin Barekatain Alexander Novikov Francisco Ruiz Julian Schrittwieser Grzegorz Swirszcz David Silver Demis Hassabis Pushmeet Kohli	, , ,	04.10.2022
Swin2SR	Neuartiger Swin Transformer V2, um SwinIR für Bild-Superauflösung und insbesondere das komprimierte Eingabeszenario zu verbessern	Marcos Conde Ui-Jin Choi Maxime Burchi Radu Timofte	, , , , , , ,	03.10.2022
Funkta	Von Daten zu Funktionen: Ihr Datenpunkt ist eine Funktion und Sie können ihn wie eine solche behandeln	Emilien Dupont Hyunjik Kim Ali Eslami Danilo Rezende Dan Rosenbaum	,	24.09.2022
Flüstern	Automatisches Spracherkennungssystem, das auf 680.000 Stunden mehrsprachiger und multitaskingüberwachter Daten aus dem Internet trainiert wurde	Alec Radford Jong Wook Kim Tao Xu Greg Brockman andere Christine McLeavey Ilja Suzkewer	Blogbeitrag , ,	21.09.2022
DeOldify (Video)	Kolorieren Sie Ihre eigenen Videos!	Jason Antic	, Modell , Webseite ,	19.09.2022
DeOldify (Foto)	Kolorieren Sie Ihre eigenen Fotos!	Jason Antic Matt Robinson Maria Benavente	, Modell Webseite	19.09.2022
Echt-ESRGAN	Erweitern Sie das leistungsstarke ESRGAN zu einer praktischen Wiederherstellungsanwendung, die mit rein synthetischen Daten trainiert wird	Xintao Wang Liangbin Xie Chao Dong Ying Shan	, , , ,	18.09.2022
IDE-3D	Interaktive entwirrte Bearbeitung für hochauflösende 3D-fähige Porträtsynthese	Jingxiang Sun Xuan Wang Yichun Shi Lizhen Wang andere Jue Wang Yebin Liu	, , ,	08.09.2022
Entscheidungstransformatoren	Eine Architektur, die das Problem von RL als bedingtes Sequenzmodell umsetzt Expandieren Zusätzliche Informationen Version 1.0.0 Typ Anderer Quellcode Aktualisierungszeit 2024-12-27 Größe 804.02KB Kommt von Github Ähnliche Anwendungen awesome citygml 2024-11-13 awesome generative ai guide 2024-11-05 GitHub sgrebnov/cordova plugin background download 2024-11-05 awesome swift 2024-11-03 Tolles Teufelsspiel 2023-04-16 Die tolle Anzeige 2022-08-08 Empfohlen für Sie chat.petals.dev Anderer Quellcode 1.0.0 GPT Prompt Templates Anderer Quellcode 1.0.0 GPTyped Anderer Quellcode GPTyped 1.0.5 waymo open dataset Anderer Quellcode December 2023 Update SmartTube Anderer Quellcode 24.71 Stable Sunamu Anderer Quellcode Release 2.2.0 waymo open dataset Anderer Quellcode December 2023 Update termwind Andere Kategorien v2.3.0 wp functions Andere Kategorien 1.0.0 Ähnliche Nachrichten Alle So beheben Sie das Stottern in Stalker 2: Heart of Chornobyl 2024-11-23 Wo ist Juice WRLD in Fortnite? 2024-11-23 So starten Sie die Wildcard-Erweiterung in Star Wars Outlaws 2024-11-23 Peking fügt eine neue Forschungs- und Entwicklungseinrichtung hinzu, um die Sicherheit und das Governance-Layout der künstlichen Intelligenz zu verbessern 2024-11-22 In Shanghai wurde das Seminar eröffnet, an dem Guterres teilnahm, und Chinas Vorschlag zur Zusammenarbeit zur Stärkung des Kapazitätsaufbaus im Bereich der künstlichen Intelligenz wurde von der Generalversammlung der Vereinten Nationen angenommen 2024-11-22 Erstellen Sie ein Framework für künstliche Intelligenz, um das effektivste Lysozym zu finden 2024-11-22 Große KI-Modelle treten in das erste Anwendungsjahr ein. Finanzinstitute verstärken ihre Bemühungen, ein neues Ökosystem intelligenter Rechenleistung aufzubauen. 2024-11-22 MiniMax Yan Junjie: Schnell ist gut für große Modelle, aber langsam bedeutet manchmal einfach, schneller zu sein. 2024-11-22 Künstliche Intelligenz hält Einzug auf dem Campus, um die wissenschaftlichen Träume der Studenten zu verwirklichen 2024-11-22 Künstliche Intelligenz aktiviert die Verbraucherproduktion und Yongkang-Fitnessgeräte verkaufen sich gut auf inländischen und ausländischen Märkten 2024-11-22 Nvidia investiert in die Serie-B-Finanzierung von Sakana AI, um die Entwicklung generativer künstlicher Intelligenz zu unterstützen 2024-11-22 KI löst eine neue kognitive Revolution aus! Universelle Lektüre des allgemeinen Kurses für neue Wissenschaft und Technologie, Zeitplan für die Entwicklung künstlicher Intelligenz: Erstellen eines Videos im Jahr 2028, Schreiben eines Bestsellers im Jahr 20 2024-11-22 Products & Services Install APK APK signature verification APK Download Service Company Developer Console Submit APK Monetization of traffic through downcodes Legal About us Contact Us Cooperation [email protected]