awesome colab notebooks
1.0.0
Страница может отображаться неправильно. Пожалуйста, откройте файл README.md напрямую.
репозитории | документы |
---|---|
|
|
имя | описание | авторы | ссылки | совместная лаборатория | обновлять |
---|---|---|---|---|---|
КоТрекер | Архитектура, которая совместно отслеживает несколько точек на протяжении всего видео |
другие |
| 16.10.2024 | |
ПИФу | Неявная функция с выравниванием по пикселям для оцифровки человека в одежде с высоким разрешением |
| 08.10.2024 | ||
Диффейс | Метод, который способен более изящно справляться с невидимыми и сложными деградациями без сложных расчетов потерь. |
|
| 05.10.2024 | |
Сегментируйте что угодно 2 | Базовая модель для решения быстрой визуальной сегментации изображений и видео |
другие |
| 01.10.2024 | |
Открыть-Unmix | Эталонная реализация глубокой нейронной сети для разделения музыкальных источников, применимая для исследователей, звукорежиссеров и художников. |
|
| 25.09.2024 | |
Глубокая живописная гармонизация | Алгоритм дает значительно лучшие результаты, чем методы композиции фотографий или глобальной стилизации, и позволяет творчески редактировать изображения, чего в противном случае было бы трудно достичь. |
|
| 23.09.2024 | |
аудио2фотореалистичный | Платформа для создания полноценных фотореалистичных аватаров, которые жестикулируют в соответствии с разговорной динамикой диадического взаимодействия. |
другие |
| 13.09.2024 | |
Быстрая сегментация чего угодно | Модель CNN Segment Anything, обученная с использованием только 2% набора данных SA-1B, опубликованного авторами SAM. |
другие |
| 10.09.2024 | |
Неураланджело | Платформа для высококачественной трехмерной реконструкции поверхности на основе видеозаписей RGB |
другие |
| 09.02.2024 | |
БиРефНет | Двусторонняя эталонная система для сегментации дихотомических изображений высокого разрешения |
другие |
| 23.08.2024 | |
ВРАЩАТЬСЯ | Научимся реконструировать трехмерную позу и форму человека посредством подгонки модели в цикле |
|
| 21.08.2024 | |
YOLOv10 | Стремитесь к дальнейшему улучшению границ производительности и эффективности YOLO как с точки зрения постобработки, так и с точки зрения архитектуры модели. |
другие |
| 20.08.2024 | |
СпецВКГАН | Укрощение визуально управляемой генерации звука путем сокращения набора обучающих данных до набора репрезентативных векторов |
|
| 12.07.2024 | |
LiveПортрет | Фреймворк портретной анимации на основе видео с упором на лучшее обобщение, управляемость и эффективность для практического использования. |
другие |
| 10.07.2024 | |
ТАПИР | Отслеживание любой точки с покадровой инициализацией и временным уточнением |
другие |
| 07.05.2024 | |
Wav2Lip | Эксперт по синхронизации губ — это все, что вам нужно для создания речи и губ в дикой природе |
|
| 27.06.2024 | |
DeepLabCut | Эффективный метод безмаркерной оценки позы, основанный на трансферном обучении с использованием глубоких нейронных сетей, который достигает отличных результатов с минимальными обучающими данными. |
другие |
| 05.06.2024 | |
БассейнБывший | MetaFormer — это именно то, что нужно для зрения |
другие |
| 01.06.2024 | |
ИсторияРаспространение | Способ расчета самовнимания, называемый последовательным самовниманием, который значительно повышает согласованность между сгенерированными изображениями и дополняет распространенные предварительно обученные модели преобразования текста в изображение на основе диффузии с нулевым выстрелом. |
|
| 05.04.2024 | |
ПуЛИД | Настройка Pure и Lightning ID — метод настройки идентификатора без настройки для преобразования текста в изображение. |
|
| 03.05.2024 | |
ФИЛЬМ | Алгоритм интерполяции кадров, который синтезирует несколько промежуточных кадров из двух входных изображений с большим промежуточным движением. |
другие |
| 03.05.2024 | |
ГолосКрафт | языковая модель нейронного кодека, заполняющая токен, которая обеспечивает высочайшую производительность как при редактировании речи, так и при преобразовании текста в речь с нулевой частотой в аудиокнигах, интернет-видео и подкастах. |
|
| 21.04.2024 | |
ЗеСТ | Метод нулевого переноса материала на объект во входном изображении с учетом изображения образца материала |
|
| 16.04.2024 | |
Мгновенная сетка | Платформа прямой связи для мгновенного создания 3D-сетки из одного изображения, обеспечивающая современное качество генерации и значительную масштабируемость обучения. |
другие |
| 16.04.2024 | |
АльфаФолд | Высокоточное предсказание структуры белка |
другие |
| 15.04.2024 | |
Вюрстхен | Архитектура синтеза текста в изображение, сочетающая конкурентоспособную производительность с беспрецедентной экономической эффективностью для крупномасштабных моделей распространения текста в изображение. |
| 04.06.2024 | ||
АКЛМ | Чрезвычайное сжатие больших языковых моделей посредством аддитивного квантования |
другие |
| 08.03.2024 | |
YOLOv9 | Изучите то, что вы хотите узнать, используя информацию о программируемом градиенте |
|
| 05.03.2024 | |
Мульти-LoRA состав | LoRA Switch и LoRA Composite — подходы, целью которых является превзойти традиционные методы с точки зрения точности и качества изображения, особенно в сложных композициях. |
другие |
| 03.03.2024 | |
АМАРЕТТО | Многомасштабный и мультимодальный вывод о регуляторных сетях для идентификации клеточных цепей и их драйверов, общих и различных внутри и между биологическими системами заболеваний человека. |
другие |
| 28.02.2024 | |
ЛИДА | Инструмент для создания грамматически-независимых визуализаций и инфографики. | Виктор Дибиа |
| 06.02.2024 | |
ВИТ | Архитектуры Vision Transformer и MLP-Mixer |
другие |
| 06.02.2024 | |
3D Кен Бернс | Эталонная реализация 3D-эффекта Кена Бернса из одного изображения с использованием PyTorch — учитывая одно входное изображение, оно анимирует это неподвижное изображение с помощью сканирования и масштабирования виртуальной камеры с учетом параллакса движения. | Мануэль Ромеро | 24.01.2024 | ||
ВАЛЛ-И Х | Межъязыковая языковая модель нейронного кодека для межъязыкового синтеза речи |
другие |
| 19.01.2024 | |
Фотомейкер | Эффективный метод персонализированной генерации текста в изображение, который в основном кодирует произвольное количество входных изображений идентификатора в встраивание идентификатора стека для сохранения идентификационной информации. |
другие |
| 18.01.2024 | |
ДДЦвет | Сквозной метод с двойными декодерами для раскрашивания изображений |
другие |
| 15.01.2024 | |
ПРОШЛО | Стабильная диффузионная сеть с учетом пикселей для обеспечения надежного Real-ISR, а также персонализированной стилизации |
|
| 12.01.2024 | |
Ручной рафинер | Уточнение искаженных рук в сгенерированных изображениях с помощью условной заливки на основе диффузии |
|
| 08.01.2024 | |
ГрафКаст | Обучение умелому среднесрочному глобальному прогнозу погоды |
другие |
| 01.04.2024 | |
ЭСМ | Эволюционное масштабное моделирование: предварительно обученные языковые модели белков. |
другие |
| 28.12.2023 | |
ЛЛаВА | Large Language and Vision Assistant, комплексная обученная большая мультимодальная модель, которая соединяет видеокодер и LLM для общего визуального и языкового понимания. |
|
| 22.12.2023 | |
Матирование фона V2 | Технология замены фона в реальном времени с высоким разрешением, которая работает со скоростью 30 кадров в секунду для разрешения 4K и 60 кадров в секунду для HD на современном графическом процессоре. |
другие |
| 22.12.2023 | |
Гауссово пятно | Современное качество изображения при сохранении конкурентоспособного времени обучения и, что немаловажно, обеспечивает высококачественный синтез новых изображений в реальном времени (≥ 100 кадров в секунду) с разрешением 1080p. |
|
| 19.12.2023 | |
СМПЛер-X | Масштабирование EHPS в сторону первой универсальной базовой модели с использованием ViT-Huge в качестве основы и обучения с использованием до 4,5 млн экземпляров из различных источников данных. |
другие |
| 18.12.2023 | |
ДипКэш | Парадигма, не требующая обучения, которая ускоряет распространение моделей с точки зрения архитектуры модели. |
|
| 18.12.2023 | |
МагияАнимация | Платформа на основе диффузии, целью которой является улучшение временной согласованности, достоверное сохранение эталонного изображения и повышение точности анимации. |
другие |
| 18.12.2023 | |
ДиффБИР | На пути к восстановлению слепых изображений с помощью генеративной диффузии |
другие |
| 18.12.2023 | |
АудиоLDM | Система преобразования текста в аудио, построенная на скрытом пространстве для изучения непрерывных звуковых представлений на основе контрастирующих латентных предварительных тренировок языка и звука. |
другие |
| 02.12.2023 | |
ТабПФН | Нейронная сеть, которая научилась прогнозировать табличные данные |
|
| 29.11.2023 | |
Концептуальные слайдеры | Адаптеры низкого ранга Plug-and-Play, применяемые поверх предварительно обученных моделей |
|
| 26.11.2023 | |
Квен-ВЛ | Набор крупномасштабных моделей языка видения, предназначенных для восприятия и понимания как текста, так и изображений. |
другие |
| 24.11.2023 | |
АнимеGANv3 | Двойная генеративно-состязательная сеть для быстрой фотоанимации |
|
| 23.11.2023 | |
Итака | Первая глубокая нейронная сеть для текстового восстановления, географической и хронологической атрибуции древнегреческих надписей. |
другие |
| 21.11.2023 | |
PixArt-Σ | Обучение диффузионного преобразователя от слабого до сильного для преобразования текста в изображение 4K |
другие |
| 07.11.2023 | |
Ноль123++ | Модель диффузии с кондиционированием изображения для создания 3D-согласованных многоракурсных изображений из одного входного изображения. |
другие |
| 26.10.2023 | |
УниФормерV2 | Унифицированный преобразователь для эффективного обучения пространственно-временным представлениям |
другие |
| 20.10.2023 | |
Шоу-1 | Гибридная модель, получившая название Show-1, которая объединяет VDM на основе пикселей и скрытых данных для генерации текста в видео. |
другие |
| 15.10.2023 | |
Аудиосентябрь | Базовая модель для разделения аудиоисточников в открытой области с помощью запросов на естественном языке |
другие |
| 12.10.2023 | |
ДА-КЛИП | Модель языка видения, учитывающая деградацию, для лучшей передачи предварительно обученных моделей языка видения для задач машинного зрения низкого уровня в качестве универсальной основы для восстановления изображений. |
|
| 11.10.2023 | |
SadTalker | Генерирует трехмерные коэффициенты движения 3DMM из аудио и неявно модулирует новый трехмерный рендеринг лица для генерации говорящей головы. |
другие |
| 10.10.2023 | |
Музыка | Система генерации музыки, которая может обучаться на сотнях часов музыки с использованием одного потребительского графического процессора и позволяет гораздо быстрее генерировать музыку произвольной длины в реальном времени на потребительском процессоре. |
|
| 09.10.2023 | |
YOLOv6 | Одноэтапная система обнаружения объектов, предназначенная для промышленного применения. |
|
| 08.10.2023 | |
DreamGaussian | Алгоритм преобразования 3D-гауссианов в текстурированные сетки и применения этапа тонкой настройки для уточнения деталей. |
|
| 04.10.2023 | |
ИКОНА | Учитывая набор изображений, метод оценивает детальную трехмерную поверхность каждого изображения, а затем объединяет их в анимационный аватар. |
|
| 31.08.2023 | |
ДИНОВов2 | Создавайте высокопроизводительные визуальные функции, которые можно напрямую использовать с такими простыми классификаторами, как линейные слои, в различных задачах компьютерного зрения; эти визуальные функции надежны и хорошо работают в разных областях без необходимости тонкой настройки. |
другие |
| 31.08.2023 | |
СОВА-ВИТ | Простое обнаружение объектов с открытым словарем с помощью преобразователей зрения |
другие | 21.08.2023 | ||
СтильGAN3 | Генеративно-состязательные сети без псевдонимов |
другие |
| 13.08.2023 | |
FateZero | Метод редактирования текста с нулевым кадром для реальных видео без обучения каждому запросу или использования специальной маски. |
другие |
| 13.08.2023 | |
Большой ГАН | Крупномасштабное обучение GAN для высокоточного синтеза естественных изображений |
| 03.08.2023 | ||
Лама | Устойчивое к разрешению окрашивание большой маски со свертками Фурье |
другие |
| 02.08.2023 | |
MakeItTalk | Метод, который генерирует выразительные видео «говорящей головы» на основе одного изображения лица со звуком в качестве единственного входного сигнала. |
другие |
| 27.07.2023 | |
ПриветДТ | Генеративная модель преобразования изображения в изображение и новая схема повышения дискретизации, которая позволяет применять перевод изображений с высоким разрешением. |
|
| 24.07.2023 | |
КАТЛЕР | Простой подход к обучению моделей обнаружения и сегментации неконтролируемых объектов |
|
| 24.07.2023 | |
Распознавать что угодно и Tag2Text | Структура предварительной подготовки языка визуального представления, которая вводит теги изображений в модели визуального языка для управления изучением визуально-лингвистических функций. |
другие |
| 07.09.2023 | |
Модель сплайнового движения тонкой пластины | Комплексная неконтролируемая система передачи движения |
|
| 07.07.2023 | |
ПеретащитеГАН | Перетащите свой GAN: интерактивное точечное манипулирование генеративным многообразием изображений |
другие |
| 07.03.2023 | |
МобилСАМ | На пути к облегченному SAM для мобильных приложений |
другие |
| 30.06.2023 | |
Заземление ДИНО | Объединение DINO с обоснованной предварительной тренировкой для обнаружения объектов открытого набора |
другие |
| 28.06.2023 | |
Т5Х | Модульная, компонуемая, удобная для исследований структура для высокопроизводительного, настраиваемого, самостоятельного обучения, оценки и вывода моделей последовательностей во многих масштабах. |
другие |
| 27.06.2023 | |
КодТалкер | Используйте речевую анимацию лица в качестве задачи запроса кода в конечном прокси-пространстве изученной кодовой книги, что эффективно повышает яркость генерируемых движений за счет уменьшения неопределенности кросс-модального отображения. |
другие |
| 16.06.2023 | |
Модель движения первого порядка для анимации изображений | Перенос мимики с видео на изображение | Александр Серохин |
| 04.06.2023 | |
Параллельный WaveGAN | Современные неавторегрессивные модели для создания собственного великолепного вокодера | Томоки Хаяси |
| 01.06.2023 | |
ЭКОНО | разработан для «оцифровки человека из цветного изображения», который сочетает в себе лучшие свойства неявных и явных представлений, чтобы получить высококачественные трехмерные изображения людей в одежде из изображений в дикой природе, даже в свободной одежде или в сложных позах. |
|
| 31.05.2023 | |
ММС | Проект «Массовая многоязычная речь» расширяет речевую технологию со 100 до более чем 1000 языков за счет создания единой многоязычной модели распознавания речи, поддерживающей более 1100 языков, моделей идентификации языка, способных идентифицировать более 4000 языков, предварительно обученных моделей, поддерживающих более 1400 языков, и преобразования текста в речевые модели для более чем 1100 языков |
другие |
| 26.05.2023 | |
ПОТРЯСАЮЩИЙ | Flow AIS Bootstrap использует AIS для генерации образцов в регионах, где поток плохо приближается к целевому, что облегчает обнаружение новых режимов. |
|
| 29.04.2023 | |
КодБывший | Сеть прогнозирования на основе преобразователей для моделирования глобального состава и контекста лиц низкого качества для прогнозирования кода, что позволяет обнаруживать естественные лица, которые близко приближаются к целевым лицам, даже если входные данные сильно ухудшены. |
|
| 21.04.2023 | |
Text2Video-ноль | Модели диффузии текста в изображение — это генераторы видео с нулевым кадром |
другие |
| 11.04.2023 | |
Сегментируйте что угодно | Модель Segment Anything создает высококачественные маски объектов из подсказок ввода, таких как точки или прямоугольники, и ее можно использовать для создания масок для всех объектов на изображении. |
другие |
| 10.04.2023 | |
Следуй за своей позой | Двухэтапная схема обучения, которая может использовать пары поз изображений и наборы видеоданных без поз, а также предварительно обученную модель преобразования текста в изображение для получения видео персонажей с управляемой позой. |
другие |
| 07.04.2023 | |
Ева3D | Высококачественная безусловная 3D-генеративная модель человека, для обучения которой требуются только коллекции 2D-изображений. |
|
| 06.04.2023 | |
Стабильный Dreamfusion | Использование предварительно обученной 2D-модели диффузии текста в изображение для выполнения синтеза текста в 3D. |
|
| 04.04.2023 | |
ПИФуHD | Многоуровневая неявная функция с выравниванием по пикселям для оцифровки трехмерных изображений человека с высоким разрешением |
|
| 26.03.2023 | |
ВидеоReTalking | Система для редактирования лиц реального видео говорящей головы в соответствии с входным звуком, создавая высококачественное выходное видео с синхронизацией губ даже с разными эмоциями. |
другие |
| 19.03.2023 | |
Визуальный чатGPT | Соединяет ChatGPT и ряд моделей Visual Foundation, позволяя отправлять и получать изображения во время чата. |
другие |
| 15.03.2023 | |
Настроить видео | Одноразовая настройка моделей распространения изображений для преобразования текста в видео |
другие |
| 23.02.2023 | |
ГПЕН | Встроенная сеть GAN Prior для восстановления слепых лиц в дикой природе |
|
| 15.02.2023 | |
ПиМАФ-X | Основанный на кегрессии подход к восстановлению параметрических моделей всего тела по монокулярным изображениям |
другие |
| 14.02.2023 | |
Дискотека Диффузия | Франкенштейновское объединение блокнотов, моделей и техник для создания искусственного интеллекта и анимации. |
|
| 11.02.2023 | |
ГруВАЭ | Некоторые приложения машинного обучения для создания и управления битами и игрой на барабанах |
|
| 02.02.2023 | |
Многодорожечная музыкаVAE | Модели в этом ноутбуке способны кодировать и декодировать отдельные такты до 8 треков, опционально с учетом основного аккорда. |
другие |
| 02.02.2023 | |
МузыкаVAE | Иерархическая модель скрытого вектора для изучения долгосрочной структуры музыки |
|
| 02.02.2023 | |
Учимся рисовать | Учимся рисовать с помощью глубокого обучения с подкреплением на основе моделей | Мануэль Ромеро | 01.02.2023 | ||
Мгновенный NGP | Примитивы мгновенной нейронной графики с хеш-кодированием с несколькими разрешениями |
|
| 18.01.2023 | |
Сети признаков Фурье | Функции Фурье позволяют сетям изучать высокочастотные функции в низкоразмерных областях |
другие |
| 17.01.2023 | |
АльфаПоза | Региональная оценка и отслеживание позы всего тела нескольких человек в режиме реального времени |
другие |
| 01.07.2023 | |
ГибрИК | Гибридное аналитически-нейронное решение обратной кинематики для трехмерной оценки позы и формы человека |
другие |
| 01.01.2023 | |
Оценка якобианской цепочки | Примените цепное правило к изученным градиентам и выполните обратное распространение оценки диффузионной модели через якобиан дифференцируемого средства визуализации, экземпляр которого мы создаем как поле воксельного излучения. |
|
| 05.12.2022 | |
Демукс | Гибридная спектрограмма и разделение источников сигналов | Александр Дефосс |
| 21.11.2022 | |
СтильCLIP | Текстовое управление StyleGAN Imager |
|
| 30.10.2022 | |
ДвижениеДиффузный | Первая платформа генерации текстовых движений на основе модели диффузии, которая демонстрирует несколько желаемых свойств по сравнению с существующими методами. |
другие |
| 13.10.2022 | |
VToonify | Использует слои StyleGAN среднего и высокого разрешения для рендеринга высококачественных художественных портретов на основе многомасштабных функций контента, извлеченных кодировщиком, для лучшего сохранения деталей кадра. |
|
| 07.10.2022 | |
ПиМАФ | Выравнивание пирамидальной сетки. Цикл обратной связи в регрессионной сети для восстановления хорошо выровненной сетки тела и ее расширения для восстановления выразительных моделей всего тела. |
другие |
| 06.10.2022 | |
АльфаТензор | Открытие более быстрых алгоритмов умножения матриц с помощью обучения с подкреплением |
другие |
| 04.10.2022 | |
Свин2СР | Новый Swin Transformer V2 для улучшения SwinIR для обеспечения сверхразрешения изображений и, в частности, сценария сжатого ввода. |
|
| 03.10.2022 | |
Функция | От данных к функциям: ваша точка данных — это функция, и вы можете относиться к ней как к функции. |
|
| 24.09.2022 | |
Шепот | Система автоматического распознавания речи, обученная на 680 000 часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. |
другие |
| 21.09.2022 | |
ДеОлдифай (видео) | Раскрашивайте свои видео! | Джейсон Антик |
| 19.09.2022 | |
ДеОлдифай (фото) | Раскрасьте свои фотографии! |
|
| 19.09.2022 | |
Реал-ESRGAN | Расширьте возможности ESRGAN до практического приложения для восстановления, которое обучается на чистых синтетических данных. |
|
| 18.09.2022 | |
IDE-3D | Интерактивное распутанное редактирование для синтеза портретов высокого разрешения с поддержкой 3D |
другие |
| 08.09.2022 | |
Трансформаторы решений | Архитектура, которая рассматривает проблему RL как модель условной последовательности.
Расширять
Дополнительная информация
Связанные приложения
Рекомендуем вам
Связанные новости
Все
|