Удивительные модели
Основная модель представляет собой крупномасштабную предварительную модель (например, Bert, Dall-E, GPT-3), которая может быть адаптирована к широкому диапазону нижестоящих приложений. Этот термин впервые был популяризирован Стэнфордским институтом искусственного интеллекта, ориентированного на человека. Этот репозиторий сохраняет кураторный список моделей фундамента для видения и языковых задач. Исследовательские работы без кода не включены.
Опрос
2024
- Языковые агенты (от Princeton Shunyu Yao, докторская диссертация. Blog1, Blog2)
- Систематический опрос о крупных языковых моделях для дизайна алгоритма (из City Univ. Гонконга)
- Сегментация изображений в эпоху модели фундамента: опрос (из Пекинского технологического института)
- На пути к зрению модель гео-основания: опрос (из Технологического университета Наняна)
- Введение в моделирование на языке зрения (из Meta)
- Эволюция мультимодальной модели архитектуры (из Университета Пердью)
- Эффективные мультимодальные крупные языковые модели: опрос (от Tencent)
- Фонд модели для понимания видео: опрос (из университета Аалборга)
- Сора симулятор мира? Комплексный опрос по моделям общего мира и за его пределами (от Gigaai)
- Проспективная роль моделей фундамента в продвижении автономных транспортных средств (из Университета Тонгджи)
- Параметр-эффективная тонкая настройка для крупных моделей: комплексный опрос (из Северо-Восточного университета)
- Обзор фона, технологий, ограничений и возможностей моделей крупных зрения (от Lehigh)
- Большие мультимодальные агенты: опрос (из CUHK)
- Странная долина: всесторонний анализ диффузионных моделей (из Мила)
- Реал-роботы приложения моделей фонда: обзор (из Университета Токио)
- От GPT-4 до Близнецов и за его пределами: оценка ландшафта MLLM по обобщению, достоверности и причинности в течение четырех методов (из лаборатории Шанхая ИИ)
- На пути к объединению генеративной и дискриминационной модели визуального фонда: опрос (из JHU)
До 2024 года
- Основополагающие модели в медицинской визуализации: комплексный опрос и будущее видение (от SDSU)
- Модели мультимодального фонда: от специалистов до помощников общего назначения (от Microsoft)
- На пути к модели генерального фонда для радиологии (от SJTU)
- Основополагающие модели, определяющие новую эру в видении: опрос и перспективы (из Университета ИИ МБЗ)
- На пути к биомедицинскому ИИ (из Google)
- Систематическое обследование быстрого инженера на моделях фонда на языке зрения (из Оксфорда)
- Большие мультимодальные модели: примечания на учебник CVPR 2023 (от Chunyuan Li, Microsoft)
- Опрос о мультимодальных крупных языковых моделях (от USTC и Tencent)
- Модели зрения для задач зрения: опрос (из Технологического университета Наняна)
- Фонд модели для генерального медицинского искусственного интеллекта (из Стэнфорда)
- Комплексный опрос по предварительному фонду моделей: история от Bert до CHATGPT
- Комплексное обследование контента, сгенерированного AI (AIGC): история генеративного искусственного интеллекта от Gan до Chatgpt
- Предварительное обучение на языке зрения: основы, последние достижения и будущие тенденции
- О возможностях и рисках моделей фундамента (этот опрос сначала популяризирует концепцию модели фундамента; от Стэндфорда)
Документы по дате
2024
- [11/14] Законы масштабирования точности (из Гарварда)
- [11/13] Neuralfeels с нейронными полями: визуатактивное восприятие для манипуляции в руках (из мета)
- [11/07] Dino-Wm: World Models на предварительно обученных визуальных функциях обеспечивают планирование с нулевым выстрелом (из Нью-Йоркского университета)
- [10/31] Проект SID: моделирование множества агентов в направлении цивилизации ИИ (от Altera.al)
- [10/30] Tokenformer: переосмысление масштабирования трансформатора с помощью токеновых параметров модели (из Института информатики Макса Планка)
- [10/30] Центрирование вознаграждения (от Ричарда Саттона, Университет Альберты)
- [10/21] Долгосрочная память: основание самоэволюции ИИ (из Института Тянькио и Крисси Чен)
- [10/10] увеличивая ваши ядра: большая конструкция ядра в Convnets к универсальным представлениям (от CUHK)
- [10/04] Movie Gen: актерский состав моделей Media Foundation (из Meta)
- [10/02] Были ли RNNS все, что нам было нужно? (из Мила)
- [10/01] NGPT: нормализованный трансформатор с изучением представления о гиперсфере (из NVIDIA)
- [09/30] MM1.5: Методы, анализ и понимание мультимодальной точной настройки LLM (из Apple)
- [09/27] EMU3: предсказание следующего ток
- [09/25] Molmo и Pixmo: открытые веса и открытые данные для современных мультимодальных моделей (от Allen AI)
- [09/18] QWEN2-VL: улучшение восприятия модели на языке зрений в любом разрешении (из Alibaba)
- [09/18] Моши: модель фонда речевого текста для диалога в реальном времени (из Кьютай)
- [08/27] Модели диффузии-это игровые двигатели в реальном времени (от Google)
- [08/22] Sapiens: Foundation для моделей человеческого зрения (из Meta)
- [08/14] Imagen 3 (из Google DeepMind)
- [07/31] стадо ламы 3 моделей (из Meta)
- [07/29] Сэм 2: сегмент что угодно на изображениях и видео (из Meta)
- [07/24] Partglee: модель фундамента для распознавания и анализа любых объектов (от Hust и Bytedance)
- [07/17] Ева: открытие моделей на языке зрений без кодеров (от BAAI)
- [07/12] Трансформерные слои как художники (от Сакана Ай)
- [06/24] Cambrian-1: полностью открытое, ориентированное на зрение исследование мультимодальных LLM (из NYU)
- [06/13] 4M-21: модель Any-To-Any Vision для десятков задач и модальностей (от EPFL и Apple)
- [06/10] Мерлин: модель языка видения для 3D -компьютерной томографии (из Стэнфорда. Код будет доступен.)
- [06/06] Vision-LSTM: XLSTM как общее зрение (от авторов LSTM)
- [05/31] Meshxl: Поле нервной координаты для генеративных моделей трехмерного фундамента (от Fudan)
- [05/25] Moeut: Universal Transformers Mixture-Of Experts (из Стэнфорда)
- [05/22] Внимание как RNN (от Mila & Borealis AI)
- [05/22] Гигапат: модель фонда целоголайда для цифровой патологии из реальных данных (от природы)
- [05/21] BiomedParse: модель биомедицинского основания для биомедицинского анализа изображений (от Microsoft. Версия журнала)
- [05/20] OCTO: Политика генерального робота с открытым исходным кодом (от UC Berkeley)
- [05/17] Законы о масштабировании наблюдательного масштаба и предсказуемость производительности языковой модели (FRO Standford)
- [05/14] Понимание разрыва в производительности между алгоритмами онлайн и автономного выравнивания (из Google)
- [05/09] Lumina-T2X: преобразование текста в любую модальность, разрешение и продолжительность с помощью больших диффузионных трансформаторов на основе потока (из лаборатории Shanghai AI)
- [05/08] Вы кэш только один раз: архитектура декодера-декодера для языковых моделей
- [05/07] XLSTM: расширенная длинная кратковременная память (от Sepp Hochreiter, автора LSTM.)
- [05/06] Содействие мультимодальным медицинским возможностям Близнецов (из Google)
- [05/04] U-DITS: токены DownSample в U-образных диффузионных трансформаторах (из университета Пекинга)
- [05/03] Vibe-Eval: набор жесткой оценки для измерения прогресса моделей мультимодального языка
- [04/30] Кан: Сети Колмогоров-Арнольд (многообещающие альтернативы MLP. Из MIT)
- [04/26] Как далеко мы можем GPT-4V? Закрытие пробела к коммерческим мультимодальным моделям с люксами с открытым исходным кодом (Internvl 1.5. Из Shanghai AI Lab)
- [04/14] Transformerfam: Внимание обратной связи - это рабочая память (из Google. Эффективное внимание.)
- [04/10] не оставляйте контекста позади: Эффективные бесконечные контекстные трансформаторы с бесконечным вниманием (из Google)
- [04/02] Octopus V2: модель языка на Device для Super Agent (из Стэнфорда)
- [04/02] Смести Depths: динамически распределять вычислительные на основе трансформатора языковые модели (из Google)
- [03/22] Internvideo2: масштабирование моделей видео фонда для многомодального понимания видео (из Shanghai AI Lab)
- [03/18] ARC2FACE: Фонд -модель человеческих лиц (из Императорского колледжа Лондона)
- [03/14] MM1: Методы, анализ и понимание из предварительной тренировки мультимодального LLM (параметры 30b. Из Apple)
- [03/09] Unigradicon: модель фонда для регистрации медицинского изображения (с холма UNC-Chapel)
- [03/05] Масштабирование выпрямленных трансформаторов потока для синтеза изображения с высоким разрешением (стабильная диффузия 3. Из стабильности AI)
- [03/01] Обучение и использование мировых моделей в области визуального представления (из Meta)
- [03/01] Visionllama: единый интерфейс ламы для задач зрения (от Meituan)
- [02/28] CLLMS: консистенция крупных языковых моделей (от SJTU)
- [02/27] Прозрачная диффузия слоя изображения с использованием скрытой прозрачности (от Стэндфорда)
- [02/22] MobileLlm: оптимизация языковых моделей параметров поджильса для вариантов использования на устройстве (из Meta)
- [02/21] Помимо ∗: лучшее планирование с трансформаторами с помощью динамики поиска. Начатка (из Meta)
- [02/20] Диффузия нейронной сети (генерирование параметров сети с помощью диффузионных моделей. Из NUS)
- [02/20] Видеопизм: основополагающий визуальный энкодер для понимания видео (из Google)
- [02/19] Подходит: Гибкий трансформатор зрения для диффузионной модели (из Shanghai AI Lab)
- [02/06] MobileVLM V2: более быстрая и более сильная базовая линия для модели языка зрения (от Meituan)
- [01/30] Yolo-World: обнаружение открытого вокабуляционного объекта в реальном времени (от Tencent и Hust)
- [01/23] Lumiere: модель диффузии пространства-времени для генерации видео (из Google)
- [01/22] CHEXAGENT: к модели фундамента для интерпретации рентгеновских лучей (из Стэнфорда)
- [01/19] глубина.
- [01/16] SIT: Изучение генеративных моделей на основе потока и диффузии с масштабируемыми межполанными трансформаторами (из NYU)
- [01/15] instantid: поколение идентификации с нулевым выстрелом за секунды (от Xiaohongshu)
2023
- BioClip: модель фонда Vision для дерева жизни (CVPR 2024 Лучшая студенческая бумага)
- Мамба: моделирование последовательности линейного времени с селективными пространствами состояния (мамба, по-видимому, превосходит трансформаторы одинакового размера, а линейно масштабируется с длиной последовательности. Из CMU)
- Foundation: Unified 6D Pose Acvation и отслеживание новых объектов (из NVIDIA)
- Отслеживая все повсюду одновременно (из Корнелла, ICCV 2023 Лучшая студенческая бумага)
- Фонд модели для генерального геопространственного искусственного интеллекта (от IBM и НАСА)
- Llama 2: Open Foundation и модели с тонко настроенными чатами (от Meta)
- Internlm-xcomposer: большая модель на языке зрения для расширенного понимания и композиции текста-изображения (из лаборатории Shanghai AI)
- Всевидящий проект: к паноптическому визуальному распознаванию и пониманию открытого мира (из лаборатории Шанхая ИИ)
- Мета-трансформатор: унифицированная структура для мультимодального обучения (от CuHK и Shanghai AI Lab)
- Удерживающая сеть: преемник трансформатора для крупных языковых моделей (из Университета Microsoft и Tsinghua)
- Нейронные мировые модели для компьютерного зрения (докторская диссертация Энтони Ху из Кембриджского университета)
- Признайте что угодно: сильная модель тегации изображения (сильная модель фундамента для тега изображения. От Oppo)
- На пути к визуальным моделям физических сцен (описывается первый шаг к изучению общего назначения визуальных представлений физических сцен, используя только прогноз изображения в качестве критерия обучения; от AWS)
- Лима: меньше для выравнивания (параметры 65B, из мета)
- Palm 2 Технический отчет (из Google)
- ImageBind: одно встроенное пространство, чтобы связать их все (от Meta)
- Настройка визуальной инструкции (Llava, из U of Wisconsin-Madison и Microsoft)
- Кажется: сегментируйте все повсюду одновременно (из Университета Висконсин-Мэдисон, HKUST и Microsoft)
- Сэм: сегмент что угодно (первая модель фундамента для сегментации изображений; от Meta)
- Seggpt: сегментирование всего в контексте (от Baai, Zju и PKU)
- Изображения говорят на изображениях: художник-универсальный визуальный обучение в контексте (от Baai, ZJU и PKU)
- Unidector: обнаружение всего в открытом мире: к универсальному обнаружению объектов (CVPR, от Tsinghua и Bnrist)
- Unmasked Учитель: На пути к моделям видео-фонда (из Китайской академии наук, Академии наук Университета Китая, Лаборатория Шанхайского AI)
- Визуальная подсказка многомодального отслеживания (из Далянского технологического университета и лаборатории Peng Cheng)
- На пути к созданию общих моделей фундамента для языка, видения и понимания зрений (из байеданса)
- Eva-clip: улучшенные методы обучения для клипа в масштабе (от Baai и Hust)
- EVA-02: визуальное представление для неонового генезиса (от Baai и Hust)
- EVA-01: Изучение пределов обучения визуальному представлению в масштабе в масштабе (CVPR, от BAAI и HUST)
- Llama: открытые и эффективные модели языка фундамента (коллекция языковых моделей в диапазоне от 7b до 65b; от Meta)
- Эффективность предварительного прохождения MAE для предварительной подготовки в миллиард (от META)
- Bloomberggpt: большая языковая модель для финансов (50 миллиардов параметров; от Bloomberg)
- Блум: многоязычная языковая модель с открытым доступом 176B (эта работа была скоординирована BigScience, целью которой является демократизация LLMS.)
- Flip: масштабирование языкового изображения предварительное обучение с помощью маскировки (от Meta)
- BLIP-2: предварительное обучение языкового изображения с начальной загрузкой с замороженными кодерами изображений и большими языковыми моделями (из исследования SaleForce)
- Технический отчет GPT-4 (от OpenAI)
- Visual Chatgpt: разговор, рисование и редактирование с помощью моделей Visual Foundation (от Microsoft Research Asia)
- Uninext: универсальное восприятие экземпляра как обнаружение и поиск объекта (единая модель для 10 задач восприятия экземпляра; CVPR, от байтеданса)
- Internvideo: модели общего видео -фонда посредством генеративного и дискриминационного обучения (из Shanghai AI Lab)
- Учебное пособие: изучение крупномасштабных моделей фонда видения с деформируемыми свержениями (CVPR, из Shanghai AI Lab)
- Bridgetower: создание мостов между кодерами в обучении на языке зрения (из Института технологий Харбина и Microsoft Research Asia)
2022
- BEVT: BERT Pretrying of Video Transformers (CVPR, из Шанхайской лаборатории ключей интеллектуальной обработки информации)
- Фонд Трансформеры (от Microsoft)
- Общественный агент (известный как Gato, мультимодальный, многозадачный, мультиэмбодирующий агент, от DeepMind)
- Клетчатка: предварительная тренировка с грубым до образования зрительного языка с Fusion в основе (от Microsoft, UCLA и Нью-Йоркского университета)
- Flamingo: модель визуального языка для нескольких выстрелов (от DeepMind)
- Metalm: Языковые модели-это интерфейсы общего назначения (от Microsoft)
- Point-E: Система для генерации трехмерных облаков точек из сложных подсказок (эффективная генерация трехмерных объектов с использованием диффузионной модели текста до изображения; от OpenAI)
- Сегментация изображения с использованием текстовых и изображений (CVPR, из Университета Геттингена)
- Объединяющий поток, оценка стерео и глубины (унифицированная модель для трех задач движения и трехмерного восприятия; из Zurich) из Цюриха)
- Пали: совместно масштабированная многоязычная модель языка (из Google)
- Videomae: AutoEncoders в масках-это эффективные данные для самоотверженных видео предварительного обучения (Neurips, из Университета Нанкин, Tencent и Shanghai AI Lab)
- Слипать: самоотверждение встречает предварительное обучение языкового изображения (ECCV, из UC Berkeley и Meta)
- GLIPV2: объединение локализации и понимания VL (Neurips'22, от UW, Meta, Microsoft и UCLA)
- GLIP: обоснованный язык-изображение (CVPR, от UCLA и Microsoft)
- Blip: начальная загрузка языкового изображения предварительного обучения для Unified Vision Language Infly и Generation (из исследований Salesforce)
- Nuwa-Infinity: Autoregressive Of Autoregressing Generation для бесконечного визуального синтеза (от Microsoft)
- Palm: Моделирование языка масштабирования с помощью путей (из Google)
- Coca: контрастные подписи являются моделями фонда с изображением текста (от Google)
- Parti: масштабирование авторегрессивных моделей для богатого контентом генерации текста до изображения (от Google)
- Унифицированный интерфейс последовательности для задач зрения (из Google Research, Brain Team)
- Imagen: фотореалистические модели диффузии текста до изображения с глубоким языком понимание (от Google)
- Стабильная диффузия: синтез изображения с высоким разрешением с скрытыми диффузионными моделями (CVPR, от стабильности и взлетно-посадочной полосы)
- Помимо имитационной игры: количественная оценка и экстраполирование возможностей языковых моделей (Big-Bench: 204-задача чрезвычайно сложный и разнообразный эталон для LLMS, 444 автора из 132 учреждений)
- CRIS: клип-ориентированная сегментация изображений (из Университета Сиднея и Оппо)
- Автокодеры в масках как пространственно -временные ученики (расширение MAE на видео; Neurips, от Meta)
- Автоэнкодеры в масках - это масштабируемые ученики зрения (CVPR 2022, от Fair)
- Инструктор: модели обучения языковым языкам, чтобы следовать инструкциям с отзывами человека (обучен с людьми в цикле; от Openai)
- Унифицированный интерфейс последовательности для задач зрения (Neurips 2022, от Google)
- Dall-E2: иерархическая генерация текстовых кондиционированных изображений с задержками клипа (от Openai)
- Надежная и эффективная медицинская визуализация с самооценкой (от Google, Georgia Tech и Northwestern University)
- Video Swin Transformer (CVPR, от Microsoft Research Asia)
- OFA: объединение архитектур, задач и модальностей через простую структуру обучения последовательности к последовательности (ICML 2022. Из Alibaba.)
- Mask2former: Трансформатор маски для маскируемой маски для универсальной сегментации изображений (CVPR 2022, от Fair и UIUC)
- Flava: модель выравнивания фундаментальных языков и видения (CVPR, из исследования Facebook AI)
- На пути к искусственному общему интеллекту через модель мультимодального фонда (Nature Communication, от Китайского университета Ренмина)
- Филип: мелкозернистое интерактивное предварительное обучение языкового изображения (ICLR, от Huawei и Hkust)
- SIMVLM: Простая модель визуального языка предварительно подготовлена со слабым надзором (ICLR, от CMU и Google)
- Глид: к фотореалистическому генерации изображений и редактированию с помощью текстовых диффузионных моделей (от OpenAI)
2021
- Объединение задач зрения и языка через генерацию текста (от холма UNC-Chapel)
- Выравнивание: масштабирование визуального и зрительного репрезентации обучения с шумным контролем текста (PMLR, из Google)
- Блок: мультимодальное многозадачное обучение с унифицированным трансформатором (ICCV, от Fair)
- Венлан: Соединение зрения и языка с помощью крупномасштабного мультимодального предварительного обучения (в этой статье представлена первая крупномасштабная китайская мультимодальная модель предварительного обучения под названием Brivl; из Китайского университета Ренмина)
- Кодекс: оценка крупных языковых моделей, обученных коду (модель языка GPT, созданную на открытом коде от Github, от Openai и Anpry AI)
- Флоренция: новая модель фундамента для компьютерного видения (от Microsoft)
- Dall-e: генерация с нулевым выстрелом для текста до изображения (от Openai)
- CLIP: Обучение переносимым визуальным моделям из естественного языка (от OpenAI)
- Мультимодальное обучение с несколькими выстрелами с моделями замороженного языка (Neurips, от DeepMind)
- Трансформатор SUVIN: иерархическое трансформатор зрения с использованием смещенных Windows (ICCV, от Microsoft Research Asia)
- Изображение стоит 16x16 слов: трансформаторы для распознавания изображений в масштабе (первое видение трансфмер с чистыми блоками самопринятия; ICLR, из Google)
До 2021 года
- GPT-3: Языковые модели-это несколько выстрелов (параметры 175B; разрешает встроенное обучение по сравнению с GPT-2; от OpenAI)
- Uniter: Universal Image-Text Learning Learning (от Microsoft)
- T5: Изучение пределов обучения передачи с помощью унифицированного трансформатора текста в текст (из Google)
- GPT-2: Языковые модели-это неконтролируемые многозадачные ученики (параметры 1,5B; от OpenAI)
- LXMERT: изучение репрезентаций энкодера перекрестного модальности от трансформаторов (EMNLP, с холма UNC-Chapel)
- Берт: предварительное обучение глубоких двунаправленных трансформаторов для понимания языка (от языка Google AI)
- GPT: улучшение понимания языка путем генеративного предварительного обучения (от OpenAI)
- Внимание - это все, что вам нужно (Neurips, от Google и UOT)
Документы по теме
Большой язык/мультимодальные модели
- Ллава: настройка визуальных инструкций (из Университета Висконсин-Мэдисон)
- Minigpt-4: улучшение понимания зрений с помощью продвинутых крупных языковых моделей (от Kaust)
- Технический отчет GPT-4 (от OpenAI)
- GPT-3: Языковые модели-это несколько выстрелов (параметры 175B; разрешает встроенное обучение по сравнению с GPT-2; от OpenAI)
- GPT-2: Языковые модели-это неконтролируемые многозадачные ученики (параметры 1,5B; от OpenAI)
- GPT: улучшение понимания языка путем генеративного предварительного обучения (от OpenAI)
- Llama 2: Open Foundation и модели с тонко настроенными чатами (от Meta)
- Llama: открытые и эффективные модели языка фундамента (модели в диапазоне от 7b до 65b параметры; от Meta)
- T5: Изучение пределов обучения передачи с помощью унифицированного трансформатора текста в текст (из Google)
Линейное внимание
- Flashattention-2: более быстрое внимание с лучшим параллелизмом и рабочим разделом
- Флэндика: быстрое и эффективное память точное внимание с i-avingense
Большие тесты
- Ophnet: крупномасштабный видео-эталон для офтальмологического хирургического понимания рабочего процесса (крупномасштабный аннотированный видео-эталон для офтальмологической хирургии. Из Monash, 2024)
- MMT-Bench: комплексный мультимодальный эталон для оценки больших моделей языка зрений в направлении многозадачного AGI (от Shanghai AI Lab, 2024)
- Blink: мультимодальные крупные языковые модели могут видеть, но не восприниматься (мультимодальный эталон. Из Университета Пенсильвании, 2024)
- Сестра CAD: крупномасштабная модель CAD модель в видео RGB (видео RGB с аннотацией CAD. Из Google 2023)
- ImageNet: крупномасштабная иерархическая база данных изображений (Vision Benchmark. Из Stanford, 2009)
Правовидение предварительной подготовки
- Flip: масштабирование языкового изображения предварительное обучение с помощью маскировки (от Meta)
- BLIP-2: предварительное обучение языкового изображения с начальной загрузкой с замороженными кодерами изображений и моделями крупных языков (предлагает общую и эффективную стратегию VLP, основанную на готовых моделях замороженного видения и языка. Из исследования Salesforce)
- Blip: начальная загрузка языкового изображения предварительного обучения для Unified Vision Language Infly и Generation (из исследований Salesforce)
- Слипать: самоотверждение встречает предварительное обучение языкового изображения (ECCV, из UC Berkeley и Meta)
- GLIP: обоснованный язык-изображение (CVPR, от UCLA и Microsoft)
- Выравнивание: масштабирование визуального и зрительного репрезентации обучения с шумным контролем текста (PMLR, из Google)
- RegionClip: предварительная подготовка языка на основе региона
- CLIP: Обучение переносимым визуальным моделям из естественного языка (от OpenAI)
Задачи восприятия: обнаружение, сегментация и оценка позы
- SAM 2: сегмент что угодно на изображениях и видео (из Meta)
- Foundation: Unified 6D Pose Acvation и отслеживание новых объектов (из NVIDIA)
- Кажется: сегментируйте все повсюду одновременно (из Университета Висконсин-Мэдисон, HKUST и Microsoft)
- Сэм: сегмент что угодно (первая модель фундамента для сегментации изображений; от Meta)
- Seggpt: сегментирование всего в контексте (от Baai, Zju и PKU)
Эффективность обучения
- Зеленый ИИ (представляет концепцию Red AI против зеленого ИИ)
- Гипотеза лотерейного билета: поиск редких, обучаемых нейронных сетей (гипотеза лотерейного билета, из MIT)
К искусственному общему интеллекту (AGI)
- На пути к AGI в компьютерном видении: уроки, извлеченные из моделей GPT и крупных языков (от Huawei)
Безопасность и ответственность
- Ограничение вероятности вреда от ИИ создать ограждение (блог от Йошуа Бенгио)
- Управление экстремальными рисками ИИ на фоне быстрого прогресса (из науки, май 2024 г.)
Связанные потрясающие репозитории
- Awesome-Diffusion-Models
- Удивительные видео-диффузионные модели
- Awesome-Diffusion-Model-Methods
- Awesome-CV-Foundational-Models
- Awesome-Healthcare-Foundation-модели
- Удивительно-много-мультимодал-агенты
- Компьютерное зрение в дикой природе (CVINW)