Этот репозиторий предназначен для реализации различных форм модели преобразователя, включая seq2seq (исходная архитектура в документе «Все, что вам нужно — это внимание»), модели только для кодировщика, только для декодера и унифицированные модели преобразователя.
Эти модели не претендуют на звание новейших достижений в решении каких-либо задач. Вместо этого они приходят с целью овладеть передовыми навыками программирования, а также дают рекомендации людям, которые разделяют любовь к глубокому обучению и машинному интеллекту.
Эта работа вдохновлена репозиториями NanoGPT, ViT, MAE, CLIP и OpenCLIP с открытым исходным кодом и была бы невозможна без них. Огромное им спасибо за открытый исходный код своих моделей!
В этом репозитории также хранится список последних достижений в области моделей трансформаторов.
В этом репозитории представлен список дизайнов:
В настоящее время работаю над внедрением DINO, варианта ViT, обучаемого методом самоконтроля.
Модель | Реализовано | Обученный | оценено |
---|---|---|---|
Трансформатор | ✅ | Нет | Нет |
GPT | ✅ | Нет | Нет |
БЕРТ | ✅ | Да | Нет |
ВИТ | ✅ | Нет | Нет |
МАЭ | Нет | Нет | Нет |
КЛИП | Нет | Нет | Нет |
ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ : Из-за популярности и универсальности Трансформеров в курсе будет много заданий, связанных с реализацией части или всей модели Трансформера. Этот репозиторий был разработан исключительно для целей самообучения и вполне может служить справочным материалом для реализации модели Transformer. Но прямое копирование из этого репозитория строго запрещено и является нарушением кодекса поведения большинства академических институтов.
Для тех, кому нужно освежить информацию о том, что такое Transformer или как выглядит подробная архитектура Transformer, посетите хорошо иллюстрированный блог: http://nlp.seas.harvard.edu/annotated-transformer/#background.
Вот стихотворение, созданное LLaMA2, LLm с открытым исходным кодом, выпущенным Meta AI: Внимание — это все, что вам нужно,
Чтобы понять, что сказано и прочитано.
Трансформеры изучают отношения,
Через внимание нескольких голов.
Кодер, архитектура декодера,
Изучает функции для создания хороших изображений.
Обучение на больших наборах данных,
Его производительность быстрота увеличивается.
Построенный на основе последовательности за последовательностью,
Параллельные вычисления экономят время на гибкость.
Понимание языка, текста и голоса,
С глубоким обучением, которое придало ему устойчивость.
Независимость от задач, широкие возможности использования,
Обеспечение прогресса в гибкости ИИ.
Подняв НЛП на новую высоту,
Трансформеры показывают свою мощь.