Добро пожаловать в мой репозиторий! Я реализую архитектуру трансформатора с нуля, используя PyTorch. Я постарался пройтись по всем ключевым подкомпонентам, добавив обширные примечания и пояснения. Основная цель этого репозитория — предоставить знания и точные объяснения для каждого компонента.
Вы пройдете через все компоненты, описанные в оригинальной статье. Помимо построения архитектуры, примечания дают информацию, позволяющую понять обоснование всех блоков этой архитектуры. Я также попытался определить параметры и переменные, которые мне показались запутанными при их изучении (например, d_v против d_k).
Это блоки, которые вы научитесь создавать с помощью этого репозитория. Все они были созданы с нуля, что даст вам хорошее представление о том, что находится под капотом.
Архитектура-трансформер — это архитектура SOTA, лежащая в основе наиболее важных достижений в области искусственного интеллекта. Важно понять, что происходит в исходной реализации этого зверя. Это также хороший навык, если вы хотите пойти по пути исследований; вам нужно понять истоки, чтобы знать, что улучшить!
Ответ на этот вопрос – да. Позвольте мне объяснить.
Я бы солгал, если бы сказал вам, что с вами все в порядке, если вы не имеете опыта работы с PyTorch. Вам необходимо знать основы, например, как инициализировать объекты nn.Module, играть с тензорами или понимать, почему необходимо применять преобразования. Помимо этого, вам также потребуются базовые знания в области глубокого/машинного обучения (например, что такое линейный слой? Что такое измерения? Что такое встраивание?).