내 저장소에 오신 것을 환영합니다! 저는 PyTorch를 사용하여 처음부터 변환기 아키텍처를 구현합니다. 나는 광범위한 메모와 설명을 추가하면서 모든 주요 하위 구성 요소를 살펴보려고 노력했습니다. 이 저장소의 주요 목표는 각 구성 요소에 대한 지식과 정확한 설명을 제공하는 것입니다.
원본 문서에 설명된 모든 구성 요소를 살펴보겠습니다. 아키텍처 구축 외에도 이 노트는 이 아키텍처의 모든 블록 뒤에 있는 이론적 근거를 이해할 수 있는 통찰력을 제공합니다. 또한 연구할 때 혼동되는 매개변수와 변수(예: d_v 대 d_k)를 정의하려고 했습니다.
이 저장소를 사용하여 빌드하는 방법을 배우게 될 블록은 다음과 같습니다. 이들 모두는 처음부터 만들어졌으므로 내부 내용을 잘 이해할 수 있습니다.
변환기 아키텍처는 AI의 가장 관련성이 높은 발전을 뒷받침하는 SOTA 아키텍처입니다. 이 짐승의 원래 구현에서 무슨 일이 일어나고 있는지 이해하는 것이 중요합니다. 연구의 길을 가고자 한다면 이는 또한 좋은 기술입니다. 무엇을 개선해야 할지 알기 위해서는 기원을 이해해야 합니다!
이 질문에 대한 대답은 '예'입니다. 설명하겠습니다.
PyTorch 워크플로에 대한 배경 지식이 없어도 괜찮다고 말한다면 거짓말일 것입니다. nn.Module 객체를 초기화하는 방법, 텐서를 사용하는 방법, 변환을 적용해야 하는 이유를 이해하는 방법 등의 기본 사항을 알아야 합니다. 그 외에도 기본적인 딥러닝/머신러닝 지식도 필요합니다(예: 선형 레이어란 무엇입니까? 차원이란 무엇입니까? 임베딩이란 무엇입니까?).