이 저장소는 seq2seq(All You Need is Attention 문서의 원래 아키텍처), 인코더 전용, 디코더 전용 및 통합 변환기 모델을 포함하여 다양한 형태의 변환기 모델을 구현하는 것을 목표로 합니다.
이러한 모델은 모든 작업에 있어서 최신 기술을 의미하지는 않습니다. 대신, 고급 프로그래밍 기술을 익히고 딥 러닝과 기계 지능에 대한 사랑을 공유하는 사람들에 대한 참고 자료를 제공한다는 목적으로 제공됩니다.
이 작업은 NanoGPT, ViT, MAE, CLIP 및 OpenCLIP의 오픈 소스 저장소에서 영감을 얻었으며 없이는 불가능합니다. 모델을 오픈소스로 제공해주셔서 정말 감사드립니다!
이 저장소는 또한 변압기 모델의 최근 진행 상황에 대한 문서 목록을 유지 관리합니다.
이 저장소에는 다음과 같은 디자인 목록이 있습니다.
현재 자체 감독 방식으로 훈련된 ViT의 변형인 DINO를 구현하는 작업을 진행 중입니다.
모델 | 구현됨 | 훈련을 받은 | 평가됨 |
---|---|---|---|
변신 로봇 | ✅ | 아니요 | 아니요 |
GPT | ✅ | 아니요 | 아니요 |
버트 | ✅ | 예 | 아니요 |
ViT | ✅ | 아니요 | 아니요 |
매 | 아니요 | 아니요 | 아니요 |
클립 | 아니요 | 아니요 | 아니요 |
면책 조항 : Transformers의 인기와 다양성으로 인해 Transformer 모델의 일부 또는 전체 구현과 관련된 과정 과제가 많이 있을 것입니다. 이 저장소는 순전히 자가 학습 목적으로 개발되었으며 Transformer 모델 구현을 위한 참조 역할을 할 수 있습니다. 그러나 이 저장소에서 직접 복사하는 것은 엄격히 금지되어 있으며 대부분의 학술 기관의 행동 강령을 위반하는 것입니다.
Transformer가 무엇인지 또는 Transformer의 세부 아키텍처가 어떻게 생겼는지에 대한 정보가 필요한 사람들은 잘 설명된 블로그(http://nlp.seas.harvard.edu/annotated-transformer/#Background)를 참조하십시오.
다음은 Meta AI가 출시한 오픈 소스 LLm인 LLaMA2가 생성한 시입니다. 주의만 있으면 됩니다.
말한 내용을 이해하고 읽으십시오.
트랜스포머는 관계를 배우고,
다중 헤드 관심을 통해.
인코더, 디코더 아키텍처,
좋은 이미지를 위한 기능을 학습합니다.
대규모 데이터 세트에 대한 교육,
성능이 빨라집니다.
시퀀스 대 시퀀스를 기반으로 구축되었으며,
병렬 컴퓨팅을 통해 유연성을 발휘하는 데 드는 시간을 절약할 수 있습니다.
언어, 텍스트, 음성을 이해하고,
딥 러닝을 통해 균형을 잡았습니다.
작업에 구애받지 않고 폭넓은 사용성,
AI 민첩성의 발전을 주도합니다.
NLP를 새로운 차원으로 끌어올려
트랜스포머는 그들의 힘을 보여줍니다.