자연어 처리: 제로에서 영웅으로!
NLP 이론 및 실습 경험에 오신 것을 환영합니다.
이 저장소에서는 토큰화기부터 Transformer 아키텍처까지 NLP 세계를 시작하는 데 필요한 거의 모든 것을 다루었습니다. 이 과정을 마치면 NLP의 핵심 개념을 확실하게 이해하게 될 것입니다.
이 저장소의 동기는 여러분에게 핵심 직관을 제공하는 것이며, 이 과정이 끝나면 여러분은 수년에 걸쳐 사물이 어떻게 발전했는지, 왜 현재의 상태인지 알게 될 것입니다.
표의 문자로 생성된 이미지
목차
1. 토큰화
2. 전처리
3. 단어와 유사성 가방
4. TF-IDF 및 문서 검색
5. 나이브 베이즈 텍스트 분류
6. LDA 주제 모델링
7. 단어 임베딩
8. 순환 신경망(RNN) 및 언어 모델링
9. 기계 번역 및 주의
10. 트랜스포머
이 저장소를 어떻게 사용하나요?
- ML, DL에 필요한 컴퓨팅 성능을 고려하면 Google Colab 또는 Kaggle Kernels를 사용하는 것이 좋습니다.
- 아이콘을 클릭하면 Colab에서 노트북을 열 수 있습니다.
- 를 클릭하면 Kaggle에서 노트북을 열 수 있습니다.
- 일부 노트북의 경우 Kaggle 데이터 세트가 사용되며 일부는 기가바이트 단위입니다.
- 해당 데이터 세트를 더 빠르게 로드하려면 해당 태그를 사용하여 Kaggle에서 여는 것이 좋습니다.
- Kaggle Kernel을 열면 노트북에 필요한 데이터 세트가 직접 첨부되지 않습니다.
- 해당 노트북에 링크가 제공되는 데이터 세트를 첨부해야 하며, 해당 노트북을 진행하면서 찾을 수 있습니다.
-
Tokenization
노트북으로 시작하여 순차적으로 진행하세요. - 개념과 코드를 이해하는 데 시간을 투자하세요. 이해하기 쉽고 자신의 속도에 맞춰 수행할 수 있도록 특별히 설계되었습니다.
- 시작하기 전에 Python 프로그래밍에 대한 기본적인 이해가 있는지 확인하세요.
- 문제가 발생하거나 질문이 있는 경우 언제든지 GitHub 저장소에서 문제를 열어주세요.
- 도움이 된다면 저장소에 별표 표시하는 것을 잊지 마세요!
기여
이 저장소에 기여하는 것을 환영합니다. 이슈를 열거나 끌어오기 요청을 제출하여 시작할 수 있습니다. 궁금한 점이 있으시면 언제든지 X로 연락주세요.
다른 사람들에게 도움이 될 것이라고 생각되는 리소스가 있다면 자유롭게 이슈를 열거나 끌어오기 요청을 제출해 주세요.
특허
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.
스타의 역사