lad gpt
October 2023 Release
이 저장소는 WhatsApp 채팅 메시지만을 기반으로 문자 수준 또는 단어 수준 언어 모델의 훈련을 용이하게 합니다. 모델 훈련 후에는 Whatsapp 채팅 그룹에서 훈련받은 사람과 종합적인 대화를 시작할 수 있습니다.
assets/input/chat.txt
는 실제 채팅 메시지 모음으로 대체되는 자리 표시자일 뿐입니다. |-- assets
| |-- input
| | |-- chat.txt
| |-- output
| | |-- contacts.txt
| | |-- vocab.txt
| | |-- train.pt
| | |-- valid.pt
| |-- models
| | |--model.pt
|-- src
| |-- chat.py
| |-- model.py
| |-- preprocess.py
| |-- train.py
| |-- utils.py
|-- config.py
|-- run.py
assets/input/chat.txt:
입력 파일은 내보낸 WhatsApp 채팅이어야 합니다(미디어 없음).assets/output/:
인코딩된 훈련/검증 데이터와 훈련된 모델이 이 지역에 기록됩니다.assets/models/model.pt:
훈련된 pytorch 모델 객체.src/preprocess.py:
채팅 메시지를 인코딩된 PyTorch 텐서로 변환합니다. 데이터는 훈련 세트와 검증 세트로 분할됩니다.src/model.py:
언어 모델 클래스를 정의합니다.src/train.py:
언어 모델을 훈련하기 위한 코드가 포함되어 있습니다.src/chat.py:
모델과의 대화식 상호 작용을 위한 기능이 포함되어 있습니다.src/utils.py:
기타 유용한 유틸리티 기능.run.py:
세 가지 작업("preprocess", "train", "chat") 중 하나를 호출하기 위한 인수 파서가 있는 기본 스크립트입니다.config.py:
전처리 및 모델 학습을 위한 매개변수가 기록됩니다. git clone https://github.com/bernhard-pfann/lad-gpt.git
cd lad-gpt
pip install -r requirements.txt
이 프로젝트를 최대한 활용하려면 WhatsApp 채팅 메시지가 포함된 .txt 파일이 필요합니다. WhatsApp 그룹 채팅을 .txt 파일로 내보내는 단계는 다음과 같습니다.
.txt 파일이 있으면 chat.txt
라는 assets/input
디렉터리에 넣습니다. 그러면 갈 준비가 된 것입니다!
입력 데이터가 준비되면 채팅을 숫자 텐서로 인코딩해야 합니다. 인코딩된 데이터는 훈련 세트와 검증 세트로 분할됩니다.
python run.py preprocess
인코딩된 채팅 데이터만을 기반으로 언어 모델을 처음부터 훈련합니다. 이미 모델을 계속 훈련하려면 --update
설정하세요.
python run.py train --update
학습된 모델과의 채팅을 시작하려면 다음을 수행하세요.
python run.py chat