개요
이 프로그램은 여러 소스의 데이터 파일을 결합하고 처리한 후 Markov Chain을 사용하여 시를 생성하는 Taylor Swift 가사 기반 시 생성기입니다. 이 프로그램은 pandas 및 NLTK를 포함한 다양한 라이브러리를 활용하여 데이터 조작, 텍스트 처리 및 자연어 처리를 처리합니다.
시스템 요구사항
소프트웨어 요구 사항
- Python(3.8 이상).
- pip: Python용 패키지 설치 프로그램입니다.
필수 패키지 설치
pip를 사용하여 필요한 패키지를 설치할 수 있습니다. 터미널이나 명령 프롬프트에서 다음 명령을 실행합니다.
pip install numpy pandas nltk
설치
- 시스템에 Python 3.8 이상이 설치되어 있는지 확인하십시오.
- pip가 시스템에 설치되어 있는지 확인하십시오.
- 코드를 다운로드하거나 리포지토리를 로컬 머신에 복제하세요.
- 텍스트 데이터("Data", "Midnights", "TheVault")가 포함된 폴더가 있는지 확인하세요.
- 터미널이나 명령 프롬프트에서 코드가 포함된 디렉터리로 이동합니다.
- 위에서 언급한 pip 명령을 실행하여 필요한 패키지를 설치합니다.
- 다음 Python 명령을 실행하여 필요한 NLTK 데이터를 다운로드합니다.
nltk.download('brown')
nltk.download('words')
nltk.download('cmudict')
생성기 실행
프로그램을 실행하려면 다음 단계를 따르세요.
- 작업 디렉터리가 코드가 포함된 디렉터리로 설정되어 있는지 확인하세요.
- 필요한 형식과 올바른 디렉터리에 데이터 파일이 있는지 확인하세요. 이 프로그램은 "Data" 폴더에 가사가 포함된 CSV 파일을, "Midnights" 및 "TheVault" 폴더에 텍스트 파일을 예상합니다.
- 터미널이나 명령 프롬프트에서 다음 명령을 사용하여 프로그램을 실행합니다.
- 프로그램은 생성된 시를 출력합니다.
데이터 파일
디렉토리
- 이 프로그램은 "Data" 디렉터리에 가사가 포함된 CSV 파일을 기대합니다.
- 프로그램은 "Midnights" 디렉토리에 Midnights 앨범에 대한 텍스트 파일을 예상합니다.
- 프로그램은 "TheVault" 디렉토리에 볼트 트랙용 텍스트 파일이 있어야 합니다.
- 데이터 파일의 디렉터리 경로는 변수에 저장됩니다. 경로를 변경하려면 다음을 편집하면 됩니다.
data_path = "Data"
midnights_path = "Midnights"
vault_path = "TheVault"
- 인코딩 문제를 방지하려면 텍스트 및 CSV 파일이 UTF-8로 인코딩되었는지 확인하세요.
데이터 소스
- Data 디렉터리의 CSV 파일은 Jan Llenzl Dagohoy의 "Taylor Swift 노래 가사(모든 앨범)" Kaggle 데이터세트에서 검색되었습니다. 이 데이터 세트는 https://www.kaggle.com/datasets/thespacefreak/taylor-swift-song-lyrics-all-albums에서 찾을 수 있습니다.
- 모든 가사는 Taylor Swift의 가사입니다.