概要
このプログラムは、テイラー スウィフトの歌詞ベースの詩ジェネレーターであり、複数のソースからのデータ ファイルを結合して処理し、マルコフ チェーンを使用して詩を生成します。このプログラムは、pandas や NLTK などのさまざまなライブラリを利用して、データ操作、テキスト処理、自然言語処理を処理します。
システム要件
ソフトウェア要件
- Python (3.8 以降)。
- pip: Python のパッケージ インストーラー。
必要なパッケージのインストール
pip を使用して必要なパッケージをインストールできます。ターミナルまたはコマンド プロンプトで次のコマンドを実行します。
pip install numpy pandas nltk
インストール
- システムに Python 3.8 以降がインストールされていることを確認してください。
- pip がシステムにインストールされていることを確認してください。
- コードをダウンロードするか、ローカル マシンにリポジトリのクローンを作成します。
- テキスト データ (「Data」、「Midnights」、「TheVault」) が含まれるフォルダーがあることを確認します。
- ターミナルまたはコマンド プロンプトでコードを含むディレクトリに移動します。
- 上記の pip コマンドを実行して、必要なパッケージをインストールします。
- 次の Python コマンドを実行して、必要な NLTK データをダウンロードします。
nltk.download('brown')
nltk.download('words')
nltk.download('cmudict')
ジェネレーターの実行
プログラムを実行するには、次の手順に従います。
- 作業ディレクトリがコードを含むディレクトリに設定されていることを確認してください。
- データ ファイルが必要な形式で、正しいディレクトリに存在することを確認してください。プログラムは、歌詞を含む CSV ファイルが「Data」フォルダーにあり、テキスト ファイルが「Midnights」フォルダーと「TheVault」フォルダーにあることを想定しています。
- ターミナルまたはコマンド プロンプトで次のコマンドを使用してプログラムを実行します。
- プログラムは生成された詩を出力します。
データファイル
ディレクトリ
- プログラムは、歌詞を含む CSV ファイルが「Data」ディレクトリにあることを想定しています。
- プログラムは、「Midnights」ディレクトリに Midnights アルバムのテキスト ファイルがあることを想定しています。
- プログラムは、「TheVault」ディレクトリにあるボールト トラックのテキスト ファイルを必要とします。
- データ ファイルのディレクトリ パスは変数に格納されます。パスを変更するには、次を編集できます。
data_path = "Data"
midnights_path = "Midnights"
vault_path = "TheVault"
- エンコードの問題を避けるために、テキスト ファイルと CSV ファイルが UTF-8 でエンコードされていることを確認してください。
データソース
- Data ディレクトリ内の CSV ファイルは、Jan Llenzl Dagohoy によって「Taylor Swift Song Lyrics (All Albums)」Kaggle データセットから取得されました。このデータセットは、https://www.kaggle.com/datasets/thespacefreak/taylor-swift-song-lyrics-all-albums で見つけることができます。
- 歌詞はすべてテイラー・スウィフトの歌詞です。