概述
该程序是一个基于泰勒·斯威夫特歌词的诗歌生成器,它结合了多个来源的数据文件,对其进行处理,然后使用马尔可夫链生成一首诗。该程序利用 pandas 和 NLTK 等各种库来处理数据操作、文本处理和自然语言处理。
系统要求
软件要求
- Python(3.8 或更高版本)。
- pip:Python 的包安装程序。
安装所需的包
您可以使用 pip 安装所需的软件包。在终端或命令提示符中运行以下命令:
pip install numpy pandas nltk
安装
- 确保您的系统上安装了 Python 3.8 或更高版本。
- 确保您的系统上安装了 pip。
- 下载代码或将存储库克隆到本地计算机。
- 确保您拥有包含文本数据的文件夹(“Data”、“Midnights”、“TheVault”)。
- 在终端或命令提示符中导航到包含代码的目录。
- 运行上面提到的 pip 命令来安装所需的软件包。
- 通过运行以下 Python 命令下载必要的 NLTK 数据:
nltk.download('brown')
nltk.download('words')
nltk.download('cmudict')
运行生成器
要运行该程序,请按照下列步骤操作:
- 确保您的工作目录设置为包含代码的目录。
- 确保您的数据文件采用所需的格式并位于正确的目录中。该程序需要在“Data”文件夹中包含包含歌词的 CSV 文件,在“Midnights”和“TheVault”文件夹中包含文本文件。
- 在终端或命令提示符中使用以下命令运行程序:
- 程序将输出一首生成的诗。
数据文件
目录
- 该程序需要在“Data”目录中包含包含歌词的 CSV 文件。
- 该程序需要“Midnights”目录中的 Midnights 专辑的文本文件。
- 该程序需要“TheVault”目录中的 Vault 轨道文本文件。
- 数据文件的目录路径存储在变量中。要更改路径,您可以编辑以下内容:
data_path = "Data"
midnights_path = "Midnights"
vault_path = "TheVault"
- 确保文本和 CSV 文件采用 UTF-8 编码以避免编码问题。
数据来源
- Data 目录中的 CSV 文件是从 Jan Llenzl Dagohoy 的“Taylor Swift Song Lyrics (All Albums)”Kaggle 数据集中检索的。该数据集可以在以下位置找到:https://www.kaggle.com/datasets/thespacefreak/taylor-swift-song-lyrics-all-albums
- 所有歌词均为泰勒·斯威夫特的歌词。