Обзор
Эта программа представляет собой генератор стихотворений на основе текстов Тейлора Свифта, который объединяет файлы данных из нескольких источников, обрабатывает их, а затем использует цепь Маркова для создания стихотворения. Программа использует различные библиотеки, включая pandas и NLTK, для обработки данных, обработки текста и обработки естественного языка.
Системные требования
Требования к программному обеспечению
- Python (3.8 или новее).
- pip: установщик пакетов для Python.
Установка необходимых пакетов
Вы можете установить необходимые пакеты с помощью pip. Запустите следующую команду в терминале или командной строке:
pip install numpy pandas nltk
Установка
- Убедитесь, что в вашей системе установлен Python 3.8 или более поздней версии.
- Убедитесь, что pip установлен в вашей системе.
- Загрузите код или клонируйте репозиторий на свой локальный компьютер.
- Убедитесь, что у вас есть папки, содержащие текстовые данные («Data», «Midnights», «TheVault»).
- Перейдите в каталог, содержащий код, в вашем терминале или командной строке.
- Запустите команду pip, упомянутую выше, чтобы установить необходимые пакеты.
- Загрузите необходимые данные NLTK, выполнив следующие команды Python:
nltk.download('brown')
nltk.download('words')
nltk.download('cmudict')
Запуск генератора
Чтобы запустить программу, выполните следующие действия:
- Убедитесь, что в качестве рабочего каталога указан каталог, содержащий код.
- Убедитесь, что файлы данных находятся в нужном формате и в правильных каталогах. Программа ожидает файлы CSV, содержащие тексты песен, в папке «Data» и текстовые файлы в папках «Midnights» и «TheVault».
- Запустите программу, используя следующую команду в терминале или командной строке:
- Программа выведет сгенерированное стихотворение.
Файлы данных
Каталоги
- Программа ожидает файлы CSV, содержащие тексты песен, в каталоге «Данные».
- Программа ожидает текстовые файлы альбома Midnights в каталоге «Midnights».
- Программа ожидает текстовые файлы для дорожек хранилища в каталоге «TheVault».
- Пути к каталогам файлов данных хранятся в переменных. Чтобы изменить путь, вы можете отредактировать следующее:
data_path = "Data"
midnights_path = "Midnights"
vault_path = "TheVault"
- Убедитесь, что текстовые файлы и файлы CSV закодированы в UTF-8, чтобы избежать проблем с кодировкой.
Источник данных
- Файлы CSV в каталоге Data были получены из набора данных Kaggle «Taylor Swift Song Lyrics (All Albums)» Яном Ллензлом Дагохоем. Этот набор данных можно найти по адресу: https://www.kaggle.com/datasets/thespacefreak/taylor-swift-song-lyrics-all-albums.
- Все тексты песен написаны Тейлор Свифт.