该存储库包含使用具有 GPT 架构的生成语言模型生成短诗的代码。
使用基于GPT架构的变革性语言模型。该模型考虑了俄语的语法(类似于 rugpt 等语言模型)及其语音学,包括押韵规则和诗律的构造。详细信息在演示中。
模型二进制文件可在 inkoziev/verslibre:latest docker 镜像中找到。
下载并运行镜像:
sudo docker pull inkoziev/verslibre:latest
sudo docker run -it inkoziev/verslibre:latest
启动后,程序将要求您输入电报机器人的令牌。
加载所有模型后,您可以使用 /start 命令在聊天中启动机器人。机器人会要求您为您的论文选择三个随机主题之一或输入您自己的主题。主题可以是任何以名词为主导的短语,例如“诗歌生成器”。
该机器人可在电报中以 @verslibre_bot 的身份使用
生成示例:
* * *
Любовь - источник вдохновения,
Души непризнанных людей.
И день весеннего цветения,
Омытый зеленью дождей…
* * *
Душа, гонимая страстями,
Тревожит, веет теплотой.
Любовь, хранимая стихами,
И примиренье, и покой.
除了生成模型本身之外,标记训练模型源诗歌的诗歌转录器对于正确运行也非常重要。您可以在此处阅读有关转录员工作的更多信息。
docker 镜像 inkoziev/haiku:latest 可用于将生成器作为电报机器人运行。
下载镜像并运行:
sudo docker pull inkoziev/haiku:latest
sudo docker run -it inkoziev/haiku
该程序将要求您输入电报机器人令牌。然后模型将加载(大约一分钟),您可以与机器人进行通信。输入种子 - 名词或短语。在 CPU 上生成多个选项大约需要 30 秒。然后机器人将显示第一个选项并提出评估它,或显示下一个选项。
该机器人可以在电报中以@haiku_guru_bot 的身份找到。
由于这是一个随机生成模型,因此通常不能通过简单地引入相同的种子来复制其结果。复制好的结果,用说明性模型(例如 ruDALLE)对其进行补充,并获得完全独特的内容:
更多俳句的例子可以在我的博客上看到。
tmp 子目录包含带有部分训练数据的文件:
诗歌_corpus.txt - 过滤后的绝句语料库,符号|作为行分隔符;用于 ruGPT 模型的额外训练。
诗歌生成器数据集.dat - 用于训练 ruGPT 的数据集,它按主题(关键短语)生成一首诗的文本。
Captions_generator_rugpt.dat - 用于训练 ruGPT 的数据集,根据其内容生成诗句标题。
可以在此处找到训练团准备过程的描述。