พื้นที่เก็บข้อมูลมีโค้ดสำหรับสร้างบทกวีสั้น ๆ โดยใช้โมเดลภาษาเชิงกำเนิดพร้อมสถาปัตยกรรม GPT
มีการใช้แบบจำลองภาษาการเปลี่ยนแปลงตามสถาปัตยกรรม GPT แบบจำลองนี้คำนึงถึงทั้งไวยากรณ์ของภาษารัสเซีย (คล้ายกับแบบจำลองภาษาเช่น rugpt) และการออกเสียง รวมถึงกฎของบทกวีและการสร้างเครื่องวัดบทกวี รายละเอียดอยู่ในการนำเสนอ
ไบนารีของโมเดลมีอยู่ใน inkoziev/verslibre:latest docker image
ดาวน์โหลดและเรียกใช้ภาพ:
sudo docker pull inkoziev/verslibre:latest
sudo docker run -it inkoziev/verslibre:latest
หลังจากเปิดตัวโปรแกรมจะขอให้คุณป้อนโทเค็นสำหรับบอทโทรเลข
หลังจากโหลดโมเดลทั้งหมดแล้ว คุณสามารถเริ่มบอทในการแชทด้วยคำสั่ง /start บอทจะขอให้คุณเลือกหนึ่งในสามหัวข้อแบบสุ่มสำหรับเรียงความของคุณหรือป้อนหัวข้อของคุณเอง หัวข้อนี้สามารถเป็นวลีใดก็ได้ที่มีคำนามเป็นตัวแสดงนำ เช่น "เครื่องกำเนิดบทกวี"
บอทนี้มีอยู่ในโทรเลขในชื่อ @verslibre_bot
ตัวอย่างการสร้าง:
* * *
Любовь - источник вдохновения,
Души непризнанных людей.
И день весеннего цветения,
Омытый зеленью дождей…
* * *
Душа, гонимая страстями,
Тревожит, веет теплотой.
Любовь, хранимая стихами,
И примиренье, и покой.
นอกเหนือจากตัวแบบการกำเนิดแล้ว ตัวถอดเสียงบทกวี ซึ่งทำเครื่องหมายบทกวีต้นฉบับสำหรับแบบจำลองการฝึกอบรม มีความสำคัญอย่างยิ่งต่อการดำเนินการที่เหมาะสม คุณสามารถอ่านเพิ่มเติมเกี่ยวกับงานของผู้ถอดเสียงได้ที่นี่
ภาพนักเทียบท่า inkoziev/haiku:latest พร้อมใช้งานเพื่อเรียกใช้ตัวสร้างเป็นบอตโทรเลข
ดาวน์โหลดภาพและเรียกใช้:
sudo docker pull inkoziev/haiku:latest
sudo docker run -it inkoziev/haiku
โปรแกรมจะขอให้คุณป้อนโทเค็นบอทโทรเลข จากนั้นโมเดลจะโหลด (ประมาณหนึ่งนาที) และคุณสามารถสื่อสารกับบอทได้ ป้อนเมล็ดพันธุ์ - คำนามหรือวลี การสร้างตัวเลือกต่างๆ บน CPU จะใช้เวลาประมาณ 30 วินาที จากนั้นบอทจะแสดงตัวเลือกแรกและเสนอให้ประเมินหรือแสดงตัวเลือกถัดไป
บอทนี้มีอยู่ในโทรเลขในชื่อ @haiku_guru_bot
เนื่องจากนี่คือแบบจำลองการกำเนิดแบบสุ่ม ผลลัพธ์ของมันจึงไม่สามารถจำลองได้โดยเพียงแค่แนะนำเมล็ดพันธุ์เดียวกัน คัดลอกผลลัพธ์ที่ดี เสริมด้วยโมเดลที่มีภาพประกอบ เช่น ruDALLE และรับเนื้อหาที่ไม่เหมือนใคร:
สามารถดูตัวอย่างไฮกุเพิ่มเติมได้ในบล็อกของฉัน
ไดเร็กทอรีย่อย tmp มีไฟล์ที่มีส่วนหนึ่งของข้อมูลการฝึก:
Poetry_corpus.txt - คลังข้อมูลของ quatrains ที่ถูกกรอง สัญลักษณ์ | เป็นตัวคั่นบรรทัด ใช้สำหรับการฝึกเพิ่มเติมของโมเดล ruGPT
Poe_generator_dataset.dat - ชุดข้อมูลสำหรับการฝึกอบรม ruGPT ซึ่งสร้างข้อความของบทกวีตามหัวข้อ (วลีสำคัญ)
Captions_generator_rugpt.dat - ชุดข้อมูลสำหรับการฝึกอบรม ruGPT สร้างชื่อกลอนตามเนื้อหา
ดูรายละเอียดกระบวนการเตรียมกองฝึกได้ที่นี่