Pika dan Peking University dan Stanford telah membuka kerangka model difusi baru yang disebut RPG, yang secara cerdik menggunakan teknologi model bahasa besar (LLM) untuk meningkatkan kemampuan model difusi dalam memahami dan memproses kata-kata cepat yang kompleks. Teknologi terobosan ini memungkinkan gambar yang dihasilkan lebih akurat sesuai dengan persyaratan kata cepat yang disediakan oleh pengguna, dan efeknya bahkan melebihi Dall·E 3 yang memenangkan penghargaan. Berita ini memicu diskusi hangat di Internet segera setelah dirilis. Peneliti yang terlibat dalam proyek ini berasal dari Universitas Peking, Universitas Stanford, dan salah satu tim pendiri Pika. Teknologi ini membawa kemungkinan-kemungkinan baru pada bidang pembuatan gambar dengan kecerdasan buatan, mari kita tunggu dan lihat perkembangannya di masa depan.
Pika bekerja sama dengan Universitas Peking dan Stanford untuk membuat kerangka RPG open source, menggunakan teknologi LLM untuk meningkatkan kemampuan model difusi dalam memahami kata-kata cepat yang kompleks, dan efeknya melampaui Dall·E 3. Kerangka kerja ini dapat menghasilkan gambar yang lebih memenuhi persyaratan kata cepat dan telah menyebabkan diskusi panas secara online. Penulis yang berpartisipasi berasal dari Universitas Peking, Stanford dan salah satu pendiri Pika. Silakan kunjungi tautan asli untuk detailnya.
Kerangka RPG open source menandai langkah maju yang besar dalam teknologi pembuatan gambar kecerdasan buatan, yang menyediakan alat baru yang canggih bagi pengembang dan peneliti. Di masa depan, kita dapat menantikan aplikasi yang lebih inovatif berdasarkan teknologi LLM, yang memberikan kita pengalaman pembuatan gambar AI yang lebih menakjubkan.