Tencent baru-baru ini merilis proyek bernama ELLA, yang merupakan adaptor model bahasa besar yang efisien yang dapat secara signifikan meningkatkan kemampuan model SD yang ada dalam memahami kata-kata cepat. Tanpa pelatihan tambahan, ELLA dapat diintegrasikan ke dalam model difusi teks-ke-gambar untuk meningkatkan kemampuan model dalam menangani perataan teks. Intinya terletak pada konektor semantik sadar langkah waktu, yang dapat membantu model difusi lebih memahami perintah teks pada tahapan yang berbeda dan dengan demikian menangani perintah kompleks dengan lebih baik, seperti yang berisi banyak objek dan atribut berbeda. Inovasi ini diharapkan dapat membawa kemungkinan-kemungkinan baru dalam pengembangan model text-to-image dan semakin meningkatkan akurasi dan efisiensi pembuatan gambar AI.
Proyek ELLA yang dirilis oleh Tencent dengan cerdik memecahkan masalah kurangnya pemahaman atas perintah teks kompleks oleh model difusi yang ada melalui konektor semantik yang sadar akan langkah waktu. Metode integrasinya yang mudah digunakan dan hasil eksperimen yang luar biasa menunjukkan bahwa ELLA akan memainkan peran penting dalam bidang pembuatan teks-ke-gambar dan mendorong kemajuan teknologi yang berkelanjutan di bidang ini. Kemunculan ELLA memberikan pengalaman pembuatan gambar AI yang lebih nyaman dan efisien kepada pengguna, dan juga memberikan arah baru bagi pengembangan teknologi AI di masa depan.