Para peneliti di OpenAI telah merilis model konsistensi waktu kontinu (sCM) yang mengesankan yang mencapai terobosan dalam kecepatan menghasilkan konten multimedia, menghasilkan gambar 50 kali lebih cepat daripada model difusi tradisional, dan hanya membutuhkan kurang dari 0,1 Gambar dapat dihasilkan dalam hitungan detik. Penelitian ini ditulis bersama oleh Lu Cheng dan Yang Song, dan makalah ini telah dipublikasikan di arXiv.org Meskipun belum ditinjau oleh rekan sejawat, potensi dampaknya sangat besar dan menandai lompatan besar dalam AI generatif real-time. aplikasi. Editor Downcodes akan memberi Anda pemahaman mendalam tentang inovasi dan prospek penerapan model sCM di masa depan.
Baru-baru ini, para peneliti di OpenAI merilis hasil penelitian yang menarik, memperkenalkan model konsistensi waktu berkelanjutan (sCM) yang baru. Model ini mencapai lompatan dalam kecepatan menghasilkan konten multimedia (seperti gambar, video, dan audio), 50 kali lebih cepat dibandingkan model difusi tradisional. Secara khusus, sCM dapat menghasilkan gambar dalam waktu kurang dari 0,1 detik, sedangkan model difusi tradisional seringkali memerlukan lebih dari 5 detik.
Melalui teknologi tersebut, tim peneliti berhasil menghasilkan sampel berkualitas tinggi hanya dengan dua langkah pengambilan sampel. Inovasi ini membuat proses pembangkitan menjadi lebih efisien tanpa mengorbankan kualitas sampel. Artikel ini ditulis bersama oleh dua peneliti dari OpenAI, Lu Cheng dan Yang Song, dan telah dipublikasikan di arXiv.org. Meskipun belum melalui tinjauan sejawat, potensi dampaknya tidak dapat dianggap remeh.
Yang Song pertama kali mengusulkan konsep "model konsistensi" dalam makalah tahun 2023, yang meletakkan dasar bagi pengembangan sCM. Meskipun model difusi sangat baik dalam menghasilkan gambar fotorealistik, model 3D, audio, dan video, model tersebut tidak terlalu efisien dalam pengambilan sampel, seringkali memerlukan puluhan hingga ratusan langkah, sehingga tidak praktis dalam aplikasi waktu nyata.
Pengambilan sampel lebih cepat
Keunggulan terbesar model sCM adalah model ini dapat mencapai kecepatan pengambilan sampel yang lebih cepat tanpa menambah beban komputasi . Model sCM terbesar OpenAI memiliki 1,5 miliar parameter, dan pada GPU A100, waktu pembuatan sampel hanya 0,11 detik. Hal ini menghasilkan percepatan 50x dalam waktu jam dinding dibandingkan dengan model difusi, sehingga membuat aplikasi AI generatif real-time lebih layak dilakukan.
Membutuhkan lebih sedikit sumber daya komputasi
Dalam hal kualitas sampel, sCM dilatih pada kumpulan data ImageNet 512×512 dan mencapai skor Fréchet Inception Distance (FID) sebesar 1,88, yang berbeda kurang dari 10% dari model difusi teratas. Melalui benchmarking ekstensif terhadap model generatif canggih lainnya, tim peneliti menunjukkan bahwa sCM memberikan hasil terbaik sekaligus mengurangi overhead komputasi secara signifikan.
Di masa depan, pengambilan sampel yang cepat dan skalabilitas model sCM akan membuka kemungkinan baru bagi penerapan AI generatif secara real-time di berbagai bidang. Dari pembuatan gambar hingga sintesis audio dan video, sCM memberikan solusi praktis terhadap kebutuhan keluaran yang cepat dan berkualitas tinggi. Pada saat yang sama, penelitian OpenAI juga mengisyaratkan potensi pengoptimalan sistem lebih lanjut, yang dapat mempercepat kinerja model sesuai dengan kebutuhan berbagai industri.
Blog resmi: https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
Makalah: https://arxiv.org/html/2410.11081v1
Kemunculan model sCM menandai terobosan besar dalam bidang pembuatan gambar AI. Kecepatan pengambilan sampelnya yang efisien dan keluaran berkualitas tinggi telah membuka babak baru untuk aplikasi real-time. Potensi pengembangannya di masa depan tidak terbatas dan layak untuk dinantikan!