Dengan terciptanya bidang baru yang disebut "AI Generatif", suka atau tidak suka istilah tersebut, penelitian tidak memperlambat langkahnya, terutama industri, yang telah mengalami ledakan terbesar dalam penerapan teknologi AI yang pernah ada. Kecerdasan buatan dan pemahaman kita tentang otak manusia serta kaitannya dengan AI terus berkembang, menunjukkan penerapan yang menjanjikan dalam meningkatkan kualitas hidup kita dalam waktu dekat. Namun, kita harus berhati-hati dengan teknologi mana yang kita pilih untuk diterapkan.
"Ilmu pengetahuan tidak bisa memberi tahu kita apa yang harus kita lakukan, hanya apa yang bisa kita lakukan."
- Jean-Paul Sartre, Keberadaan dan Ketiadaan
Berikut daftar terobosan terbaru dalam AI dan Ilmu Data berdasarkan tanggal rilis dengan penjelasan video yang jelas, tautan ke artikel yang lebih mendalam, dan kode (jika ada). Selamat membaca!
Referensi lengkap untuk masing-masing makalah tercantum di akhir repositori ini. Beri bintang pada repositori ini agar tetap mendapatkan informasi terkini dan menantikan tahun depan! ️
Pengelola: louisfb01, juga aktif di YouTube dan sebagai Podcaster jika Anda ingin melihat/mendengar lebih banyak tentang AI!
Berlangganan buletin saya - Pembaruan terkini dalam AI dijelaskan setiap minggu.
Jangan ragu untuk mengirimkan pesan kepada saya makalah menarik apa pun yang mungkin saya lewatkan untuk ditambahkan ke repositori ini.
Tandai saya di Twitter @Whats_AI atau LinkedIn @Louis (Apa itu AI) Bouchard jika Anda membagikan daftarnya! Dan mari ngobrol dengan kami di komunitas Learn AI Together Discord!
? Jika Anda ingin mendukung pekerjaan saya , Anda dapat memeriksa untuk mensponsori repositori ini atau mendukung saya di Patreon.
Tahun lalu kita melihat kebangkitan AI generatif untuk gambar dan teks, yang terbaru adalah ChatGPT. Kini, pada minggu pertama tahun 2023, para peneliti telah menciptakan sistem baru untuk data audio yang disebut VALL-E.
VALL-E mampu meniru suara seseorang hanya dengan rekaman berdurasi 3 detik dengan kemiripan dan kealamian ucapan yang lebih tinggi dibandingkan sebelumnya. ChatGPT mampu meniru manusia penulis; VALL-E melakukan hal yang sama untuk suara.
Kita tahu bahwa AI dapat menghasilkan gambar; sekarang, mari kita edit!
Model baru yang disebut InstructPix2Pix melakukan hal itu; itu mengedit gambar mengikuti instruksi berbasis teks yang diberikan oleh pengguna. Lihat saja hasil yang luar biasa itu… dan itu bukan dari OpenAI atau Google dengan budget tak terbatas.
Ini adalah publikasi terbaru dari Tim Brooks dan kolaborator di Universitas California, termasuk Prof. Alexei A. Efros, seorang tokoh terkenal di industri visi komputer. Seperti yang Anda lihat, hasilnya sungguh luar biasa.
Kami baru-baru ini meliput model yang mampu meniru suara seseorang bernama VALL-E. Mari melangkah lebih jauh ke arah kreatif dengan AI baru bernama MusicLM. MusicLM memungkinkan Anda menghasilkan musik dari deskripsi teks.
Jangan menunggu lebih lama lagi dan langsung lihat hasilnya... apa yang Anda dengar akan membuat Anda terpesona!
Runway telah menciptakan sistem bernama GEN-1 yang dapat merekam video, dan menerapkan gaya yang sangat berbeda dalam hitungan detik. Model ini masih dalam proses dan memiliki kekurangan, namun masih dapat melakukan transfer gaya yang cukup keren dari gambar atau teks ke dalam video, sesuatu yang tidak mungkin dilakukan beberapa tahun atau bahkan beberapa bulan yang lalu. Yang lebih keren lagi adalah cara kerjanya...
PaLM-E, publikasi terbaru Google, adalah apa yang mereka sebut sebagai model bahasa multimodal yang diwujudkan. Apa artinya ini? Artinya, ini adalah model yang dapat memahami berbagai jenis data, seperti teks dan gambar dari model ViT dan PaLM yang kami sebutkan, dan mampu mengubah wawasan tersebut menjadi tindakan dari tangan robotika!
Segmentasi - seperti dunia foto yang setara dengan bermain detektif. Kekuatan super ini memungkinkan Anda mengidentifikasi apa saja dalam sebuah gambar, mulai dari objek hingga orang, dengan presisi piksel sempurna. Ini adalah terobosan baru untuk semua jenis aplikasi, seperti kendaraan otonom yang perlu mengetahui apa yang terjadi di sekitar mereka, apakah itu mobil atau pejalan kaki.
Anda juga pasti sudah tahu tentang prompt sekarang. Namun pernahkah Anda mendengar tentang segmentasi yang dapat dilakukan? Itu anak terbaru di blok ini, dan itu sangat keren. Dengan trik baru ini, Anda dapat meminta model AI Anda untuk mengelompokkan apa pun yang Anda inginkan - dan maksud saya apa pun! Berkat SAM (Segment Anything Model) baru yang luar biasa dari Meta, tidak ada batasan untuk apa yang dapat Anda lakukan.
Jika Anda penasaran tentang bagaimana segmentasi cepat dan model SAM bekerja dengan baik, jangan lewatkan video saya. Di dalamnya, Anda akan mempelajari semua tentang bagaimana teknologi baru yang menakjubkan ini mengubah permainan dalam hal segmentasi gambar. Jadi duduk santai, dan izinkan saya membawa Anda dalam perjalanan menuju dunia segmentasi cepat dengan SAM. Percayalah, Anda tidak akan menyesalinya!
Bayangkan membuat gambar Instagram yang menakjubkan tanpa meninggalkan rumah atau mengambil foto! Model AI baru NVIDIA, Perfusion, memajukan pembuatan teks-ke-gambar dengan kontrol dan fidelitas yang ditingkatkan untuk visual berbasis konsep.
Perfusi merupakan peningkatan signifikan atas teknik AI yang ada, mengatasi keterbatasan dalam menghasilkan gambar yang tetap sesuai dengan konten aslinya. Model ini secara akurat dapat menciptakan "konsep" tersebut dalam berbagai skenario baru.
Perfusi dibangun berdasarkan Difusi Stabil dengan mekanisme tambahan untuk mengunci dan menghasilkan beberapa "konsep" dalam gambar baru secara bersamaan. Hal ini menghasilkan kinerja kuantitatif dan kualitatif yang tidak ada duanya, membuka kemungkinan-kemungkinan menarik di berbagai industri.
? Meskipun tidak sempurna, Perfusion merupakan langkah maju yang signifikan untuk model teks-ke-gambar. Tantangannya termasuk mempertahankan identitas suatu objek dan beberapa generalisasi yang berlebihan, serta memerlukan sedikit pekerjaan rekayasa yang cepat.
Perfusi NVIDIA menyiapkan landasan bagi masa depan menarik dari gambar yang dihasilkan AI yang disesuaikan dengan keinginan kita.
Seret Gan Anda memprioritaskan penarikan objek yang tepat daripada pembuatan gambar atau manipulasi teks. AI secara realistis mengadaptasi keseluruhan gambar, memodifikasi posisi objek, pose, bentuk, ekspresi, dan elemen bingkai lainnya.
?? Edit ekspresi anjing, buat mereka duduk, sesuaikan pose manusia, atau bahkan ubah lanskap dengan mulus. Drag Your Gan menawarkan cara inovatif dan interaktif untuk bereksperimen dengan pengeditan gambar.
Bagaimana cara kerjanya? Drag Your Gan memanfaatkan StyleGAN2, arsitektur GAN canggih dari NVIDIA. Dengan beroperasi di ruang fitur (kode laten), AI mempelajari cara mengedit gambar dengan benar melalui serangkaian langkah dan perhitungan kerugian.
Meskipun hasilnya luar biasa, seperti yang akan Anda lihat di bawah, penting untuk dicatat bahwa Drag Your Gan memiliki beberapa keterbatasan, termasuk hanya dapat mengedit gambar yang dihasilkan untuk saat ini. Gambar adalah bagian dari distribusi. Batasan lainnya adalah pemilihan titik didasarkan pada warna dan kontras piksel, sehingga Anda tidak dapat menyeret apa pun. Jika Anda mengambil bagian dari mobil merah dan memindahkannya ke mobil merah, ia mungkin tidak mengerti bahwa Anda memindahkannya sama sekali.
Tidak sabar untuk mencobanya? Penulis menyebutkan bahwa kode tersebut akan tersedia pada bulan Juni. Tonton video (atau artikel) untuk mempelajari lebih lanjut tentang gaya manipulasi gambar baru ini dengan DragYourGan!
Lihat podcast Apa itu AI untuk mengetahui lebih banyak konten AI dalam bentuk wawancara dengan para ahli di bidangnya! Saya dan seorang pakar AI yang diundang akan membahas topik, sub-bidang, dan peran spesifik yang terkait dengan AI untuk mengajar dan berbagi pengetahuan dari orang-orang yang bekerja keras untuk mengumpulkannya.
Neuralangelo adalah terobosan terbaru NVIDIA dalam AI gambar-ke-3D. Pendekatan baru ini dibangun berdasarkan NeRF Instan, meningkatkan kualitas permukaan dan memberikan pemandangan 3D yang sangat realistis dari gambar sederhana hanya dalam hitungan detik.
Neuralangelo bertujuan untuk mengatasi keterbatasan pendahulunya, NeRF Instan, seperti kurangnya struktur detail dan tampilan model 3D yang dihasilkan AI yang agak kartun.
Rahasia di balik peningkatan Neuralangelo terletak pada dua perbedaan utama: menggunakan gradien numerik untuk menghitung turunan tingkat tinggi, dan mengadopsi optimasi kasar hingga halus pada jaringan hash yang mengontrol tingkat detail, yang akan kita bahas dalam video.
Proses pengoptimalan ini menghasilkan masukan yang lebih lancar untuk rekonstruksi model 3D, memungkinkan lebih banyak informasi untuk dicampur, dan menciptakan keseimbangan sempurna antara konsistensi dan detail halus untuk hasil yang realistis.
Kualitas model 3D Neuralangelo benar-benar mencengangkan, namun AI menghadapi tantangan dengan pemandangan yang sangat reflektif. Meskipun demikian, potensi penerapannya di dunia nyata sangat luas dan menarik!
Dalam episode minggu ini saya memutuskan untuk mengeksplorasi penelitian baru bernama TryOnDiffusion, yang dipresentasikan pada konferensi CVPR 2023. Pendekatan inovatif ini mewakili lompatan maju yang signifikan dalam pengalaman uji coba virtual yang realistis. Dengan melatih model AI untuk memahami masukan gambar, membedakan pakaian dari orangnya, dan menggabungkan informasi secara cerdas, TryOnDiffusion menghasilkan hasil yang mengesankan yang membawa kita lebih dekat ke tujuan akhir dari percobaan virtual yang sempurna.
Jika Anda tertarik dengan perpaduan AI dan mode, bergabunglah dengan kami saat kami mengungkap cara kerja TryOnDiffusion dan potensi dampaknya terhadap masa depan belanja online. Baik Anda penggemar AI, pecinta mode, atau sekadar ingin tahu tentang kemajuan teknologi terkini, video ini menawarkan wawasan berharga tentang dunia uji coba pakaian virtual yang mutakhir.
Kita akan terjun ke dunia model difusi, UNets, dan perhatian, di mana semua mekanisme yang sangat kuat tersebut menggabungkan kekuatan dengan membantu bidang fashion dan ritel online. Tentu saja, pekerjaan ini mempunyai keterbatasan, namun (seperti yang akan Anda lihat) hasilnya sungguh menakjubkan dan sangat menjanjikan.
Mari kita bahas tentang model AI yang mengambil wajah Anda dan dapat mengubahnya menjadi kartun lucu, mengedit atribut wajah seperti mengubah warna rambut, atau sekadar meningkatkan gambar Anda agar lebih HD. Jika Anda telah mengikuti artikel saya, Anda pasti tahu bahwa sebagian besar aplikasi ini mengandalkan satu model dan beberapa versinya yang disebut StyleGAN, yang sudah saya bahas berkali-kali. StyleGAN adalah arsitektur berbasis GAN yang dikembangkan oleh NVIDIA yang dapat mengambil masukan dan mengubahnya menjadi masukan lain mengikuti gaya tertentu yang telah dilatihnya. Ini juga open source, artinya semua orang dapat menggunakan dan mengembangkannya, dan mengapa semua makalah penelitian menggunakannya.
Masalah dengan StyleGAN adalah terbatas pada wajah yang dipotong dan disejajarkan pada resolusi gambar tetap dari data yang dilatihnya. Artinya, untuk gambar dunia nyata, Anda memerlukan pendekatan lain untuk menemukan wajah, memotongnya, dan mengarahkannya kembali, serta resolusi gambarnya juga harus sama. Ini adalah masalah besar karena Anda biasanya ingin memiliki gambar berkualitas tinggi tetapi pelatihan dengan gambar tersebut akan memakan waktu yang sangat lama.
Jadi yang biasanya kami lakukan adalah menggunakan arsitektur StyleGAN untuk melakukan transfer gaya pada gambar kami, lalu kami menggunakan jaringan lain untuk meningkatkan gambar ke resolusi yang lebih tinggi. Meskipun pendekatan ini berhasil dengan baik, namun hal ini jelas tidak ideal. Anda memerlukan dua model, bukan satu, yang menambahkan lebih banyak bias dan potensi kesalahan, serta perlu melatih keduanya dan membatasi kemampuan generalisasi. Untungnya bagi kami, beberapa peneliti luar biasa sedang mengatasi masalah gambar masukan terbatas ini dan baru-baru ini menerbitkan pendekatan baru di ICCV 2023 yang disebut StyleGANEX melalui beberapa perubahan kecil yang sangat cerdas...
Tandai saya di Twitter @Whats_AI atau LinkedIn @Louis (Apa itu AI) Bouchard jika Anda membagikan daftarnya!
Kita telah menyaksikan kemampuan luar biasa dari model bahasa besar (LLM), namun terdapat kesenjangan—ada bagian yang hilang dalam pemahaman mereka tentang dunia di sekitar kita. Mereka unggul dalam teks, kode, dan gambar, namun mereka kesulitan untuk benar-benar terlibat dengan realitas kita. Begitulah, sampai sekarang. Inilah terobosan terobosan dalam lanskap AI: 3D-LLM.
3D-LLM adalah model baru yang menjembatani kesenjangan antara bahasa dan dunia 3D yang kita tinggali. Meskipun tidak mencakup keseluruhan dunia, ini merupakan langkah besar dalam memahami dimensi dan teks penting yang membentuk kehidupan kita. Seperti yang akan Anda temukan di video, 3D-LLM tidak hanya mengamati dunia tetapi juga berinteraksi dengannya. Anda dapat mengajukan pertanyaan tentang lingkungan, mencari objek atau menavigasi ruang, dan menyaksikan alasannya yang masuk akal—mengingatkan pada prestasi menakjubkan yang kami alami dengan ChatGPT.
Yang lebih menarik lagi, penulis memanfaatkan kehebatan ChatGPT untuk mengumpulkan data melalui tiga metode berbeda yang akan Anda pelajari, membuat gudang tugas dan contoh yang komprehensif untuk setiap adegan yang digunakan untuk melatih model...
Karya ini memperkenalkan kerangka kerja baru untuk mengatur model bahasa besar agar bekerja secara kohesif sambil mengurangi risiko halusinasi. Pendekatan ini menggabungkan kekuatan agen AI dengan kejelasan prosedur operasi standar, memastikan bahwa agen berkolaborasi secara efektif dan tetap selaras dengan tujuan pengguna.
Berlangganan buletin mingguan saya dan ikuti terus publikasi baru di AI untuk tahun 2023!
Liu dkk. menggunakan GPT-4 untuk membuat model visi bahasa tujuan umum yang disebut LLaVA, model tujuan umum pertama yang memahami dan mengikuti instruksi berbasis visual dan bahasa. Ya, mereka tidak menggunakan GPT-4 sebagai model dasar, tetapi untuk melatih modelnya! Seperti yang akan kita lihat di video, GPT-4 digunakan untuk menghasilkan kumpulan data besar dan berkualitas tinggi guna melatih model baru yang memahami gambar. Oh dan tentu saja ia tidak hanya memahami gambar tetapi juga teks (ada multimodalitasnya), yang berarti ia dapat menjawab berbagai macam pertanyaan tentangnya! Pelajari lebih lanjut di artikel lengkap atau di video...
Kami telah melihat begitu banyak pendekatan baru untuk menghasilkan teks, kemudian menghasilkan gambar menjadi lebih baik. Kemudian, kita telah melihat karya awal menakjubkan lainnya untuk menghasilkan video dan bahkan model 3D dari teks. Bayangkan saja kerumitan tugas tersebut ketika yang Anda miliki hanyalah sebuah kalimat, dan Anda perlu membuat sesuatu yang terlihat seperti objek di dunia nyata, dengan segala detailnya. Nah, inilah langkah baru yang bukan sekadar langkah awal; ini merupakan langkah maju yang besar dalam pembuatan model 3D hanya dari teks: MVDream!
Distil-Whisper adalah model transkripsi audio 6 kali lebih cepat dibandingkan model Whisper asli, 49% lebih kecil, dan menjaga akurasi 99%. Dan hal terbaiknya adalah ia sepenuhnya bersumber terbuka, dan Anda dapat menggunakannya sekarang.
Dalam video ini, kita mendalami Difusi Video Stabil (SVD), mengeksplorasi bagaimana teknologi inovatif dari Stability AI ini merevolusi pembuatan video berbasis AI. Memahami prinsip inti model difusi dan penerapannya dalam sintesis teks-ke-video dan multi-tampilan, ideal bagi penggemar AI dan media digital yang ingin memahami masa depan generasi video.
Jika Anda ingin membaca lebih banyak makalah dan memiliki pandangan yang lebih luas, berikut adalah gudang bagus lainnya untuk Anda yang meliput 2022: 2022: Setahun Penuh Makalah AI yang Menakjubkan- Ulasan dan jangan ragu untuk berlangganan buletin mingguan saya dan terus ikuti perkembangannya. -tanggal dengan publikasi baru di AI untuk tahun 2023!
Tandai saya di Twitter @Whats_AI atau LinkedIn @Louis (Apa itu AI) Bouchard jika Anda membagikan daftarnya!
[1] Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J. dan He, L., 2023. Model Bahasa Neural Codec adalah Zero-Shot Text to Speech Synthesizer, https://arxiv.org/abs/2301.02111
[2] Brooks dkk., 2022: InstructPix2Pix, https://arxiv.org/abs/2211.09800
[3] Agostinelli dkk., 2023: MusicLM, https://arxiv.org/abs/2301.11325
[4] Esser, P., Chiu, J., Atighehchian, P., Granskog, J. dan Germanidis, A., 2023. Sintesis video berpandu struktur dan konten dengan model difusi, https://arxiv.org/abs /2302.03011
[5] Driess, D., Xia, F., Sajjadi, MS, Lynch, C., Chowdhery, A., Ichter, B., Wahid, A., Tompson, J., Vuong, Q., Yu, T . dan Huang, W., 2023. Palm-e: Model bahasa multimodal yang diwujudkan, https://arxiv.org/abs/2303.03378
[6] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, AC, Lo, WY dan Dollár, P., 2023. Segmentasikan apa saja, https://arxiv.org/abs/2304.02643
[7] Tewel, Y., Gal, R., Chechik, G. dan Atzmon, Y., 2023. Pengeditan peringkat satu yang dikunci dengan kunci untuk personalisasi teks-ke-gambar, https://arxiv.org/abs/2305.01644
[8] Pan, X., Tewari, A., Leimkühler, T., Liu, L., Meka, A. dan Theobalt, C., 2023. Tarik GAN Anda: Manipulasi Berbasis Titik Interaktif pada Manifold Gambar Generatif, https://arxiv.org/abs/2305.10973
[9] Li, Z., Müller, T., Evans, A., Taylor, RH, Unberath, M., Liu, MY dan Lin, CH, 2023. Neuralangelo: Rekonstruksi Permukaan Neural Fidelitas Tinggi. Dalam Prosiding Konferensi IEEE/CVF tentang Visi Komputer dan Pengenalan Pola (hlm. 8456-8465), https://arxiv.org/abs/2306.03092
[10] Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M. dan Kemelmacher-Shlizerman, I., 2023. TryOnDiffusion: A Kisah Dua UNet. Dalam Prosiding Konferensi IEEE/CVF tentang Visi Komputer dan Pengenalan Pola (hlm. 4606-4615), https://arxiv.org/abs/2306.08276
[11] Yang, S., Jiang, L., Liu, Z. dan Loy, CC, 2023. StyleGANEX: Manipulasi Berbasis StyleGAN Melampaui Potongan Wajah Sejajar. arXiv pracetak arXiv:2303.06146.
[12] Hong, Y., Zhen, H., Chen, P., Zheng, S., Du, Y., Chen, Z. dan Gan, C., 2023. 3d-llm: Menyuntikkan dunia 3d ke dalam skala besar model bahasa. arXiv pracetak arXiv:2307.12981.
[13] Hong, S., Zheng, X., Chen, J., Cheng, Y., Zhang, C., Wang, Z., Yau, SKS, Lin, Z., Zhou, L., Ran, C . dan Xiao, L., 2023. Metagpt: Pemrograman meta untuk kerangka kolaboratif multi-agen. arXiv pracetak arXiv:2308.00352.
[14] Liu, H., Li, C., Wu, Q. dan Lee, YJ, 2023. Penyetelan instruksi visual. arXiv pracetak arXiv:2304.08485.
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. dan Yang, X., 2023. Mvdream: Difusi multi-tampilan untuk generasi 3d. arXiv pracetak arXiv:2308.16512.
[16] Gandhi, S., von Platen, P. dan Rush, AM, 2023. Distil-Whisper: Distilasi Pengetahuan yang Kuat melalui Pelabelan Pseudo Skala Besar. arXiv pracetak arXiv:2311.00430.
[17] Blattmann et al., 2023: Difusi Video Stabil. https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf