Baru-baru ini, Elon Musk menyatakan keprihatinannya tentang menipisnya data pelatihan kecerdasan buatan dalam siaran langsung. Ia yakin bahwa data yang digunakan untuk melatih model AI di dunia nyata hampir habis. Pandangan ini menggemakan pandangan para ahli lain di bidang AI, sehingga memicu pemikiran industri mengenai model pengembangan AI di masa depan. Musk percaya bahwa data sintetis akan menjadi solusi utama terhadap masalah kekurangan data, mengingat banyak perusahaan teknologi telah mulai mengadopsi pendekatan ini, yang akan berdampak besar pada cara dan biaya pelatihan model AI.
Dalam percakapan siaran langsung baru-baru ini, CEO Tesla dan SpaceX Elon Musk mengatakan bahwa data dunia nyata yang tersedia untuk melatih model kecerdasan buatan hampir habis. Orang yang berbicara dengannya adalah Mark Payne, ketua dewan direksi Stagwell. Musk menyebutkan, "Pada dasarnya kita sekarang telah menghabiskan seluruh akumulasi pengetahuan manusia...data yang digunakan untuk pelatihan kecerdasan buatan. Fenomena ini pada dasarnya terjadi tahun lalu."
Pandangan Musk serupa dengan teori “data peak” yang diajukan oleh mantan kepala ilmuwan OpenAI Ilya Sutskov pada konferensi NeurIPS pada bulan Desember tahun lalu. Suzkofer mengatakan industri AI sedang menghadapi tantangan kekurangan data, dan kurangnya data pelatihan yang memadai di masa depan akan memaksa perubahan dalam cara model AI dikembangkan.
Untuk mengatasi masalah ini, Musk yakin bahwa data sintetis akan menjadi alternatif yang layak. Dia menunjukkan bahwa satu-satunya cara untuk melengkapi data dunia nyata adalah melalui data sintetis, di mana AI menghasilkan data pelatihannya sendiri. Musk mengatakan AI dapat meningkatkan kinerja dengan mengevaluasi diri dan terus mengoptimalkan dirinya.
Saat ini banyak perusahaan teknologi seperti Microsoft, Meta, OpenAI dan Anthropic sudah mulai menggunakan data sintetis untuk melatih model AI utama mereka. Gartner memperkirakan bahwa pada tahun 2024, 60% data yang digunakan dalam proyek kecerdasan buatan dan analisis data akan dihasilkan secara sintetis.
Keuntungan signifikan dari data sintetis adalah biaya pengembangan dapat dikurangi secara signifikan. Namun, Musk dan pakar lainnya juga menekankan bahwa data sintetis bukannya tanpa risiko. Penelitian menunjukkan bahwa data sintetis dapat menyebabkan penurunan performa model, dan keluaran menjadi kurang inovatif serta berpotensi terpengaruh oleh bias. Jika data sintetik itu sendiri memiliki keterbatasan, keluaran model akhir juga akan terganggu oleh masalah ini.
Menyorot:
Musk khawatir bahwa data dunia nyata yang tersedia untuk pelatihan AI hampir habis.
Data sintetis dianggap sebagai solusi penting untuk masa depan dan banyak perusahaan teknologi sudah mengadopsinya.
Penggunaan data sintetis dapat mengurangi biaya pengembangan secara signifikan, namun juga berisiko menurunkan performa model.
Secara keseluruhan, masalah kehabisan data pelatihan kecerdasan buatan akan segera terjadi. Meskipun data sintetis membawa peluang baru, hal ini juga menghadirkan tantangan. Arah pengembangan AI di masa depan akan bergantung pada cara memanfaatkan dan meningkatkan data sintetis secara efektif, menyeimbangkan biaya dan risiko, dan pada akhirnya mencapai kemajuan berkelanjutan dalam teknologi AI.