Google Gemini versi 2.0 resmi dirilis: 2.0 Flash kini mendukung keluaran multi-modal

Penulis：Eve Cole Waktu Pembaruan：2024-12-20 16:00:02

Google telah merilis model kecerdasan buatan generasi terbaru Gemini 2.0, menandai terobosan besar bagi Google di bidang asisten kecerdasan buatan umum. Gemini 2.0 menawarkan peningkatan signifikan dalam pemrosesan multimodal dan penggunaan alat, memungkinkan pemahaman yang lebih mendalam tentang dunia dan pelaksanaan perintah pengguna. Model ini dikembangkan berdasarkan versi Gemini 1.0 dan 1.5 dan telah diterapkan di beberapa produk Google, melayani jutaan pengguna di seluruh dunia. Artikel ini akan memperkenalkan secara detail fungsi Gemini 2.0 dan dampaknya terhadap produk Google dan ekosistem pengembang.

Sundar Pichai, CEO Google dan perusahaan induknya Alphabet, mengumumkan bahwa perusahaan telah meluncurkan model kecerdasan buatan terbarunya, Gemini 2.0, yang menandai langkah penting bagi Google dalam membangun asisten AI universal. Gemini 2.0 menunjukkan kemajuan signifikan dalam pemrosesan input multi-modal dan penggunaan alat asli, memungkinkan agen AI untuk mendapatkan pemahaman yang lebih mendalam tentang dunia di sekitar mereka dan mengambil tindakan atas nama pengguna yang berada di bawah pengawasan mereka.

Gemini2.0 dikembangkan berdasarkan pendahulunya Gemini1.0 dan 1.5, yang untuk pertama kalinya mencapai kemampuan pemrosesan multi-modal asli dan dapat memahami berbagai jenis informasi termasuk teks, video, gambar, audio, dan kode. Saat ini, jutaan pengembang menggunakan Gemini untuk mengembangkan, mendorong Google untuk menata ulang produknya, termasuk 7 produk yang melayani 2 miliar pengguna, dan menciptakan produk baru. NotebookLM adalah contoh kemampuan multi-modal dan konteks panjang serta sangat disukai.

微信截图_20241212080452.png

Peluncuran Gemini 2.0 menandai masuknya Google ke era agen baru. Model ini memiliki kemampuan keluaran gambar dan audio asli, serta kemampuan penggunaan alat asli. Google telah mulai menyediakan Gemini 2.0 bagi pengembang dan penguji tepercaya, dan berencana untuk segera mengintegrasikannya ke dalam produk, dimulai dengan Gemini dan penelusuran. Mulai sekarang, model eksperimental Gemini2.0 Flash akan terbuka untuk semua pengguna Gemini. Pada saat yang sama, Google juga meluncurkan fitur baru yang disebut Deep Research, yang menggunakan penalaran tingkat lanjut dan kemampuan konteks panjang untuk bertindak sebagai asisten peneliti guna mengeksplorasi topik kompleks dan menyusun laporan atas nama pengguna. Fitur ini saat ini tersedia di Gemini Advanced.

Penelusuran adalah salah satu produk yang paling terkena dampak AI, dan tinjauan AI Google kini menjangkau 1 miliar orang, memungkinkan mereka mengajukan pertanyaan baru, yang dengan cepat menjadi salah satu fitur penelusuran paling populer di Google. Sebagai langkah selanjutnya, Google akan menghadirkan kemampuan penalaran canggih Gemini 2.0 ke AI Review untuk memecahkan topik yang lebih kompleks dan masalah multi-langkah, termasuk persamaan matematika tingkat lanjut, kueri multi-modal, dan pengkodean. Pengujian terbatas dimulai minggu ini, dengan peluncuran yang lebih luas direncanakan awal tahun depan. Google juga akan terus menghadirkan Ikhtisar AI ke lebih banyak negara dan bahasa pada tahun depan.

Google juga menunjukkan hasil mutakhirnya dalam penelitian agen melalui kemampuan multi-modal asli Gemini 2.0. Gemini 2.0 Flash merupakan penyempurnaan dari 1.5 Flash, model paling populer di kalangan pengembang hingga saat ini, dengan waktu respons yang sama cepatnya. Khususnya, Flash 2.0 bahkan mengungguli 1.5 Pro dalam benchmark utama dengan dua kali lebih cepat. Flash 2.0 juga menghadirkan kemampuan baru. Selain mendukung input multi-modal seperti gambar, video dan audio, Flash 2.0 kini juga mendukung output multi-modal seperti gambar asli yang dicampur dengan teks dan audio text-to-speech (TTS) multi-bahasa yang dapat dikontrol. Itu juga dapat memanggil alat seperti pencarian Google, eksekusi kode, dan fungsi yang ditentukan pengguna pihak ketiga.

微信截图_20241212080808.png

Gemini 2.0 Flash kini tersedia bagi pengembang sebagai model eksperimental, dengan input multimodal dan output teks tersedia untuk semua pengembang melalui Google AI Studio dan API Gemini Vertex AI, sementara pembuatan text-to-speech dan gambar asli tersedia untuk akses awal Mitra. Ketersediaan umum akan menyusul pada bulan Januari, bersama dengan ukuran model tambahan.

Untuk membantu pengembang membangun aplikasi yang dinamis dan interaktif, Google juga merilis API real-time multi-modal baru dengan kemampuan input streaming audio dan video real-time dan kemampuan untuk menggunakan beberapa alat kombinasi.

Mulai hari ini, pengguna Gemini di seluruh dunia dapat mengakses versi eksperimen Flash 2.0 yang dioptimalkan untuk chat dengan memilihnya di menu drop-down model di desktop dan web seluler, dan akan segera tersedia di aplikasi seluler Gemini. Awal tahun depan, Google akan memperluas Gemini 2.0 ke lebih banyak produk Google.

Secara keseluruhan, peluncuran Gemini 2.0 mewakili langkah lain yang diambil Google di bidang AI. Kemampuan multi-modal dan integrasi alatnya yang kuat akan menghadirkan pengalaman yang lebih kaya bagi pengembang dan pengguna, serta mempromosikan penerapan teknologi AI di lebih banyak bidang. .pengembangan dan penerapan. Di masa depan, Gemini 2.0 akan diintegrasikan lebih jauh ke dalam ekosistem produk Google untuk menghadirkan layanan yang lebih cerdas dan nyaman bagi pengguna.