Google baru-baru ini merilis model penalaran multi-modal terbarunya Gemini2.0 Flash Thinking. Model ini diklaim sebagai model Google paling kuat hingga saat ini, dengan kemampuan pemrosesan yang cepat dan transparan serta kemampuan memecahkan masalah kompleks secara efisien. Gemini2.0 Flash Thinking tidak hanya mendukung pemrosesan teks skala besar, tetapi juga memiliki fungsi pengunggahan dan analisis gambar asli, yang secara signifikan memperluas skenario penerapannya. Proses penalarannya yang transparan, yang menampilkan langkah-langkah berpikir model langkah demi langkah melalui menu drop-down, memecahkan masalah "kotak hitam" AI dan memberikan pemahaman yang lebih jelas kepada pengguna. Artikel ini akan memberikan analisis mendalam tentang fitur dan fungsi utama Gemini2.0 Flash Thinking dan perbandingannya dengan model lain, mengungkapkan pentingnya hal tersebut dalam bidang kecerdasan buatan.
Dengan latar belakang persaingan yang semakin ketat di bidang kecerdasan buatan, Google baru-baru ini mengumumkan peluncuran model Gemini2.0 Flash Thinking. Model penalaran multi-modal ini memberikan kemampuan pemrosesan yang cepat dan transparan untuk masalah yang kompleks. “Ini adalah model terdalam kami,” kata CEO Google Sundar Pichai di media sosial X.
Menurut dokumentasi pengembang, Flash Thinking Gemini2 memiliki kemampuan penalaran yang lebih kuat daripada versi dasar model Flash Gemini2.0. Model baru ini mendukung 32,000 token masukan (sekitar 50 hingga 60 halaman teks), dan respons keluaran dapat mencapai 8,000 token. Google mengatakan di panel samping AI Studio-nya bahwa model ini sangat berguna untuk “pemahaman multimodal, penalaran,” dan “pengkodean.”
Dokumentasi pengembang: https://ai.google.dev/gemini-api/docs/thinking-mode?hl=zh-cn
Detail tentang proses pelatihan model, arsitektur, lisensi, dan biayanya belum dirilis, namun Google AI Studio menunjukkan bahwa biaya per token saat ini untuk menggunakan model tersebut adalah nol.
Fitur khas Gemini2.0 adalah memungkinkan pengguna mengakses proses inferensi langkah demi langkah model melalui menu drop-down, yang tidak tersedia di model pesaing seperti o1 dan o1mini OpenAI. Metode penalaran yang transparan ini memungkinkan pengguna untuk memahami dengan jelas proses model mencapai kesimpulan, sehingga secara efektif memecahkan masalah AI yang dianggap sebagai "kotak hitam".
Dalam beberapa tes sederhana, Gemini2.0 mampu dengan cepat (dalam satu hingga tiga detik) menjawab dengan benar beberapa pertanyaan kompleks, seperti menghitung jumlah huruf "R" pada kata "strawberry". Dalam pengujian lainnya, model secara sistematis membandingkan dua desimal (9,9 vs. 9,11) dengan menganalisis bilangan bulat dan tempat desimal langkah demi langkah.
LM Arena, lembaga analisis independen pihak ketiga, menilai model Gemini2.0 Flash Thinking sebagai model dengan kinerja terbaik di semua kategori model bahasa utama.
Selain itu, model Flash Thinking Gemini2.0 juga memiliki fungsi pengunggahan dan analisis gambar asli. Dibandingkan dengan o1 OpenAI, OpenAI pada awalnya merupakan model teks dan kemudian diperluas dengan analisis gambar dan file. Saat ini, keduanya hanya dapat mengembalikan keluaran teks.
Meskipun kemampuan multi-modal model Gemini2.0 Flash Thinking memperluas skenario penerapan potensialnya, pengembang harus memperhatikan bahwa model tersebut saat ini tidak mendukung integrasi dengan penelusuran Google, juga tidak dapat diintegrasikan dengan aplikasi Google lainnya dan alat eksternal. Melalui Google AI Studio dan Vertex AI, pengembang dapat bereksperimen dengan model ini.
Di pasar AI yang semakin kompetitif, model Gemini2.0 Flash Thinking mungkin menandai era baru model pemecahan masalah. Dengan kemampuannya menangani berbagai tipe data, memberikan penalaran visual, dan beroperasi dalam skala besar, ia telah menjadi pesaing penting seri OpenAI o1 dan model lainnya di pasar AI inferensi.
Menyorot:
Model Pemikiran Flash Gemini2.0 memiliki kemampuan penalaran yang kuat dan mendukung 32.000 tag masukan dan 8.000 tag keluaran.
Model ini memberikan penalaran langkah demi langkah melalui menu drop-down, meningkatkan transparansi, dan memecahkan masalah “kotak hitam” AI.
Ia memiliki kemampuan pengunggahan dan analisis gambar asli, memperluas skenario aplikasi multi-modal.
Secara keseluruhan, model Gemini2.0 Flash Thinking telah menunjukkan daya saing yang kuat di bidang kecerdasan buatan dengan kemampuan penalaran yang kuat, proses penalaran yang transparan, dan fungsi multimodal, sehingga membuka kemungkinan baru untuk penerapan AI di masa depan. Namun beberapa keterbatasannya saat ini, seperti integrasinya dengan layanan Google lainnya, juga patut diperhatikan.