Apple telah menjadikan model bahasa DCLM-Baseline-7B dengan 7 miliar parameter sebagai sumber terbuka, yang telah menarik perhatian luas di bidang kecerdasan buatan. Sumber terbuka model ini bukan sekadar pengungkapan kode, tetapi mencakup detail seluruh proses mulai dari prapemrosesan data, pelatihan model hingga evaluasi, menyediakan sumber pembelajaran dan penelitian yang berharga bagi peneliti dan pengembang. Hal ini tidak hanya mencerminkan kekuatan Apple yang kuat di bidang AI, namun juga menandai arah baru untuk pengembangan model AI di masa depan. DCLM-Baseline-7B telah berkinerja baik dalam berbagai pengujian benchmark dan memiliki kinerja yang sebanding dengan beberapa model sumber tertutup yang besar. Desain arsitektur dan proses pelatihannya yang efisien juga layak untuk dipelajari secara mendalam.
Baru-baru ini, Apple telah membuka model DCLM-Baseline-7B secara open source. Langkah ini pasti akan berdampak besar pada pengembangan model bahasa AI.
Sumber terbuka model DCLM-Baseline-7B tidak hanya pengungkapan kode, namun yang lebih penting, mencakup keseluruhan tautan mulai dari kumpulan data pra-pelatihan, proses pemrosesan data, proses pelatihan hingga komponen evaluasi. Artinya peneliti dan pengembang dapat memiliki pemahaman yang komprehensif dan mendalam tentang model dari awal hingga akhir, luar dan dalam.
Dalam pengujian MMLU, DCLM-Baseline-7B memiliki performa yang setara dengan Mistral-7B-v0.3 dan Llama38B, yang membuktikan performa superiornya dalam kemampuan pemahaman bahasa. Performa seperti itu tidak diragukan lagi sangat menarik untuk model open source.
DCLM-Baseline-7B adalah model bahasa Transformer berbasis dekoder yang mengadopsi desain arsitektur tingkat lanjut dan dioptimalkan berdasarkan kerangka kerja PyTorch dan OpenLM. Arsitektur ini membuat model lebih efisien dan akurat saat memproses tugas bahasa.
Proses pelatihan model juga patut mendapat perhatian. Ia menggunakan pengoptimal AdamW dengan kecepatan pembelajaran puncak 2e-3, peluruhan bobot 0,05, ukuran batch urutan 2048, panjang urutan 2048 token, dan dilatih pada GPU H100. Detail ini mencerminkan upaya Apple untuk mencapai keunggulan dalam pelatihan model.
Penggunaan model DCLM-Baseline-7B memerlukan instalasi open_lm terlebih dahulu, dan pembuatan model melalui kode tertentu dan pengaturan parameter. Penggunaan yang terbuka dan fleksibel ini memungkinkan pengembang untuk menyesuaikan dan mengoptimalkan model sesuai dengan kebutuhan mereka.
Dalam banyak tugas, DCLM-Baseline-7B telah menunjukkan hasil evaluasi yang sangat baik. Misalnya skor pada tugas MMLU (zero-shot) adalah 0,5766, dan skor pada tugas MMLU (few-shot) adalah 0,6372. Hasil ini tidak hanya menunjukkan kinerja model, namun juga memberikan referensi berharga untuk penelitian masa depan.
Sumber terbuka DCLM-Baseline-7B merupakan kontribusi penting Apple lainnya di bidang AI. Hal ini tidak hanya menunjukkan kekuatan Apple dalam teknologi AI, namun juga menyediakan sumber daya berharga bagi peneliti dan pengembang AI di seluruh dunia. Dengan model open source ini, kita dapat memperkirakan bahwa lebih banyak aplikasi dan penelitian inovatif akan lahir atas dasar ini di masa depan.
Alamat model: https://huggingface.co/apple/DCLM-7B
Secara keseluruhan, open source DCLM-Baseline-7B merupakan tonggak sejarah di bidang AI. Hal ini memberikan dorongan kuat untuk mendorong pengembangan dan penerapan teknologi AI.