Novasky, tim peneliti di Sky Computing Laboratory di University of California, Berkeley, baru-baru ini merilis model inferensi yang disebut Sky-T1-32B-Preview, yang berkinerja sangat baik pada beberapa tolok ukur utama, bahkan sebanding dengan versi awal O1 Openai dari Openai . Yang lebih mencolok adalah bahwa biaya pelatihan model ini sangat rendah, menunjukkan tren baru dalam pengembangan kecerdasan buatan yang efisien dan ekonomis.
Sky-T1-32B-Preview adalah model penalaran sumber terbuka pertama yang benar-benar. Tim Novasky tidak hanya mengekspos model itu sendiri, tetapi juga menyediakan dataset pelatihan dan kode pelatihan yang diperlukan sehingga model dapat sepenuhnya disalin. Menurut blog tim, "biaya pelatihan preview Sky-T1-32B kurang dari $ 450, yang membuktikan bahwa kemampuan penalaran canggih dapat dicapai dengan biaya rendah." dilakukan di masa lalu. Pengurangan biaya yang signifikan ini terutama disebabkan oleh penggunaan data pelatihan sintetis. Sebagai contoh, model Palmyra X004 yang baru -baru ini dirilis oleh penulis perusahaan intelijen buatan hampir seluruhnya bergantung pada data sintetis untuk pelatihan, dengan biaya pengembangan hanya $ 700.000.
Model inferensi berbeda dari model kecerdasan buatan biasa. Namun, model inferensi sering membutuhkan waktu lebih lama untuk menghasilkan solusi, mulai dari detik hingga menit. Namun demikian, keandalannya di bidang -bidang seperti fisika, sains dan matematika membuatnya ideal untuk bidang -bidang ini.
Tim Novasky mengungkapkan bahwa mereka menggunakan model inferensi QWQ-32B Alibaba untuk menghasilkan data pelatihan awal Sky-T1, dan kemudian mengurutkan data dan merekonstruksi data menjadi yang lebih dapat digunakan menggunakan format GPT-4O-Mini Openai. Dibutuhkan sekitar 19 jam untuk melatih Sky-T1 dengan 32 miliar parameter menggunakan 8 rak GPU NVIDIA H100, dan jumlah parameter secara langsung mencerminkan kemampuan pemecahan masalah model.
Dalam pengujian kinerja, Sky-T1 mengungguli versi pratinjau awal O1 di Math500 (serangkaian tantangan matematika "level kontes") dan juga mengalahkan versi pratinjau O1 pada serangkaian teka-teki pengkodean dari Livecodebench. Namun, Sky-T1 tidak sebagus versi pratinjau O1 di GPQA-Diamond, yang berisi masalah fisika, biologi dan terkait kimia yang harus dikuasai oleh lulusan doktoral. Selain itu, versi O1GA OpenAI lebih kuat daripada versi pratinjau, dan Openai berharap untuk merilis model inferensi yang lebih berkinerja lebih baik dalam beberapa minggu mendatang.
Namun demikian, tim Novasky mengatakan bahwa Sky-T1 hanyalah titik awal bagi mereka untuk mengembangkan model open source dengan kemampuan penalaran lanjutan. “Ke depan, kami akan fokus pada pengembangan model yang lebih efisien, mempertahankan kinerja inferensi yang kuat, dan mengeksplorasi teknologi canggih untuk lebih meningkatkan efisiensi dan keakuratan model saat menguji,” tulis tim di pos, “Tetap disini kami kemajuan yang dibuat dalam hal ini Rencana yang menarik. "Munculnya model penalaran sumber terbuka ini tidak diragukan lagi membawa peluang dan tantangan baru ke bidang kecerdasan buatan, dan perkembangannya di masa depan layak mendapat perhatian terus -menerus.