Evalai adalah platform open source untuk mengevaluasi dan membandingkan algoritma pembelajaran mesin (ML) dan kecerdasan buatan (AI) pada skala.
Dalam beberapa tahun terakhir, semakin sulit untuk membandingkan algoritma yang memecahkan tugas tertentu dengan pendekatan lain yang ada. Perbandingan ini menderita perbedaan kecil dalam implementasi algoritma, penggunaan pemisahan dataset non-standar dan metrik evaluasi yang berbeda. Dengan menyediakan papan peringkat pusat dan antarmuka pengiriman, kami memudahkan para peneliti untuk mereproduksi hasil yang disebutkan dalam makalah dan melakukan analisis kuantitatif yang andal & akurat. Dengan memberikan backend yang cepat dan kuat berdasarkan kerangka kerja peta-reduce yang mempercepat evaluasi dengan cepat, Evalai bertujuan untuk memudahkan para peneliti untuk mereproduksi hasil dari makalah teknis dan melakukan analisis yang andal dan akurat.
Protokol dan Fase Evaluasi Kustom : Kami memungkinkan pembuatan sejumlah fase evaluasi dan pemisahan dataset yang sewenang -wenang, kompatibilitas menggunakan bahasa pemrograman apa pun, dan mengorganisir hasil di papan peringkat publik dan swasta.
Evaluasi Remote : Tantangan skala besar tertentu membutuhkan kemampuan komputasi khusus untuk evaluasi. Jika tantangan membutuhkan kekuatan komputasi ekstra, penyelenggara tantangan dapat dengan mudah menambahkan sekelompok node pekerja mereka sendiri untuk memproses pengiriman peserta sementara kami mengurus hosting tantangan, menangani pengajuan pengguna, dan memelihara papan peringkat.
Evaluasi di dalam lingkungan : Evalai memungkinkan peserta mengirimkan kode untuk agen mereka dalam bentuk gambar Docker yang dievaluasi terhadap lingkungan pengujian di server evaluasi. Selama evaluasi, pekerja mengambil gambar, lingkungan pengujian, dan snapshot model dan memutar wadah baru untuk melakukan evaluasi.
Dukungan CLI : Evalai-CLI dirancang untuk memperluas fungsionalitas aplikasi web evalai ke baris perintah Anda untuk membuat platform lebih mudah diakses dan ramah terminal.
Portabilitas : Evalai dirancang dengan mengingat skalabilitas dan portabilitas sistem semacam itu sejak awal gagasan tersebut. Sebagian besar komponen sangat bergantung pada teknologi open-source-Docker, Django, Node.js, dan PostgreSQL.
Evaluasi yang lebih cepat : Kami memanaskan node pekerja saat memulai dengan mengimpor kode tantangan dan pra-pemuatan dataset dalam memori. Kami juga membagi dataset menjadi potongan -potongan kecil yang secara bersamaan dievaluasi pada beberapa core. Trik -trik sederhana ini menghasilkan evaluasi yang lebih cepat dan mengurangi waktu evaluasi dengan urutan besarnya dalam beberapa kasus.
Tujuan utama kami adalah untuk membangun platform terpusat untuk menjadi tuan rumah, berpartisipasi dan berkolaborasi dalam tantangan AI yang diselenggarakan di seluruh dunia dan kami berharap dapat membantu dalam membandingkan kemajuan dalam AI.
Menyiapkan evalai pada mesin lokal Anda sangat mudah. Anda dapat mengatur evalai menggunakan Docker: Langkah -langkahnya adalah:
Pasang Docker dan Komposisi Docker di mesin Anda.
Dapatkan kode sumber ke mesin Anda melalui git.
git clone https://github.com/Cloud-CV/EvalAI.git evalai && cd evalai
Bangun dan jalankan wadah Docker. Ini mungkin memakan waktu cukup lama.
docker-compose up --build
Itu saja. Buka browser web dan tekan URL http://127.0.0.1:8888. Tiga pengguna akan dibuat secara default yang tercantum di bawah ini -
Superuser- Nama pengguna: Kata sandi admin
: password
Pengguna host- Nama pengguna : kata sandi host
: password
Pengguna Peserta- Nama Pengguna : participant
Kata Sandi: password
Jika Anda menghadapi masalah apa pun selama instalasi, silakan lihat kesalahan umum kami selama halaman instalasi.
Jika Anda menggunakan evalai untuk hosting tantangan, silakan kutip laporan teknis berikut:
@article{EvalAI,
title = {EvalAI: Towards Better Evaluation Systems for AI Agents},
author = {Deshraj Yadav and Rishabh Jain and Harsh Agrawal and Prithvijit
Chattopadhyay and Taranjeet Singh and Akash Jain and Shiv Baran
Singh and Stefan Lee and Dhruv Batra},
year = {2019},
volume = arXiv:1902.03570
}
Evalai saat ini dikelola oleh Rishabh Jain, Gunjan Chhablani. Daftar kontributor utama lainnya yang tidak lengkap meliputi: Deshraj Yadav, Ram Ramrakhya, Akash Jain, Taranjeet Singh, Shiv Baran Singh, Harsh Agarwal, Prithvijit Chattopadhyay, Devi Parikh dan Dhruv Batra.
Jika Anda tertarik untuk berkontribusi pada evalai, ikuti pedoman kontribusi kami.