A avaliação é uma plataforma de código aberto para avaliar e comparar algoritmos de aprendizado de máquina (ML) e inteligência artificial (AI) em escala.
Nos últimos anos, tornou -se cada vez mais difícil comparar um algoritmo resolvendo uma determinada tarefa com outras abordagens existentes. Essas comparações sofrem de pequenas diferenças na implementação do algoritmo, uso de divisões de dados não padrão e métricas de avaliação diferentes. Ao fornecer uma interface de tabela de líderes e submissão central, facilitamos a reprodução dos resultados mencionados no artigo e realizamos análises quantitativas confiáveis e precisas. Ao fornecer back-ends rápidos e robustos, com base em estruturas de redescência de mapa que aceleram a avaliação em tempo real, a avaliação tem como objetivo facilitar a reprodução de resultados de artigos técnicos e realiza análises confiáveis e precisas.
Protocolos e fases de avaliação personalizada : permitimos a criação de um número arbitrário de fases de avaliação e divisões de dados, compatibilidade usando qualquer linguagem de programação e organização de resultados em tabelas de classificação pública e privada.
Avaliação remota : Certos desafios em larga escala precisam de recursos especiais de computação para avaliação. Se o desafio precisar de um poder computacional extra, os organizadores do desafio poderão adicionar facilmente seu próprio aglomerado de nós do trabalhador para processar envios de participantes enquanto cuidamos de hospedar o desafio, lidar com envios de usuários e manter a tabela de classificação.
Avaliação em ambientes internos : avalia permite que os participantes enviem código para seu agente na forma de imagens do Docker que são avaliadas em relação aos ambientes de teste no servidor de avaliação. Durante a avaliação, o trabalhador busca a imagem, o ambiente de teste e o modelo instantâneo e gira um novo contêiner para executar a avaliação.
Suporte da CLI : o avaliou-cli foi projetado para estender a funcionalidade do aplicativo da avaliação da sua linha de comando para tornar a plataforma mais acessível e amigável ao terminal.
Portabilidade : A avaliação é projetada com a mente de escalabilidade e portabilidade de um sistema desse sistema desde o início da idéia. A maioria dos componentes depende muito de tecnologias de código aberto-Docker, Django, Node.js e PostgreSQL.
Avaliação mais rápida : aquecemos os nós do trabalhador na inicialização, importando o código do desafio e pré-carregando o conjunto de dados na memória. Também dividimos o conjunto de dados em pequenos pedaços que são avaliados simultaneamente em vários núcleos. Esses truques simples resultam em avaliação mais rápida e reduz o tempo de avaliação por uma ordem de magnitude em alguns casos.
Nosso objetivo final é construir uma plataforma centralizada para sediar, participar e colaborar em desafios de IA organizados em todo o mundo e esperamos ajudar a realizar o progresso da IA.
A configuração de avaliação em sua máquina local é realmente fácil. Você pode configurar o avalai usando o Docker: as etapas são:
Instale o Docker e o Docker-Compose em sua máquina.
Obtenha o código -fonte na sua máquina via Git.
git clone https://github.com/Cloud-CV/EvalAI.git evalai && cd evalai
Construa e execute os contêineres do Docker. Isso pode demorar um pouco.
docker-compose up --build
É isso. Abra o navegador da web e acesse o URL http://127.0.0.1:8888. Três usuários serão criados por padrão, listados abaixo -
SuperUser- Nome de usuário: senha admin
: password
Host User- Nome de usuário: senha host
: password
Usuário do participante- Nome de usuário: senha participant
: password
Se você estiver enfrentando qualquer problema durante a instalação, consulte nossos erros comuns durante a página de instalação.
Se você estiver usando o Evalai para desafios de hospedagem, cite o seguinte relatório técnico:
@article{EvalAI,
title = {EvalAI: Towards Better Evaluation Systems for AI Agents},
author = {Deshraj Yadav and Rishabh Jain and Harsh Agrawal and Prithvijit
Chattopadhyay and Taranjeet Singh and Akash Jain and Shiv Baran
Singh and Stefan Lee and Dhruv Batra},
year = {2019},
volume = arXiv:1902.03570
}
Atualmente, é mantido por Rishabh Jain, Gunjan Chhablani. Uma lista não exaustiva de outros grandes colaboradores inclui: Deshraj Yadav, Ram Ramrakhya, Akash Jain, Taranjeet Singh, Shiv Baran Singh, Harsh Agarwal, Prithvijit Chattopadhyay, Devi Parikh e Dhruv Batra.
Se você estiver interessado em contribuir com a avaliação, siga nossas diretrizes de contribuição.