Este repositório documenta uma avaliação do mais novo modelo de linguagem grande de código aberto do Google, o Instruction Tuned Gemma-2B IT. A estrutura de testes abrange um amplo espectro de questões em vários domínios, com o objetivo de avaliar as capacidades de desempenho do modelo e sua adesão às barreiras éticas.
O objetivo deste projeto foi testar o desempenho do modelo em uma ampla gama de questões de diferentes domínios, incluindo raciocínio lógico, matemática e estatística, conhecimento técnico, compreensão de linguagem natural e muito mais, para avaliar suas capacidades e limitações. Além disso, gastei alguns minutos para compilar perguntas que avaliassem a adesão do modelo às diretrizes éticas e sua capacidade de evitar a geração de conteúdo tendencioso ou prejudicial. A seguir testaremos os recursos do RAG.
A avaliação abrangeu as seguintes categorias:
Estas categorias foram selecionadas para fornecer uma visão abrangente do conhecimento e das capacidades de raciocínio do modelo, bem como das suas salvaguardas éticas.
Os testes foram realizados utilizando a seguinte configuração para geração de saída:
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
Esta configuração foi escolhida para equilibrar a geração de respostas coerentes e relevantes e permitir resultados criativos e diversos. Ele controla o comprimento da resposta, a inclusão de tokens especiais, o comportamento da amostragem e a aleatoriedade da saída.
As descobertas revelaram resultados mistos nas diferentes categorias. Embora o modelo tenha tido um bom desempenho em determinadas áreas, teve dificuldades com tarefas básicas em outras, como operações aritméticas simples. Esses resultados destacam as áreas onde o modelo se destaca e onde precisa de melhorias.
Para replicar esses testes, não se esqueça de definir sua própria chave de API Hugging Face no notebook Colab fornecido. Encorajo os usuários a adaptar os testes aos seus domínios específicos de interesse. No entanto, é importante lembrar que estes resultados não devem ser vistos como benchmarks definitivos para todos os casos de uso, especialmente porque o desempenho pode variar com base nas configurações de hardware. Meus testes foram realizados em uma GPU NVIDIA A100.
Contribuições bem-vindas da comunidade. Seja ampliando o conjunto de testes com perguntas mais específicas de domínio, melhorando a estrutura de testes ou compartilhando os resultados da sua avaliação, sua contribuição pode ajudar a melhorar a compreensão e a utilização desse modelo para toda a comunidade.
Este projeto é de código aberto e está disponível sob a licença MIT.