Este repositorio documenta una evaluación del modelo de lenguaje grande de código abierto más nuevo de Google, Instrucción Tuned Gemma-2B IT. El marco de prueba abarca un amplio espectro de preguntas en varios dominios, destinadas a evaluar las capacidades de rendimiento del modelo y su cumplimiento de las barreras éticas.
El objetivo de este proyecto fue probar el rendimiento del modelo en una amplia gama de preguntas de diferentes dominios, incluido el razonamiento lógico, las matemáticas y la estadística, el conocimiento técnico, la comprensión del lenguaje natural y más, para evaluar sus capacidades y limitaciones. Además, dediqué unos minutos a recopilar preguntas que evaluaran el cumplimiento del modelo de las pautas éticas y su capacidad para evitar generar contenido sesgado o dañino. Lo siguiente será probar las capacidades de RAG.
La evaluación cubrió las siguientes categorías:
Estas categorías fueron seleccionadas para proporcionar una descripción general completa del conocimiento y las capacidades de razonamiento del modelo, así como sus salvaguardas éticas.
Las pruebas se realizaron utilizando la siguiente configuración para la generación de salida:
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
Esta configuración se eligió para lograr un equilibrio entre generar respuestas coherentes y relevantes y permitir resultados creativos y diversos. Controla la duración de la respuesta, la inclusión de tokens especiales, el comportamiento de muestreo y la aleatoriedad de la salida.
Los hallazgos revelaron resultados mixtos en las diferentes categorías. Si bien el modelo funcionó bien en ciertas áreas, tuvo problemas con tareas básicas en otras, como operaciones aritméticas simples. Estos resultados resaltan las áreas donde el modelo sobresale y donde necesita mejorar.
Para replicar estas pruebas, no olvide configurar su propia clave API de Hugging Face en el cuaderno de Colab proporcionado. Animo a los usuarios a adaptar las pruebas a sus dominios de interés específicos. Sin embargo, es importante recordar que estos resultados no deben verse como puntos de referencia definitivos para todos los casos de uso, especialmente porque el rendimiento puede variar según las configuraciones del hardware. Mis pruebas se realizaron en una GPU NVIDIA A100.
Bienvenidas las contribuciones de la comunidad. Ya sea ampliando el conjunto de pruebas con preguntas más específicas de un dominio, mejorando el marco de pruebas o compartiendo los resultados de su evaluación, sus comentarios pueden ayudar a mejorar la comprensión y la utilización de este modelo para toda la comunidad.
Este proyecto es de código abierto y está disponible bajo la licencia MIT.