Descargar magikarp - Descarga del código fuente magikarp

magikarp

Otro código fuente

Descargar

Código para el artículo "Pesca de Magikarp"

Este repositorio contiene el código y los resultados ampliados del artículo Pescando Magikarp: detección automática de tokens poco entrenados en modelos de lenguaje grandes.

Explorando resultados

Lo más interesante de este repositorio son probablemente los informes detallados y la tabla de resumen que se encuentran en resultados/. Para cada modelo, hay un informe "completo" y un "mini". La versión 'mini' siempre se puede abrir en github, pero es posible que sea necesario descargar y ver la versión completa localmente debido a limitaciones de tamaño de archivo.

En estos informes:

▁ un espacio (pero no _ )
¿entry? representa tokens con una entry de vocabulario que no se codificó como se esperaba.

Funcionando en otros modelos

Configuración

Este es un proyecto de poesía estándar.

poetry shell   # make/activate your virtual environment
poetry install # only the first time or on updates

Para algunos modelos más nuevos, es posible que necesites instalar una versión más nueva de Transformers usando pip install git+https://github.com/huggingface/transformers.git

Correr

Consulte run_verification.sh para ver algunos comandos de ejemplo para ejecutar nuevos modelos. El script en sí es principalmente una referencia de reproducibilidad y no se recomienda ejecutarlo.

Para modelos con incrustaciones vinculadas, o para visualizaciones y resultados más agradables, necesitará codificar algunos identificadores de tokens no utilizados en magikarp/unused_tokens.py .

Si ya existe un modelo relacionado, es probable que copiar los identificadores de los tokens funcione bien.
Para incrustaciones no vinculadas, generalmente puede dejar que finalice la verificación y actualizar los tokens no utilizados después de obtener los resultados.
Para el raro caso de nuevas familias de modelos con incrustaciones vinculadas:
- Adivina, como [0] , o usa el vocabulario del tokenizador para elegir algunos.
- Ejecute el script magikarp/fishing.py y elimínelo cuando comience la verificación.
- Ahora tiene results/verifications/yourmodel.jsonl que le permite ver el vocabulario y actualizar los tokens adecuados.
- Actualice sus tokens no utilizados y ejecute la verificación.

Generando resultados

generate_results.py : genera gráficos e informes de rebajas. Esto sucede automáticamente después de la verificación, pero para regenerar puede python generate_results.py [your_model_id] y luego buscar en results .

Contribuyendo

Si desea contribuir con resultados para modelos adicionales, incluya:

La entrada UNUSED_TOKENS
- asegúrese de que las pruebas de tokenización (a través de pytest ) pasen para el nuevo modelo, que utiliza esta matriz como registro de modelo.
Una línea en run_verification.sh
Todos los archivos en results que no están .gitignore

Solicitudes de modelo

Si conoce un modelo que puede ser interesante de analizar, pero no tiene los recursos para ejecutarlo usted mismo, no dude en abrir un problema. Agregue la identificación de Hugging Face, alguna información sobre lo interesante que es en términos de tokenización y tenga en cuenta que cuanto más grande sea el modelo, es menos probable que se le dé prioridad.

Expandir

Información adicional

Versión
Tipo Otro código fuente
Fecha de actualización 2024-11-23
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo