Este repositorio contiene el código y los resultados ampliados del artículo Pescando Magikarp: detección automática de tokens poco entrenados en modelos de lenguaje grandes.
Lo más interesante de este repositorio son probablemente los informes detallados y la tabla de resumen que se encuentran en resultados/. Para cada modelo, hay un informe "completo" y un "mini". La versión 'mini' siempre se puede abrir en github, pero es posible que sea necesario descargar y ver la versión completa localmente debido a limitaciones de tamaño de archivo.
En estos informes:
▁
un espacio (pero no _
)¿entry?
representa tokens con una entry
de vocabulario que no se codificó como se esperaba. poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
Para algunos modelos más nuevos, es posible que necesites instalar una versión más nueva de Transformers usando pip install git+https://github.com/huggingface/transformers.git
Consulte run_verification.sh
para ver algunos comandos de ejemplo para ejecutar nuevos modelos. El script en sí es principalmente una referencia de reproducibilidad y no se recomienda ejecutarlo.
Para modelos con incrustaciones vinculadas, o para visualizaciones y resultados más agradables, necesitará codificar algunos identificadores de tokens no utilizados en magikarp/unused_tokens.py
.
[0]
, o usa el vocabulario del tokenizador para elegir algunos.magikarp/fishing.py
y elimínelo cuando comience la verificación.results/verifications/yourmodel.jsonl
que le permite ver el vocabulario y actualizar los tokens adecuados.generate_results.py
: genera gráficos e informes de rebajas. Esto sucede automáticamente después de la verificación, pero para regenerar puede python generate_results.py [your_model_id]
y luego buscar en results
. Si desea contribuir con resultados para modelos adicionales, incluya:
UNUSED_TOKENS
pytest
) pasen para el nuevo modelo, que utiliza esta matriz como registro de modelo.run_verification.sh
results
que no están .gitignore
Si conoce un modelo que puede ser interesante de analizar, pero no tiene los recursos para ejecutarlo usted mismo, no dude en abrir un problema. Agregue la identificación de Hugging Face, alguna información sobre lo interesante que es en términos de tokenización y tenga en cuenta que cuanto más grande sea el modelo, es menos probable que se le dé prioridad.