Descarga de SmartLMVocabs - Descarga del código fuente SmartLMVocabs

SmartLMVocabs

Código Fuente de IA

1.0.0

Descargar

SmartLMVocabs

Mejora del rendimiento del modelo lingüístico mediante vocabularios inteligentes

Este proyecto está diseñado para explorar el uso del preprocesamiento del Billion Word Corpus con etiquetas de parte del discurso y entidades nombradas para crear un vocabulario "más inteligente". Utilizando estas técnicas es posible obtener mejores puntuaciones de perplejidad que utilizando únicamente las N palabras principales del corpus.

Para obtener una explicación completa del procesamiento y su impacto en las puntuaciones de perplejidad que se pueden obtener, consulte Cómo mejorar el rendimiento del modelo lingüístico con vocabularios más inteligentes.

El proyecto incluye guiones para

Extraiga oraciones únicas del Billion Word Corpus
Cree vocabularios simples o inteligentes basados en parámetros designados por el usuario
Construya, entrene y pruebe modelos de lenguaje utilizando los vocabularios definidos.

Instalación y configuración

El proyecto está diseñado para ser utilizado en obra y no existe instalación de tubería para ello. Simplemente descargue el código fuente de GitHub, establezca las opciones de configuración y ejecute los scripts numerados en orden. Tenga en cuenta que este código está diseñado para el investigador, por lo que deberá revisar el código de los scripts que se ejecutan y modificar las opciones según sea necesario para obtener resultados específicos.

Usando los guiones

Los scripts del directorio principal tienen el prefijo de un número para indicar en qué orden ejecutarlos. La mayoría de los scripts en el directorio principal son una serie relativamente corta de llamadas a las funciones de la biblioteca asociada. Antes de ejecutar cada script, asegúrese de abrirlo y configurar cualquiera de los parámetros de configuración para obtener los resultados que desea.

Las opciones de configuración global utilizadas por múltiples scripts se establecen en ./configs/config.py. Asegúrese de ingresar a este archivo y modificar las rutas a sus datos antes de ejecutar cualquiera de los scripts a continuación.

00_StanfordCoreNLPServer.py : inicia el analizador Stanford Core NLP utilizando el archivo de configuración ./configs/snlp_server.py. El script se bloquea mientras el servidor se está ejecutando. Si lo prefiere, el servidor se puede iniciar manualmente. Este script es sólo por conveniencia.
10_ExtractUniqueSents.py : extrae oraciones únicas del Billion Word Corpus antes del análisis. Cerca de la parte superior del archivo hay algunas instrucciones sobre cómo descargar y configurar el corpus sin formato.
12_STParseBWCorpus.py : ejecuta todas las oraciones únicas a través del analizador Stanford. Tenga en cuenta que este paso requiere una cantidad considerable de tiempo (posiblemente un día completo) y se beneficia enormemente de un procesador multinúcleo. Consulte las notas en el archivo sobre los tiempos de ejecución.
14_RemoveDuplicates.py : realiza un segundo paso a través de los datos para eliminar oraciones duplicadas que ocurren después del análisis/normalización.
20_CreateEnglishDictionary.py : Requerido para la creación de vocabulario inteligente.
22_CreateVocab.py : este script crea los distintos tipos de vocabularios. Existe un gran bloque if/elif en el archivo para que el usuario elija qué tipo de vocabulario crear.
24_IndexVocab.py : crea los datos del corpus indexados utilizados para entrenar el modelo de lenguaje. Nuevamente hay un gran bloque if/elif aquí que el usuario debe configurar para seleccionar el tipo de vocabulario que se utilizará.
30_TrainBasicLM.py : configura y ejecuta el entrenamiento del modelo. Nuevamente hay un bloque de declaraciones que permiten al usuario elegir el vocabulario con el que entrenar. Además, el usuario debe elegir el archivo con los parámetros de configuración del modelo. Los parámetros de configuración del modelo se almacenan en el directorio de configuración con nombres de archivo como L1_2048_512.py.
32_TestPerplexity : ejecuta una prueba de perplejidad contra el modelo entrenado. Elija el modelo a probar en la parte inferior del script.
34_NextWordPrediction.py : permite al usuario ingresar la primera parte de una oración y llama al modelo para predecir la siguiente palabra. Configure qué modelo usar en la parte principal del script.

Compatibilidad

El código está probado para ejecutarse en Python 3 y Linux.
Originalmente se configuró usando Python 2, por lo que es probable que solo sea necesario realizar cambios menores para que funcione en ese entorno.
No conozco ninguna limitación para ejecutar esto en Windows. Si el script para ejecutar Stanford Parser no funciona, simplemente puede ejecutarlo manualmente.

Expresiones de gratitud

Partes del código se adaptaron del conjunto de herramientas del modelo de lenguaje de la Universidad de Saarland. Consulte TF-NNLM-TK.
Ese código se basó en parte en el modelo de ejemplo de TensorflowPTB-LM.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2024-12-30
tamaño 119.17KB
Proviene de Github

Aplicaciones relacionadas

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo