Загрузка SmallLanguageModel - Загрузка исходного кода SmallLanguageModel

SmallLanguageModel

Другой исходный код

1.0.0

Скачать

МаленькийЯзыкМодель

Этот репозиторий содержит все необходимые элементы, необходимые для создания собственного LLM с нуля. Просто следуйте инструкциям. Вдохновленный nanoGPT Карпати и генератором Шекспира, я создал этот репозиторий, чтобы создать свой собственный LLM. В нем есть все: от сбора данных для модели до файла архитектуры, токенизатора и файла поезда.

Структура репо

Это репо содержит:

Сборщик данных: каталог, содержащий веб-скребок, на случай, если вы хотите собрать данные с нуля, а не загружать.
Обработка данных: каталог, содержащий код для предварительной обработки определенных типов файлов, например преобразования файлов паркета в файлы .txt и .csv, а также коды добавления файлов.
Модели: содержит весь необходимый код для обучения собственной модели. Модель BERT, модель GPT и модель Seq-2-Seq, а также токенизатор и файлы запуска.

Предварительные условия

Перед настройкой SmallLanguageModel убедитесь, что у вас установлены следующие необходимые компоненты:

Питон 3.8 или выше
pip (установщик пакетов Python)

Как использовать:

Выполните следующие шаги, чтобы обучить собственный токенизатор или сгенерировать выходные данные на основе обученной модели:

Клонируйте этот репозиторий:

git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone

Установите зависимости:
```
pip install requirements.txt
```
Поезд: Дополнительную информацию можно найти на сайте Training.md. Следуйте за ним.

Звездная история

Содействие

Запросы на вытягивание приветствуются. Если речь идет о серьезных изменениях, пожалуйста, сначала откройте вопрос, чтобы обсудить, что вы хотели бы изменить. Обязательно обновляйте тесты по мере необходимости.