Этот репозиторий содержит все необходимые элементы, необходимые для создания собственного LLM с нуля. Просто следуйте инструкциям. Вдохновленный nanoGPT Карпати и генератором Шекспира, я создал этот репозиторий, чтобы создать свой собственный LLM. В нем есть все: от сбора данных для модели до файла архитектуры, токенизатора и файла поезда.
Это репо содержит:
Перед настройкой SmallLanguageModel убедитесь, что у вас установлены следующие необходимые компоненты:
Выполните следующие шаги, чтобы обучить собственный токенизатор или сгенерировать выходные данные на основе обученной модели:
Клонируйте этот репозиторий:
git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone
Установите зависимости:
pip install requirements.txt
Поезд: Дополнительную информацию можно найти на сайте Training.md. Следуйте за ним.
Запросы на вытягивание приветствуются. Если речь идет о серьезных изменениях, пожалуйста, сначала откройте вопрос, чтобы обсудить, что вы хотели бы изменить. Обязательно обновляйте тесты по мере необходимости.
Лицензия МТИ. Посетите License.md для получения дополнительной информации.