Организация: Университет Нового Южного Уэльса (UNSW) AI4Science & GreenDynamics AI
Darwin — это проект с открытым исходным кодом, предназначенный для предварительной подготовки и точной настройки модели LLaMA на основе научной литературы и наборов данных. Специально разработанный для научной области с упором на материаловедение, химию и физику, Дарвин объединяет структурированные и неструктурированные научные знания для повышения эффективности языковых моделей в научных исследованиях.
Уведомления об использовании и лицензии : Darwin лицензирован и предназначен только для исследовательского использования. Набор данных распространяется по лицензии CC BY NC 4.0, что позволяет использовать его в некоммерческих целях. Модели, обученные с использованием этого набора данных, не следует использовать вне исследовательских целей. Разница в весе также находится под лицензией CC BY NC 4.0.
[20.11.2024]
Ключевые достижения
Анализ производительности модели
Стратегии обработки данных и аналитика
[2024.02.15] SOTA в MatBench от Material Projects: DARWIN — это модель SOTA для экспериментальных задач прогнозирования запрещенной зоны и задач классификации металлов, которая лучше, чем Fine-tuned GPT3.5 и специальные модели ML. https://matbench.materialsproject.org/Leaderboards%20Per-Task/matbench_v0.1_matbench_expt_gap/
☆ [2023.09.15]Доступна версия Google Colab: попробуйте наш DARWIN с Google Colab: inference.ipynb
Дарвин, основанный на модели 7B LLaMA, обучается на более чем 100 000 точках данных, генерирующих инструкции Дарвина (SIG) из различных научных наборов данных FAIR и корпуса литературы. Сосредоточив внимание на фактической правильности ответов модели, Дарвин представляет собой значительный шаг на пути к использованию моделей большого языка (LLM) для научных открытий. Предварительные оценки на людях показывают, что Darwin 7B превосходит GPT-4 в научных вопросах и ответах и точно настроенный GPT-3 в решении химических задач (например, gptChem).
Мы активно разрабатываем Darwin для более продвинутых научных экспериментов, а также интегрируем Darwin с LangChain для решения более сложных научных задач (например, частный научный сотрудник для персональных компьютеров).
Обратите внимание: Дарвин все еще находится в стадии разработки, и необходимо устранить многие ограничения. Самое главное, нам еще предстоит настроить «Дарвин» на максимальную безопасность. Мы призываем пользователей сообщать о любом вызывающем беспокойство поведении, чтобы улучшить безопасность модели и этические соображения.
ДЕМО-ССЫЛКА
Сначала установите требования:
pip install -r requirements.txt
Скачать КПП Гири Дарвин-7Б с onedrive. Загрузив модель, вы можете попробовать нашу демо-версию:
python inference.py < your path to darwin-7b >
Обратите внимание: для вывода Darwin 7B требуется не менее 10 ГБ памяти графического процессора.
Для дальнейшей тонкой настройки нашего Darwin-7b с использованием различных наборов данных ниже приведена команда, которая работает на машине с 4 графическими процессорами A100 80G.
torchrun --nproc_per_node=8 --master_port=1212 train.py
--model_name_or_path < your path to darwin-7b >
--data_path < your path to dataset >
--bf16 True
--output_dir < your output dir >
--num_train_epochs 3
--per_device_train_batch_size 1
--per_device_eval_batch_size 1
--gradient_accumulation_steps 1
--evaluation_strategy " no "
--save_strategy " steps "
--save_steps 500
--save_total_limit 1
--learning_rate 2e-5
--weight_decay 0.
--warmup_ratio 0.03
--lr_scheduler_type " cosine "
--logging_steps 1
--fsdp " full_shard auto_wrap "
--fsdp_transformer_layer_cls_to_wrap ' LlamaDecoderLayer '
--tf32 False
Наши данные взяты из двух основных источников:
После 2000 года был опубликован корпус необработанной литературы, содержащий 6,0 млн статей по материаловедению, химии и физике. В число издателей входят ACS, RSC, Springer Nature, Wiley и Elsevier. Мы благодарим их за поддержку.
Наборы данных FAIR. Мы собрали данные из 16 наборов данных FAIR.
Мы разработали Darwin-SIG для создания научных инструкций. Он может запоминать длинные тексты из полных текстов литературы (в среднем ~ 5000 слов) и генерировать данные вопросов и ответов (Q&A) на основе ключевых слов научной литературы (из API Web of Science).
Примечание. Вы также можете использовать для генерации GPT3.5 или GPT-4, но эти варианты могут быть дорогостоящими.
Имейте в виду, что мы не можем делиться набором обучающих данных по соглашению с издателями.
Этот проект представляет собой совместную работу следующих организаций:
UNSW и GreenDynamics: Тонг Се, Шаочжоу Ван
UNSW: Имран Раззак, Коди Хуанг
Центр USYD & DARE: Клара Грациан
GreenDynamics: Ювэй Ван, Исюань Лю
Брэм Хоэкс и Вэньцзе Чжан из UNSW Engineering консультировали всех.
Если вы используете данные или код из этого репозитория в своей работе, укажите это соответствующим образом.
Базовая модель большого языка DAWRIN и тонкая настройка полусамообучения
@misc{xie2023darwin,
title={DARWIN Series: Domain Specific Large Language Models for Natural Science},
author={Tong Xie and Yuwei Wan and Wei Huang and Zhenyu Yin and Yixuan Liu and Shaozhou Wang and Qingyuan Linghu and Chunyu Kit and Clara Grazian and Wenjie Zhang and Imran Razzak and Bram Hoex},
year={2023},
eprint={2308.13565},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Точная настройка GPT-3 и LLaMA для обнаружения материалов (обучение с одним заданием)
@article{xie2023large,
title={Large Language Models as Master Key: Unlocking the Secrets of Materials Science},
author={Xie, Tong and Wan, Yuwei and Zhou, Yufei and Huang, Wei and Liu, Yixuan and Linghu, Qingyuan and Wang, Shaozhou and Kit, Chunyu and Grazian, Clara and Zhang, Wenjie and others},
journal={Available at SSRN 4534137},
year={2023}
}
Этот проект относится к следующим проектам с открытым исходным кодом:
Особая благодарность NCI Australia за поддержку высокопроизводительных вычислений.
Мы постоянно расширяем команду разработчиков Darwin. Присоединяйтесь к нам в этом захватывающем путешествии по развитию научных исследований с помощью ИИ!
Для получения более подробной информации о позициях доктора философии или постдоктора свяжитесь с нами по адресу [email protected] или [email protected].
Другие вакансии можно найти на сайте www.greendynamics.com.au.