Потрясающие статьи LLM по ресурсоэффективному использованию
Кураторский список высококачественных статей по ресурсоэффективному LLM.
Это репозиторий GitHub для нашего обзора «За гранью эффективности: систематический обзор ресурсоэффективных моделей большого языка».
Оглавление
- Потрясающие статьи LLM по ресурсоэффективному использованию
- Оглавление
- LLM Архитектурный дизайн
- Эффективная архитектура трансформатора
- Нетрансформаторная архитектура
- Предварительное обучение LLM
- Эффективность памяти
- Распределенное обучение
- Тренировка смешанной точности
- Эффективность данных
- Выборка по важности
- Увеличение данных
- Цель обучения
- LLM Тонкая настройка
- Точная настройка с эффективным использованием параметров
- Полнопараметрическая точная настройка
- Вывод LLM
- Сжатие модели
- Динамическое ускорение
- Проектирование системы
- Оптимизация развертывания
- Инфраструктура поддержки
- Другие системы
- Показатели и критерии оценки ресурсоэффективности
- ? Метрики вычислений
- ? Метрики памяти
- ⚡️ Энергетические показатели
- ? Показатель финансовых затрат
- ? Метрика сетевой связи
- Другие показатели
- Тесты
- Ссылка
LLM Архитектурный дизайн
Эффективная архитектура трансформатора
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Примерное внимание | Простые модели языка линейного внимания уравновешивают компромисс между пропускной способностью запоминания. | ArXiv |
2024 год | Внимание к оборудованию | MobileLLM: оптимизация языковых моделей с субмиллиардным параметром для сценариев использования на устройствах | ArXiv |
2024 год | Примерное внимание | LoMA: Внимание к сжатию памяти без потерь | ArXiv |
2024 год | Примерное внимание | Два камня попали в одну птицу: двухуровневое позиционное кодирование для лучшей экстраполяции длины | ICML |
2024 год | Оптимизация оборудования | FlashAttention-2: более быстрое внимание с лучшим параллелизмом и рабочим разделением | ICLR |
2023 год | Оптимизация оборудования | Flashattention: быстрое и эффективное использование памяти точное внимание с io-awareness | НейрИПС |
2023 год | Примерное внимание | KDEformer: ускорение трансформаторов с помощью оценки плотности ядра | ICML |
2023 год | Примерное внимание | Mega: скользящее среднее с закрытым вниманием | ICLR |
2022 год | Оптимизация оборудования | xFormers — набор инструментов для ускорения исследований трансформаторов | GitHub |
2021 год | Примерное внимание | Эффективное внимание: внимание с линейными сложностями | ВАКВ |
2021 год | Примерное внимание | Трансформатор, свободный от внимания | ArXiv |
2021 год | Примерное внимание | Внимание к себе не требует памяти O(n^2) | ArXiv |
2021 год | Оптимизация оборудования | LightSeq: высокопроизводительная библиотека вывода для трансформаторов | НААКЛ |
2021 год | Оптимизация оборудования | FasterTransformer: платформа более быстрого преобразователя | GitHub |
2020 год | Примерное внимание | Трансформаторы — это RNN: быстрые авторегрессионные трансформаторы с линейным вниманием | ICML |
2019 год | Примерное внимание | Реформатор: эффективный преобразователь | ICLR |
Нетрансформаторная архитектура
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Декодер | Вы кэшируете только один раз: архитектуры декодера-декодера для языковых моделей | ArXiv |
2024 год | Битлинейный слой | Масштабируемое языковое моделирование без MatMul | ArXiv |
2023 год | РНН ЛМ | RWKV: новое изобретение RNN для эры трансформаторов | Результаты EMNLP |
2023 год | МЛП | Авторегрессивные предсказатели следующего токена — универсальные обучающиеся | ArXiv |
2023 год | Сверточная LM | Иерархия гиен: на пути к более крупным моделям сверточного языка | ICML |
2023 год | На основе субквадратичных матриц | Monarch Mixer: простая субквадратичная архитектура на основе GEMM | НейрИПС |
2023 год | Модель выборочного пространства состояний | Мамба: моделирование последовательностей линейного времени с выборочными пространствами состояний | ArXiv |
2022 год | Смесь экспертов | Переключающие трансформаторы: масштабирование до моделей с триллионом параметров с простой и эффективной разреженностью | JMLR |
2022 год | Смесь экспертов | GLaM: эффективное масштабирование языковых моделей с участием специалистов | ICML |
2022 год | Смесь экспертов | Смешение экспертов с маршрутизацией экспертного выбора | НейрИПС |
2022 год | Смесь экспертов | Эффективное крупномасштабное языковое моделирование с привлечением экспертов | ЭМНЛП |
2017 год | Смесь экспертов | Невероятно большие нейронные сети: разреженная смесь экспертов | ICLR |
Предварительное обучение LLM
Эффективность памяти
Распределенное обучение
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Модельный параллелизм | ProTrain: эффективное обучение LLM с помощью адаптивного управления памятью | Арксив |
2024 год | Модельный параллелизм | MegaScale: масштабирование обучения большой языковой модели на более чем 10 000 графических процессоров | Арксив |
2023 год | Параллелизм данных | Palm: Масштабирование языкового моделирования с помощью путей | Гитхаб |
2023 год | Модельный параллелизм | Bpipe: конвейерный параллелизм со сбалансированной памятью для обучения больших языковых моделей. | JMLR |
2022 год | Модельный параллелизм | Alpa: автоматизация меж- и внутриоператорного параллелизма для распределенного глубокого обучения | ОСДИ |
2021 год | Параллелизм данных | FairScale: модульная библиотека PyTorch общего назначения для высокой производительности и крупномасштабного обучения. | JMLR |
2020 год | Параллелизм данных | Ноль: оптимизация памяти для обучения моделей с триллионами параметров | IEEE SC20 |
2019 год | Модельный параллелизм | GPipe: эффективное обучение гигантских нейронных сетей с использованием конвейерного параллелизма | НейрИПС |
2019 год | Модельный параллелизм | Megatron-LM: обучение языковых моделей с несколькими миллиардами параметров с использованием параллелизма моделей | Арксив |
2019 год | Модельный параллелизм | PipeDream: обобщенный конвейерный параллелизм для обучения DNN | СОСП |
2018 год | Модельный параллелизм | Mesh-tensorflow: глубокое обучение для суперкомпьютеров | НейрИПС |
Тренировка смешанной точности
Дата | Ключевые слова | Бумага | Место проведения |
---|
2022 год | Смешанная тренировка точности | BLOOM: многоязычная языковая модель открытого доступа с 176 параметрами | Арксив |
2018 год | Смешанная тренировка точности | Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка | список управления доступом |
2017 год | Смешанная тренировка точности | Смешанная тренировка точности | ICLR |
Эффективность данных
Выборка по важности
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Выборка по важности | LISA: послойная выборка по важности для точной настройки модели большого языка с эффективным использованием памяти | Арксив |
2023 год | Опрос по выборке по важности | Исследование по эффективному обучению трансформаторов | IJCAI |
2023 год | Выборка по важности | Data-Juicer: универсальная система обработки данных для больших языковых моделей | Арксив |
2023 год | Выборка по важности | ГЕНИАЛЬНО: использование информативных подмножеств данных для эффективного предварительного обучения языковых моделей | ЭМНЛП |
2023 год | Выборка по важности | Силовые поля машинного обучения с обучением с учетом затрат на данные | ICML |
2022 год | Выборка по важности | За пределами нейронных законов масштабирования: превосходя степенное масштабирование за счет сокращения данных | НейрИПС |
2021 год | Выборка по важности | Глубокое обучение на основе данных: поиск важных примеров на ранних этапах обучения | НейрИПС |
2018 год | Выборка по важности | Обучение глубоких моделей быстрее благодаря надежной выборке с приблизительной значимостью | НейрИПС |
2018 год | Выборка по важности | Не все выборки одинаковы: глубокое обучение с выборкой по важности | ICML |
Увеличение данных
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Увеличение данных | LLMRec: большие языковые модели с расширением графов для рекомендаций | ВСДМ |
2024 год | Увеличение данных | LLM-DA: увеличение данных с помощью больших языковых моделей для распознавания именованных объектов с несколькими выстрелами | Арксив |
2023 год | Увеличение данных | MixGen: новое мультимодальное увеличение данных | ВАКВ |
2023 год | Увеличение данных | Самоконтроль с учетом дополнений для эффективного обучения GAN | НейрИПС |
2023 год | Увеличение данных | Улучшение сквозной обработки речи за счет эффективного использования текстовых данных с помощью скрытого синтеза | ЭМНЛП |
2023 год | Увеличение данных | FaMeSumm: исследование и повышение достоверности медицинских обобщений | ЭМНЛП |
Цель обучения
Дата | Ключевые слова | Бумага | Место проведения |
---|
2023 год | Цель обучения | Проблемы и применения больших языковых моделей | Арксив |
2023 год | Цель обучения | Эффективное изучение данных для извлечения открытой информации с помощью предварительно обученных языковых моделей | ЭМНЛП |
2023 год | Моделирование маскированного языка-образа | Масштабирование предварительной подготовки языка-изображения с помощью маскировки | ЦВПР |
2022 год | Моделирование маскированного изображения | Автоэнкодеры в масках — масштабируемые устройства для обучения зрению | ЦВПР |
2019 год | Моделирование замаскированного языка | МАССА: предварительная тренировка по маскированной последовательности для генерации языка | ICML |
LLM Тонкая настройка
Точная настройка с эффективным использованием параметров
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Точная настройка на основе LoRA | Dlora: распределенное решение для точной настройки с эффективным использованием параметров для большой языковой модели. | Арксив |
2024 год | Точная настройка на основе LoRA | SplitLoRA: платформа тонкой настройки с эффективным разделением параметров для больших языковых моделей | Арксив |
2024 год | Точная настройка на основе LoRA | Точная настройка с эффективным использованием данных для рекомендаций на основе LLM | СИГИР |
2024 год | Точная настройка на основе LoRA | MEFT: точная настройка с эффективным использованием памяти с помощью разреженного адаптера | список управления доступом |
2023 год | Точная настройка на основе LoRA | DyLoRA: эффективная по параметрам настройка предварительно обученных моделей с использованием динамической адаптации низкого ранга без поиска | ЕАКЛ |
2022 год | Точная настройка на основе маскировки | Эффективная точная настройка предварительно обученных языковых моделей путем адаптивной оптимизации подсетей | НейрИПС |
2021 год | Точная настройка на основе маскировки | BitFit: простая точная настройка с эффективным использованием параметров для моделей маскированного языка на основе преобразователей | список управления доступом |
2021 год | Точная настройка на основе маскировки | Воспитывайте ребенка на большой языковой модели: на пути к эффективной и обобщаемой тонкой настройке | ЭМНЛП |
2021 год | Точная настройка на основе маскировки | Избавление от предвзятости в языковых моделях путем разделения градиентов | список управления доступом |
2019 год | Точная настройка на основе маскировки | SMART: надежная и эффективная точная настройка предварительно обученных моделей естественного языка посредством принципиальной регуляризованной оптимизации | список управления доступом |
Полнопараметрическая точная настройка
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Полнопараметрическая точная настройка | Hift: иерархическая стратегия точной настройки полных параметров. | Арксив |
2024 год | Исследование полнопараметрической оптимизации тонкой настройки | Исследование оптимизации для точной настройки больших языковых моделей | Арксив |
2023 год | Сравнительное исследование между точной настройкой с полным параметром и на основе LoRA | Сравнительное исследование полнопараметрической и точной настройки на основе LoRA данных инструкций на китайском языке для инструкций по большой языковой модели | Арксив |
2023 год | Сравнительное исследование полнопараметрической и параметрически эффективной точной настройки | Сравнение методов, эффективных по параметрам, и полной тонкой настройки: пример классификации многоязычных новостных статей | Арксив |
2023 год | Полнопараметрическая точная настройка с ограниченными ресурсами | Полная точная настройка параметров для больших языковых моделей с ограниченными ресурсами | Арксив |
2023 год | Точная настройка с эффективным использованием памяти | Точная настройка языковых моделей с помощью прямых проходов | НейрИПС |
2023 год | Полнопараметрическая точная настройка для медицинских приложений | PMC-LLaMA: На пути к созданию языковых моделей с открытым исходным кодом для медицины | Арксив |
2022 год | Недостаток полнопараметрической точной настройки | Точная настройка может исказить предварительно обученные функции и ухудшить производительность вне распределения | ICLR |
Вывод LLM
Сжатие модели
Обрезка
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Неструктурированная обрезка | SparseLLM: к глобальному сокращению предварительно обученных языковых моделей | НейрИПС |
2024 год | Структурированная обрезка | В недоумении от недоумения: сокращение данных на основе недоумения с помощью небольших эталонных моделей | Арксив |
2024 год | Структурированная обрезка | BESA: сокращение больших языковых моделей с помощью блочного распределения разреженности с эффективным использованием параметров | Арксив |
2024 год | Структурированная обрезка | ShortGPT: уровни в больших языковых моделях более избыточны, чем вы ожидаете | Арксив |
2024 год | Структурированная обрезка | NutePrune: эффективное прогрессивное сокращение с многочисленными учителями для больших языковых моделей | Арксив |
2024 год | Структурированная обрезка | SliceGPT: сжатие больших языковых моделей путем удаления строк и столбцов | ICLR |
2024 год | Неструктурированная обрезка | Dynamic Sparse No Training: точная настройка для разреженных LLM без обучения | ICLR |
2024 год | Структурированная обрезка | Plug-and-Play: эффективный метод сокращения после обучения для больших языковых моделей | ICLR |
2023 год | Неструктурированная обрезка | Одноразовое сокращение смешанной разреженности с учетом чувствительности для больших языковых моделей | Арксив |
2023 год | Неструктурированная обрезка | SparseGPT: массивные языковые модели можно точно сократить за один раз | ICML |
2023 год | Неструктурированная обрезка | Простой и эффективный подход к сокращению больших языковых моделей | ICLR |
2023 год | Неструктурированная обрезка | AccelTran: ускоритель с учетом разреженности для динамического вывода с помощью трансформаторов | ТКАД |
2023 год | Структурированная обрезка | LLM-Pruner: о структурном сокращении больших языковых моделей | НейрИПС |
2023 год | Структурированная обрезка | LoSparse: структурированное сжатие больших языковых моделей на основе низкоранговой и разреженной аппроксимации | ICML |
2023 год | Структурированная обрезка | Структурированная обрезка для эффективных генеративных предварительно обученных языковых моделей | список управления доступом |
2023 год | Структурированная обрезка | ZipLM: структурированная обрезка языковых моделей с учетом вывода | НейрИПС |
2023 год | Контекстное сокращение | Дежавю: контекстуальная разреженность для эффективных LLM во время вывода | ICML |
Квантование
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Весовое квантование | Оценка квантованных моделей большого языка | Арксив |
2024 год | Весовое квантование | I-LLM: эффективный целочисленный вывод для полностью квантованных низкобитовых моделей большого языка | Арксив |
2024 год | Весовое квантование | ABQ-LLM: ускорение квантованного вывода произвольных битов для больших языковых моделей | Арксив |
2024 год | Совместное квантование с активацией веса | Вращение и перестановка для расширенного управления выбросами и эффективного квантования LLM | НейрИПС |
2024 год | Весовое квантование | OmniQuant: всенаправленное калиброванное квантование для больших языковых моделей | ICLR |
2023 год | Весовое квантование | Flexround: обучаемое округление на основе поэлементного деления для квантования после обучения. | ICML |
2023 год | Весовое квантование | Подавление выбросов+: точное квантование больших языковых моделей путем эквивалентного и оптимального сдвига и масштабирования. | ЭМНЛП |
2023 год | Весовое квантование | OWQ: Весовое квантование с учетом выбросов для эффективной точной настройки и вывода больших языковых моделей | АААИ |
2023 год | Весовое квантование | Gptq: точное постобученное квантование для генеративных предварительно обученных преобразователей. | ICLR |
2023 год | Весовое квантование | Динамическое квантование стагирования для эффективного обучения трансформаторов | ЭМНЛП |
2023 год | Весовое квантование | Обучение преобразователей для понимания естественного языка с учетом квантования и тензорного сжатия | Интерспич |
2023 год | Весовое квантование | QLoRA: эффективная точная настройка квантованных LLM | НейрИПС |
2023 год | Весовое квантование | Стабильное и низкоточное обучение крупномасштабным моделям визуального языка. | НейрИПС |
2023 год | Весовое квантование | Prequant: независимый от задачи подход к квантованию для предварительно обученных языковых моделей. | список управления доступом |
2023 год | Весовое квантование | Olive: Ускорение больших языковых моделей с помощью аппаратного квантования пары outliervictim. | ИСКА |
2023 год | Весовое квантование | Awq: квантование веса с учетом активации для сжатия и ускорения llm. | arXiv |
2023 год | Весовое квантование | Spqr: разреженное квантованное представление для сжатия веса фильма практически без потерь. | arXiv |
2023 год | Весовое квантование | SqueezeLLM: плотное и разреженное квантование | arXiv |
2023 год | Весовое квантование | LLM-QAT: обучение без данных квантованию для больших языковых моделей | arXiv |
2022 год | Активационное квантование | Gact: сжатое обучение активации для общих сетевых архитектур | ICML |
2022 год | Квантование с фиксированной точкой | Boost Vision Transformer с разреженностью и квантованием, дружественными к графическому процессору | список управления доступом |
2021 год | Активационное квантование | Ac-gc: сжатие активации с потерями и гарантированной сходимостью. | НейрИПС |
Динамическое ускорение
Обрезка входных данных
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Удаление токенов на основе очков | Адаптивное структурированное сокращение с подсказками для эффективного создания LLM | КОЛМ |
2024 год | Удаление токенов на основе очков | LazyLLM: динамическое сокращение токенов для эффективного вывода LLM в длинном контексте | Арксив |
2024 год | Удаление токенов на основе обучения | LLMLingua-2: Дистилляция данных для эффективного и точного оперативного сжатия, не зависящего от задачи | список управления доступом |
2024 год | Удаление токенов на основе обучения | Сжатая контекстная память для взаимодействия с языковой моделью в Интернете | ICLR |
2023 год | Удаление токенов на основе очков | Отсечение токенов с учетом ограничений и ранжированием для эффективного вывода трансформаторов | КДД |
2023 год | Удаление токенов на основе обучения | PuMer: сокращение и объединение токенов для эффективных языковых моделей Vision | список управления доступом |
2023 год | Удаление токенов на основе обучения | Infor-Coef: динамическое понижение выборки токенов на основе информационных узких мест для компактной и эффективной языковой модели | arXiv |
2023 год | Удаление токенов на основе обучения | SmartTrim: адаптивная обрезка токенов и параметров для эффективных моделей визуального языка | arXiv |
2022 год | Удаление токенов на основе обучения | Транскиммер: Трансформер учится послойному скиммеру | список управления доступом |
2022 год | Удаление токенов на основе очков | Изучено сокращение токенов для трансформаторов | КДД |
2021 год | Удаление токена на основе обучения | TR-BERT: динамическое сокращение токенов для ускорения вывода BERT | НААКЛ |
2021 год | Удаление токенов на основе очков | Эффективная архитектура разреженного внимания с каскадным токеном и обрезкой головы | HPCA |
Проектирование системы
Оптимизация развертывания
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Оптимизация оборудования | LUT TENSOR CORE: таблица поиска обеспечивает эффективное ускорение низкобитового вывода LLM | Арксив |
2023 год | Разгрузка оборудования | FlexGen: высокопроизводительный генеративный вывод больших языковых моделей с помощью одного графического процессора | ПМЛР |
2023 год | Разгрузка оборудования | Быстрый распределенный вывод для больших языковых моделей | arXiv |
2022 год | Совместный вывод | Лепестки: совместный вывод и точная настройка больших моделей | arXiv |
2022 год | Разгрузка оборудования | DeepSpeed Inference: обеспечение эффективного вывода моделей трансформаторов в беспрецедентном масштабе | IEEE SC22 |
Инфраструктура поддержки
Дата | Ключевые слова | Бумага | Место проведения |
---|
2024 год | Периферийные устройства | MobileLLM: оптимизация языковых моделей с субмиллиардным параметром для сценариев использования на устройствах | ICML |
2024 год | Периферийные устройства | EdgeShard: эффективный вывод LLM с помощью совместных периферийных вычислений | Арксив |
2024 год | Периферийные устройства | LLM любой точности: недорогое развертывание нескольких LLM разного размера | ICML |
2024 год | Периферийные устройства | Революционные решения в области памяти для повышения производительности вывода LLM | IEEE Микро |
2024 год | Периферийные устройства | Точка плавления: мобильная оценка преобразователей языка | МобиКом |
2024 год | Периферийные устройства | LLM как системная услуга на мобильных устройствах | Арксив |
2024 год | Периферийные устройства | LocMoE: MoE с низкими накладными расходами для обучения модели большого языка | Арксив |
2024 год | Периферийные устройства | Jetmoe: Достижение производительности llama2 с 0,1 млн долларов | Арксив |
2023 год | Периферийные устройства | Обучение моделей нейронного языка с большим словарным запасом с помощью частного федеративного обучения для устройств с ограниченными ресурсами | ICASSP |
2023 год | Периферийные устройства | Федеративная точная настройка LLM на самом краю: хорошо, плохо, зло | arXiv |
2023 год | Библиотеки | Colossal-AI: унифицированная система глубокого обучения для крупномасштабного параллельного обучения | ИКПП |
2023 год | Библиотеки | GPT-NeoX-20B: языковая модель авторегрессии с открытым исходным кодом | список управления доступом |
2023 год | Периферийные устройства | Большие языковые модели расширяют возможности автономного периферийного искусственного интеллекта для подключенного интеллекта | arXiv |
2022 год | Библиотеки | DeepSpeed Inference: обеспечение эффективного вывода моделей трансформаторов в беспрецедентном масштабе | IEEE SC22 |
2022 год | Библиотеки | Alpa: автоматизация меж- и внутриоператорного параллелизма для распределенного глубокого обучения | ОСДИ |
2022 год | Периферийные устройства | EdgeFormer: преобразователь с эффективным использованием параметров для генерации Seq2seq на устройстве | arXiv |
2022 год | Периферийные устройства | ProFormer: на пути к проекционным трансформаторам LSH на устройстве | список управления доступом |
2021 год | Периферийные устройства | Создайте больше функций с помощью дешевых операций для BERT | список управления доступом |
2021 год | Периферийные устройства | SqueezeBERT: Чему компьютерное зрение может научить НЛП об эффективных нейронных сетях? | СустаиНЛП |
2020 год | Периферийные устройства | Облегченный трансформатор с вниманием на дальнюю и ближнюю дистанцию | arXiv |
2019 год | Библиотеки | Megatron-LM: обучение языковых моделей с несколькими миллиардами параметров с использованием параллелизма моделей | IEEE SC22 |
2018 год | Библиотеки | Mesh-TensorFlow: глубокое обучение для суперкомпьютеров | НейрИПС |
Другие системы
Дата | Ключевые слова | Бумага | Место проведения |
---|
2023 год | Другие системы | Tabi: эффективная многоуровневая система вывода для больших языковых моделей | ЕвроСис |
2023 год | Другие системы | Поиск почти повторяющихся последовательностей в масштабе для оценки запоминания больших языковых моделей | ПАКММОД |
Показатели и критерии оценки ресурсоэффективности
? Метрики вычислений
Метрика | Описание | Пример использования |
---|
FLOP (операции с плавающей запятой) | количество арифметических операций над числами с плавающей запятой | [Флопы] |
Время обучения | общая продолжительность, необходимая для обучения, обычно измеряется в минутах, часах или днях | [минуты, дни] [часы] |
Время вывода/задержка | среднее время, необходимое для генерации выходных данных после получения входных данных, обычно измеряется временем настенных часов или временем часов CPU/GPU/TPU в миллисекундах или секундах. | [сквозная задержка в секундах] [задержка следующей генерации токена в миллисекундах] |
Пропускная способность | скорость генерации выходных токенов или выполнения задач, обычно измеряемая в токенах в секунду (TPS) или запросах в секунду (QPS) | [токены/ов] [запросы/ов] |
Коэффициент ускорения | улучшение скорости вывода по сравнению с базовой моделью | [ускорение времени вывода] [ускорение пропускной способности] |
? Метрики памяти
Метрика | Описание | Пример использования |
---|
Количество параметров | количество регулируемых переменных в нейронной сети LLM | [количество параметров] |
Размер модели | место для хранения, необходимое для хранения всей модели | [пиковое использование памяти в ГБ] |
⚡️ Энергетические показатели
Метрика | Описание | Пример использования |
---|
Энергопотребление | электрическая мощность, используемая в течение жизненного цикла LLM | [кВтч] |
Выбросы углерода | выбросы парниковых газов, связанные с потреблением энергии моделью | [кгCO2экв] |
Ниже приведены доступные пакеты программного обеспечения, предназначенные для отслеживания потребления энергии и выбросов углекислого газа в режиме реального времени.
- КодCarbon
- Карбонтрекер
- трекер воздействия эксперимента
Вы также можете найти следующую информацию полезной для прогнозирования потребления энергии и выбросов углекислого газа перед фактической тренировкой или
? Показатель финансовых затрат
Метрика | Описание | Пример использования |
---|
Долларов за параметр | общая стоимость обучения (или запуска) LLM по количеству параметров | |
? Метрика сетевой связи
Метрика | Описание | Пример использования |
---|
Объем связи | общий объем данных, передаваемых по сети во время конкретного выполнения LLM или прогона обучения | [объем связи в ТБ] |
Другие показатели
Метрика | Описание | Пример использования |
---|
Степень сжатия | уменьшение размера сжатой модели по сравнению с исходной моделью | [скорость сжатия] [процент оставшихся гирь] |
Лояльность/Верность | сходство между моделями учителя и ученика с точки зрения как согласованности прогнозов, так и выравнивания прогнозируемых распределений вероятностей. | [верность] [верность] |
Надежность | устойчивость к состязательным атакам, когда небольшие изменения входных данных потенциально могут манипулировать выходными данными модели. | [точность после атаки, номер запроса] |
Парето-оптимальность | оптимальные компромиссы между различными конкурирующими факторами | [Граница Парето (стоимость и точность)] [Граница Парето (производительность и провалы)] |
Тесты
Контрольный показатель | Описание | Бумага |
---|
Общие критерии НЛП | обширная коллекция общих тестов НЛП, таких как GLUE, SuperGLUE, WMT, SQuAD и т. д. | Комплексный обзор больших языковых моделей |
Динаборд | платформа с открытым исходным кодом для оценки моделей НЛП в облаке, предлагающая взаимодействие в реальном времени и комплексную оценку качества моделей с помощью настраиваемого Dynascore. | Dynaboard: платформа «Оценка как услуга» для комплексного сравнительного анализа следующего поколения |
Эффективный контроль качества | открытый конкурс вопросов и ответов (QA) на NeurIPS 2020, который фокусируется на создании точных, эффективно использующих память систем контроля качества. | Конкурс NeurIPS 2020 EfficientQA: системы, анализ и извлеченные уроки |
Общая задача SustaiNLP 2020 | задача разработки энергоэффективных моделей NLP путем оценки их производительности в восьми задачах NLU с использованием метрик SuperGLUE и оценки их энергопотребления во время вывода. | Обзор общей задачи SustaiNLP 2020 |
ELUE (Оценка эффективного понимания языка) | эталонная платформа для оценки эффективности модели НЛП в различных задачах, предлагающая онлайн-метрики и требующая для отправки только файла определения модели Python. | На пути к эффективному НЛП: стандартная оценка и прочная основа |
VLUE (Оценка понимания языка и видения) | комплексный тест для оценки моделей языка видения для решения множества задач, предлагающий онлайн-платформу для оценки и сравнения | VLUE: многозадачный тест для оценки моделей визуального языка |
Дальняя арена (LAG) | набор тестов, оценивающий эффективные модели Transformer для долгосрочных задач, охватывающий различные модальности и типы рассуждений, позволяя проводить оценки в условиях контролируемых ограничений ресурсов, подчеркивая реальную эффективность | Long Range Arena: эталон эффективных трансформаторов |
MS MARCO, ориентированная на эффективность | расширенный эталон поиска информации MS MARCO, который объединяет такие показатели эффективности, как задержка и стоимость каждого запроса, а также точность, что облегчает комплексную оценку IR-систем. | Выход за пределы точности последующих задач для сравнительного анализа поиска информации |
Ссылка
Если вы найдете этот список статей полезным для вашего исследования, пожалуйста, рассмотрите возможность цитирования:
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}