В эпоху, когда мобильные устройства и умные дома становятся все более популярными, эффективное использование больших языковых моделей (LLM) стало насущной необходимостью. Однако ограниченные вычислительные ресурсы и память периферийных устройств становятся узкими местами. В этой статье представлена технология T-MAC, метод, основанный на справочных таблицах, который может значительно повысить эффективность работы низкобитового LLM на периферийных устройствах, предоставляя интеллектуальным устройствам более мощные возможности интеллектуальной обработки, тем самым обеспечивая более удобный и эффективный интеллектуальный пользователь. опыт.
В эту эпоху, когда умные устройства повсюду, мы стремимся сделать мобильные телефоны, планшеты и даже устройства умного дома более мощными интеллектуальными возможностями обработки данных. Однако эти периферийные устройства имеют ограниченные аппаратные ресурсы, особенно память и вычислительную мощность, что ограничивает развертывание и запуск на них больших языковых моделей (LLM). Представьте себе, как изменился бы наш мир, если бы мы могли оснастить эти устройства мощными моделями, которые могли бы понимать естественный язык, отвечать на вопросы и даже творить?
Это предпосылка для рождения технологии T-MAC. T-MAC, полное название MAC на основе Table-Lookup, представляет собой метод, основанный на таблицах поиска, который позволяет эффективно работать на процессоре большим низкоразрядным языковым моделям, тем самым обеспечивая интеллектуальное обновление периферийных устройств.
Большие языковые модели часто содержат миллиарды или даже десятки миллиардов параметров, для хранения которых требуется большой объем памяти. Чтобы развернуть эти модели на периферийных устройствах, нам необходимо квантовать веса модели, то есть использовать меньшее количество битов для представления весов, тем самым уменьшая объем памяти модели. Однако во время работы квантованная модель требует матричного умножения смешанной точности (mpGEMM), что нетипично для существующих аппаратных и программных систем и не имеет эффективной поддержки.
Основная идея T-MAC заключается в преобразовании традиционных операций умножения на основе типов данных в поиск по битовой справочной таблице (LUT). Этот метод не только исключает операции умножения, но и сокращает операции сложения, тем самым значительно повышая эффективность работы.
В частности, T-MAC реализуется посредством следующих шагов:
Разложите матрицу весов на несколько однобитовых матриц.
Предварительно вычислите произведение вектора активации со всеми возможными однобитовыми шаблонами и сохраните результаты в справочной таблице.
Во время вывода окончательный результат умножения матрицы быстро получается с помощью индекса справочной таблицы и операций накопления.
Благодаря тестированию на различных периферийных устройствах T-MAC продемонстрировал значительные преимущества в производительности. По сравнению с существующей реализацией llama.cpp, T-MAC повышает пропускную способность в 4 раза и снижает потребление энергии на 70%. Это позволяет даже устройствам начального уровня, таким как Raspberry Pi5, генерировать токены быстрее, чем средняя скорость чтения взрослого человека.
T-MAC имеет не только теоретические преимущества, но и потенциал для практического применения. T-MAC может сыграть важную роль, будь то распознавание речи в реальном времени и обработка естественного языка на смартфонах или обеспечение более интеллектуального интерактивного взаимодействия на устройствах «умного дома».
Технология T-MAC обеспечивает эффективное и энергосберегающее решение для развертывания низкобитовых моделей большого языка на периферийных устройствах. Это может не только повысить уровень интеллекта устройства, но и предоставить пользователям более богатый и удобный интеллектуальный опыт. Благодаря постоянному развитию и оптимизации технологий у нас есть основания полагать, что T-MAC будет играть все более важную роль в области периферийного интеллекта.
Адрес открытого исходного кода: https://github.com/microsoft/T-MAC.
Адрес статьи: https://www.arxiv.org/pdf/2407.00088.
Появление технологии T-MAC привело к новым прорывам в области периферийных вычислений. Ее высокая эффективность и энергосбережение открывают широкие перспективы применения на различных интеллектуальных устройствах. Я верю, что в будущем T-MAC будет совершенствоваться и способствовать построению более умного и удобного мира.