Nexa AI выпустила новейшую модель аудиоязыка OmniAudio-2.6B — мощный инструмент, оптимизированный для периферийных устройств. Он объединяет автоматическое распознавание речи (ASR) и языковые модели в единую структуру, значительно повышая скорость и эффективность обработки, а также решая проблемы неэффективности и задержки, вызванные связями между компонентами в традиционных архитектурах. Эта модель особенно подходит для устройств с ограниченными вычислительными ресурсами, таких как носимые устройства, автомобильные системы и устройства Интернета вещей.
Nexa AI недавно выпустила новую модель аудиоязыка OmniAudio-2.6B, разработанную для удовлетворения потребностей эффективного развертывания периферийных устройств. В отличие от традиционных архитектур, которые разделяют автоматическое распознавание речи (ASR) и языковые модели, OmniAudio-2.6B объединяет Gemma-2-2b, Whisper Turbo и специальные проекторы в единую структуру. Эта конструкция устраняет неэффективность традиционной системы и задержки, вызванные связывание различных компонентов в сети особенно подходит для устройств с ограниченными вычислительными ресурсами.
Основные моменты:
Скорость обработки: OmniAudio-2.6B превосходит других по производительности. На Mac Mini M4Pro 2024 года с использованием Nexa SDK и формата FP16GGUF модель достигла 35,23 токенов в секунду и 66 токенов в секунду в формате Q4_K_M GGUF. Для сравнения, Qwen2-Audio-7B может обрабатывать только 6,38 токенов в секунду на аналогичном оборудовании, демонстрируя значительное преимущество в скорости. Эффективность использования ресурсов. Компактная конструкция модели снижает зависимость от облачных ресурсов, что делает ее идеальной для носимых устройств с ограниченной мощностью и пропускной способностью, автомобильных систем и устройств Интернета вещей. Эта функция обеспечивает эффективную работу в ограниченных аппаратных условиях. Высокая точность и гибкость: хотя OmniAudio-2.6B ориентирован на скорость и эффективность, он также хорошо работает с точки зрения точности и подходит для различных задач, таких как транскрипция, перевод, обобщение и т. д. Будь то обработка речи в реальном времени или сложные языковые задачи, OmniAudio-2.6B может обеспечить точные результаты.
Выпуск OmniAudio-2.6B знаменует собой еще одно важное достижение Nexa AI в области моделей звукового языка. Его оптимизированная архитектура не только повышает скорость и эффективность обработки, но и открывает больше возможностей для периферийных вычислительных устройств. Поскольку Интернет вещей и носимые устройства продолжают становиться все более популярными, ожидается, что OmniAudio-2.6B будет играть важную роль в различных сценариях применения.
Адрес модели: https://huggingface.co/NexaAIDev/OmniAudio-2.6B
Адрес продукта: https://nexa.ai/blogs/omniaudio-2.6b
В целом, OmniAudio-2.6B внес революционные изменения в обработку звука на периферийных устройствах благодаря своей эффективной архитектуре и превосходной производительности, заложив прочную основу для широкой популяризации приложений искусственного интеллекта в будущем. Инновации Nexa AI заслуживают ожидания.