Библиотека Python для извлечения, классификации, сегментации и применения аудиофункций.
Это общая информация. Нажмите здесь, чтобы просмотреть всю вики-версию, и здесь, чтобы получить более общее введение в обработку аудиоданных.
Новости
- [2022-01-01] Если вы не заинтересованы в обучении аудиомоделей на основе собственных данных, вы можете проверить Deep Audio API, где вы можете напрямую отправлять аудиоданные и получать прогнозы в отношении соответствующего аудиоконтента (речь или тишина). , музыкальный жанр, пол говорящего и т. д.).
- [2021-08-06] глубокие аудио-функции классификация глубокого звука и извлечение признаков с использованием CNN и Pytorch
- Ознакомьтесь с paura — скриптом Python для записи и анализа аудиоданных в реальном времени.
Общий
pyAudioAnasis — это библиотека Python, охватывающая широкий спектр задач анализа звука. С помощью pyAudioAnaанализ вы можете:
- Извлечение аудиофункций и представлений (например, mfccs, спектрограмма, хромаграмма)
- Обучение , настройка параметров и оценка классификаторов аудиосегментов
- Классифицируйте неизвестные звуки
- Обнаружение аудиособытий и исключение периодов тишины из длительных записей
- Выполнение контролируемой сегментации (совместная сегментация - классификация)
- Выполнять неконтролируемую сегментацию (например, диаризацию говорящих) и извлекать миниатюры аудио.
- Обучайте и используйте модели аудиорегрессии (пример применения: распознавание эмоций)
- Примените уменьшение размерности для визуализации аудиоданных и сходства контента.
Установка
- Клонируйте исходный код этой библиотеки:
git clone https://github.com/tyiannak/pyAudioAnalysis.git
- Установите зависимости:
pip install -r ./requirements.txt
- Установите с помощью pip:
pip install -e .
Пример классификации аудио
Дополнительные примеры и подробные руководства можно найти на вики.
pyAudioAnasis предоставляет простые в использовании оболочки для выполнения задач анализа звука. Например, этот код сначала обучает классификатор аудиосегмента, учитывая набор файлов WAV, хранящихся в папках (каждая папка представляет отдельный класс), а затем обученный классификатор используется для классификации неизвестного аудиофайла WAV.
from pyAudioAnalysis import audioTrainTest as aT
aT . extract_features_and_train ([ "classifierData/music" , "classifierData/speech" ], 1.0 , 1.0 , aT . shortTermWindow , aT . shortTermStep , "svm" , "svmSMtemp" , False )
aT . file_classification ( "data/doremi.wav" , "svmSMtemp" , "svm" )
Результат: (0.0, массив([ 0.90156761, 0.09843239]), ['музыка', 'речь'])
Кроме того, для всех функций обеспечивается поддержка командной строки. Например, следующая команда извлекает спектрограмму аудиосигнала, хранящегося в файле WAV: python audioAnalysis.py fileSpectrogram -i data/doremi.wav
Дальнейшее чтение
Помимо этого файла README, чтобы лучше понять, как использовать эту библиотеку, следует прочитать следующее:
- Основы обработки аудио: обработка аудиофайлов в командной строке или Python, если вы хотите научиться обрабатывать аудиофайлы из командной строки, а также некоторые основы программирования по обработке аудиосигналов. Если вы ничего не знаете об аудио, начните с этого.
- Введение в анализ аудио: распознавание звуков с помощью машинного обучения. Эта статья немного глубже, чем предыдущая статья, и содержит полное введение в теорию и практику извлечения, классификации и сегментации аудио-характеристик (включает множество примеров на Python).
- Вики библиотеки
- Как использовать машинное обучение для окрашивания освещения в зависимости от музыкального настроения. Интересный вариант использования этой библиотеки для обучения оценщика музыкального настроения в реальном времени.
- В этой публикации представлено более общее и теоретическое описание принятых методов (а также несколько экспериментов в конкретных случаях использования). Пожалуйста, используйте следующую цитату при цитировании pyAudioAnaанализа в своей исследовательской работе :
@ article { giannakopoulos2015pyaudioanalysis ,
title = { pyAudioAnalysis : An Open - Source Python Library for Audio Signal Analysis },
author = { Giannakopoulos , Theodoros },
journal = { PloS one },
volume = { 10 },
number = { 12 },
year = { 2015 },
publisher = { Public Library of Science }
}
Материалы по аудиоанализу, связанные с Matlab, можно найти в этой книге.
Автор
Теодорос Яннакопулос, главный научный сотрудник мультимодального машинного обучения в группе мультимедийного анализа Лаборатории вычислительного интеллекта (MagCIL) Института информатики и телекоммуникаций Национального центра научных исследований «Демокритос»